From f97df257daa0f10d7a976b0cd8447c184233fed9 Mon Sep 17 00:00:00 2001 From: Erickson Silva Date: Fri, 27 Mar 2015 13:20:36 -0300 Subject: [PATCH] Remove tokens classfiicados como pontuação da lista morfológica --- src/alexp.py | 3 ++- 1 file changed, 2 insertions(+), 1 deletion(-) diff --git a/src/alexp.py b/src/alexp.py index 95d33c2..52f5bb5 100644 --- a/src/alexp.py +++ b/src/alexp.py @@ -58,7 +58,8 @@ def etiquetaSentenca(s): anotada = AnotaCorpus.anota_sentencas([s],etiquetador,"hunpos")[0] #anotada[0] = (anotada[0][0].lower(), anotada[0][1]) #return anotada - return [[x[0].lower(),x[1]] for x in anotada] + tag_punctuation = [".",",","QT","("] + return [[x[0].lower(),x[1]] for x in anotada if x[1] not in tag_punctuation] def geraEntradasLexicais(lista): """Gera entradas lexicais no formato CFG do NLTK a partir de lista de pares constituídos de tokens e suas etiquetas. -- libgit2 0.21.2