Commit f97df257daa0f10d7a976b0cd8447c184233fed9
1 parent
4664c2c6
Exists in
master
and in
1 other branch
Remove tokens classfiicados como pontuação da lista morfológica
Showing
1 changed file
with
2 additions
and
1 deletions
Show diff stats
src/alexp.py
@@ -58,7 +58,8 @@ def etiquetaSentenca(s): | @@ -58,7 +58,8 @@ def etiquetaSentenca(s): | ||
58 | anotada = AnotaCorpus.anota_sentencas([s],etiquetador,"hunpos")[0] | 58 | anotada = AnotaCorpus.anota_sentencas([s],etiquetador,"hunpos")[0] |
59 | #anotada[0] = (anotada[0][0].lower(), anotada[0][1]) | 59 | #anotada[0] = (anotada[0][0].lower(), anotada[0][1]) |
60 | #return anotada | 60 | #return anotada |
61 | - return [[x[0].lower(),x[1]] for x in anotada] | 61 | + tag_punctuation = [".",",","QT","("] |
62 | + return [[x[0].lower(),x[1]] for x in anotada if x[1] not in tag_punctuation] | ||
62 | 63 | ||
63 | def geraEntradasLexicais(lista): | 64 | def geraEntradasLexicais(lista): |
64 | """Gera entradas lexicais no formato CFG do NLTK a partir de lista de pares constituídos de tokens e suas etiquetas. | 65 | """Gera entradas lexicais no formato CFG do NLTK a partir de lista de pares constituídos de tokens e suas etiquetas. |