Commit 4841f13a147b05d1115cc66d3c65052315908980
1 parent
c3abbdb5
Exists in
master
and in
1 other branch
Remove sinais de pontuação da análise sintática
Showing
1 changed file
with
7 additions
and
4 deletions
Show diff stats
src/alexp.py
... | ... | @@ -66,11 +66,11 @@ def etiquetaSentenca(s): |
66 | 66 | if tupla[0] != "": anotada_corrigida.append(tupla) |
67 | 67 | else: |
68 | 68 | if x[0] == ".": |
69 | - anotada_corrigida.append(["[ponto]".decode("utf-8"),x[1]]) | |
69 | + anotada_corrigida.append(["[ponto]".decode("utf-8"),"SPT"]) | |
70 | 70 | elif x[0] == "?": |
71 | - anotada_corrigida.append(["[interrogacao]".decode("utf-8"),x[1]]) | |
71 | + anotada_corrigida.append(["[interrogacao]".decode("utf-8"),"SPT"]) | |
72 | 72 | elif x[0] == "!": |
73 | - anotada_corrigida.append(["[exclamacao]".decode("utf-8"),x[1]]) | |
73 | + anotada_corrigida.append(["[exclamacao]".decode("utf-8"),"SPT"]) | |
74 | 74 | return anotada_corrigida |
75 | 75 | |
76 | 76 | def geraEntradasLexicais(lista): |
... | ... | @@ -120,7 +120,10 @@ def analisaSentenca(sentenca): |
120 | 120 | """Retorna lista de árvores de estrutura sintagmática para a sentença dada sob a forma de uma lista de tokens, com base na gramática CFG cujo caminho é especificado como segundo argumento da função. Esse caminho é relativo à pasta nltk_data da instalação local do NLTK. A partir da etiquetagem morfossintática da sentença são geradas entradas lexicais que passam a integrar a gramática CFG. O caminho da gramática e o parser gerado são armazenados como tupla na variável ANALISADORES. |
121 | 121 | """ |
122 | 122 | parser=constroiAnalisador(sentenca) |
123 | - codificada=[removeAcento(w[0]).encode("utf-8") for w in sentenca_anotada] | |
123 | + codificada=[] | |
124 | + for t in sentenca_anotada: | |
125 | + if t[1] != "SPT": | |
126 | + codificada.append(removeAcento(t[0]).encode("utf-8")) | |
124 | 127 | trees=parser.parse_one(codificada) |
125 | 128 | return trees |
126 | 129 | ... | ... |