Commit 4841f13a147b05d1115cc66d3c65052315908980
1 parent
c3abbdb5
Exists in
master
and in
1 other branch
Remove sinais de pontuação da análise sintática
Showing
1 changed file
with
7 additions
and
4 deletions
Show diff stats
src/alexp.py
| ... | ... | @@ -66,11 +66,11 @@ def etiquetaSentenca(s): |
| 66 | 66 | if tupla[0] != "": anotada_corrigida.append(tupla) |
| 67 | 67 | else: |
| 68 | 68 | if x[0] == ".": |
| 69 | - anotada_corrigida.append(["[ponto]".decode("utf-8"),x[1]]) | |
| 69 | + anotada_corrigida.append(["[ponto]".decode("utf-8"),"SPT"]) | |
| 70 | 70 | elif x[0] == "?": |
| 71 | - anotada_corrigida.append(["[interrogacao]".decode("utf-8"),x[1]]) | |
| 71 | + anotada_corrigida.append(["[interrogacao]".decode("utf-8"),"SPT"]) | |
| 72 | 72 | elif x[0] == "!": |
| 73 | - anotada_corrigida.append(["[exclamacao]".decode("utf-8"),x[1]]) | |
| 73 | + anotada_corrigida.append(["[exclamacao]".decode("utf-8"),"SPT"]) | |
| 74 | 74 | return anotada_corrigida |
| 75 | 75 | |
| 76 | 76 | def geraEntradasLexicais(lista): |
| ... | ... | @@ -120,7 +120,10 @@ def analisaSentenca(sentenca): |
| 120 | 120 | """Retorna lista de árvores de estrutura sintagmática para a sentença dada sob a forma de uma lista de tokens, com base na gramática CFG cujo caminho é especificado como segundo argumento da função. Esse caminho é relativo à pasta nltk_data da instalação local do NLTK. A partir da etiquetagem morfossintática da sentença são geradas entradas lexicais que passam a integrar a gramática CFG. O caminho da gramática e o parser gerado são armazenados como tupla na variável ANALISADORES. |
| 121 | 121 | """ |
| 122 | 122 | parser=constroiAnalisador(sentenca) |
| 123 | - codificada=[removeAcento(w[0]).encode("utf-8") for w in sentenca_anotada] | |
| 123 | + codificada=[] | |
| 124 | + for t in sentenca_anotada: | |
| 125 | + if t[1] != "SPT": | |
| 126 | + codificada.append(removeAcento(t[0]).encode("utf-8")) | |
| 124 | 127 | trees=parser.parse_one(codificada) |
| 125 | 128 | return trees |
| 126 | 129 | ... | ... |