Commit 4841f13a147b05d1115cc66d3c65052315908980
1 parent
c3abbdb5
Exists in
master
and in
1 other branch
Remove sinais de pontuação da análise sintática
Showing
1 changed file
with
7 additions
and
4 deletions
Show diff stats
src/alexp.py
@@ -66,11 +66,11 @@ def etiquetaSentenca(s): | @@ -66,11 +66,11 @@ def etiquetaSentenca(s): | ||
66 | if tupla[0] != "": anotada_corrigida.append(tupla) | 66 | if tupla[0] != "": anotada_corrigida.append(tupla) |
67 | else: | 67 | else: |
68 | if x[0] == ".": | 68 | if x[0] == ".": |
69 | - anotada_corrigida.append(["[ponto]".decode("utf-8"),x[1]]) | 69 | + anotada_corrigida.append(["[ponto]".decode("utf-8"),"SPT"]) |
70 | elif x[0] == "?": | 70 | elif x[0] == "?": |
71 | - anotada_corrigida.append(["[interrogacao]".decode("utf-8"),x[1]]) | 71 | + anotada_corrigida.append(["[interrogacao]".decode("utf-8"),"SPT"]) |
72 | elif x[0] == "!": | 72 | elif x[0] == "!": |
73 | - anotada_corrigida.append(["[exclamacao]".decode("utf-8"),x[1]]) | 73 | + anotada_corrigida.append(["[exclamacao]".decode("utf-8"),"SPT"]) |
74 | return anotada_corrigida | 74 | return anotada_corrigida |
75 | 75 | ||
76 | def geraEntradasLexicais(lista): | 76 | def geraEntradasLexicais(lista): |
@@ -120,7 +120,10 @@ def analisaSentenca(sentenca): | @@ -120,7 +120,10 @@ def analisaSentenca(sentenca): | ||
120 | """Retorna lista de árvores de estrutura sintagmática para a sentença dada sob a forma de uma lista de tokens, com base na gramática CFG cujo caminho é especificado como segundo argumento da função. Esse caminho é relativo à pasta nltk_data da instalação local do NLTK. A partir da etiquetagem morfossintática da sentença são geradas entradas lexicais que passam a integrar a gramática CFG. O caminho da gramática e o parser gerado são armazenados como tupla na variável ANALISADORES. | 120 | """Retorna lista de árvores de estrutura sintagmática para a sentença dada sob a forma de uma lista de tokens, com base na gramática CFG cujo caminho é especificado como segundo argumento da função. Esse caminho é relativo à pasta nltk_data da instalação local do NLTK. A partir da etiquetagem morfossintática da sentença são geradas entradas lexicais que passam a integrar a gramática CFG. O caminho da gramática e o parser gerado são armazenados como tupla na variável ANALISADORES. |
121 | """ | 121 | """ |
122 | parser=constroiAnalisador(sentenca) | 122 | parser=constroiAnalisador(sentenca) |
123 | - codificada=[removeAcento(w[0]).encode("utf-8") for w in sentenca_anotada] | 123 | + codificada=[] |
124 | + for t in sentenca_anotada: | ||
125 | + if t[1] != "SPT": | ||
126 | + codificada.append(removeAcento(t[0]).encode("utf-8")) | ||
124 | trees=parser.parse_one(codificada) | 127 | trees=parser.parse_one(codificada) |
125 | return trees | 128 | return trees |
126 | 129 |