Commit 4841f13a147b05d1115cc66d3c65052315908980

Authored by Erickson Silva
1 parent c3abbdb5
Exists in master and in 1 other branch devel

Remove sinais de pontuação da análise sintática

Showing 1 changed file with 7 additions and 4 deletions   Show diff stats
@@ -66,11 +66,11 @@ def etiquetaSentenca(s): @@ -66,11 +66,11 @@ def etiquetaSentenca(s):
66 if tupla[0] != "": anotada_corrigida.append(tupla) 66 if tupla[0] != "": anotada_corrigida.append(tupla)
67 else: 67 else:
68 if x[0] == ".": 68 if x[0] == ".":
69 - anotada_corrigida.append(["[ponto]".decode("utf-8"),x[1]]) 69 + anotada_corrigida.append(["[ponto]".decode("utf-8"),"SPT"])
70 elif x[0] == "?": 70 elif x[0] == "?":
71 - anotada_corrigida.append(["[interrogacao]".decode("utf-8"),x[1]]) 71 + anotada_corrigida.append(["[interrogacao]".decode("utf-8"),"SPT"])
72 elif x[0] == "!": 72 elif x[0] == "!":
73 - anotada_corrigida.append(["[exclamacao]".decode("utf-8"),x[1]]) 73 + anotada_corrigida.append(["[exclamacao]".decode("utf-8"),"SPT"])
74 return anotada_corrigida 74 return anotada_corrigida
75 75
76 def geraEntradasLexicais(lista): 76 def geraEntradasLexicais(lista):
@@ -120,7 +120,10 @@ def analisaSentenca(sentenca): @@ -120,7 +120,10 @@ def analisaSentenca(sentenca):
120 """Retorna lista de árvores de estrutura sintagmática para a sentença dada sob a forma de uma lista de tokens, com base na gramática CFG cujo caminho é especificado como segundo argumento da função. Esse caminho é relativo à pasta nltk_data da instalação local do NLTK. A partir da etiquetagem morfossintática da sentença são geradas entradas lexicais que passam a integrar a gramática CFG. O caminho da gramática e o parser gerado são armazenados como tupla na variável ANALISADORES. 120 """Retorna lista de árvores de estrutura sintagmática para a sentença dada sob a forma de uma lista de tokens, com base na gramática CFG cujo caminho é especificado como segundo argumento da função. Esse caminho é relativo à pasta nltk_data da instalação local do NLTK. A partir da etiquetagem morfossintática da sentença são geradas entradas lexicais que passam a integrar a gramática CFG. O caminho da gramática e o parser gerado são armazenados como tupla na variável ANALISADORES.
121 """ 121 """
122 parser=constroiAnalisador(sentenca) 122 parser=constroiAnalisador(sentenca)
123 - codificada=[removeAcento(w[0]).encode("utf-8") for w in sentenca_anotada] 123 + codificada=[]
  124 + for t in sentenca_anotada:
  125 + if t[1] != "SPT":
  126 + codificada.append(removeAcento(t[0]).encode("utf-8"))
124 trees=parser.parse_one(codificada) 127 trees=parser.parse_one(codificada)
125 return trees 128 return trees
126 129