Commit 4841f13a147b05d1115cc66d3c65052315908980

Authored by Erickson Silva
1 parent c3abbdb5
Exists in master and in 1 other branch devel

Remove sinais de pontuação da análise sintática

Showing 1 changed file with 7 additions and 4 deletions   Show diff stats
src/alexp.py
... ... @@ -66,11 +66,11 @@ def etiquetaSentenca(s):
66 66 if tupla[0] != "": anotada_corrigida.append(tupla)
67 67 else:
68 68 if x[0] == ".":
69   - anotada_corrigida.append(["[ponto]".decode("utf-8"),x[1]])
  69 + anotada_corrigida.append(["[ponto]".decode("utf-8"),"SPT"])
70 70 elif x[0] == "?":
71   - anotada_corrigida.append(["[interrogacao]".decode("utf-8"),x[1]])
  71 + anotada_corrigida.append(["[interrogacao]".decode("utf-8"),"SPT"])
72 72 elif x[0] == "!":
73   - anotada_corrigida.append(["[exclamacao]".decode("utf-8"),x[1]])
  73 + anotada_corrigida.append(["[exclamacao]".decode("utf-8"),"SPT"])
74 74 return anotada_corrigida
75 75  
76 76 def geraEntradasLexicais(lista):
... ... @@ -120,7 +120,10 @@ def analisaSentenca(sentenca):
120 120 """Retorna lista de árvores de estrutura sintagmática para a sentença dada sob a forma de uma lista de tokens, com base na gramática CFG cujo caminho é especificado como segundo argumento da função. Esse caminho é relativo à pasta nltk_data da instalação local do NLTK. A partir da etiquetagem morfossintática da sentença são geradas entradas lexicais que passam a integrar a gramática CFG. O caminho da gramática e o parser gerado são armazenados como tupla na variável ANALISADORES.
121 121 """
122 122 parser=constroiAnalisador(sentenca)
123   - codificada=[removeAcento(w[0]).encode("utf-8") for w in sentenca_anotada]
  123 + codificada=[]
  124 + for t in sentenca_anotada:
  125 + if t[1] != "SPT":
  126 + codificada.append(removeAcento(t[0]).encode("utf-8"))
124 127 trees=parser.parse_one(codificada)
125 128 return trees
126 129  
... ...