Commit 6a9e3a9ff3dcde72a13deeeea4c4649d32dd7981

Authored by Erickson Silva
1 parent 5dea0661
Exists in master and in 1 other branch devel

Adiciona codificação iso-8859-1 na remoção de acentos

Showing 2 changed files with 8 additions and 2 deletions   Show diff stats
src/AplicaRegras.py
@@ -293,7 +293,10 @@ class AplicaRegras(object): @@ -293,7 +293,10 @@ class AplicaRegras(object):
293 return lista_nodes 293 return lista_nodes
294 294
295 def remover_acento(self, texto): 295 def remover_acento(self, texto):
296 - return normalize('NFKD', texto.encode('utf-8').decode('utf-8')).encode('ascii', 'ignore') 296 + try:
  297 + return normalize('NFKD', texto.encode('utf-8').decode('utf-8')).encode('ASCII', 'ignore')
  298 + except:
  299 + return normalize('NFKD', texto.encode('iso-8859-1').decode('iso-8859-1')).encode('ASCII','ignore')
297 300
298 # Gera um ParentedTree do NLTK apartir da string recebida 301 # Gera um ParentedTree do NLTK apartir da string recebida
299 def gerar_no(self, s): 302 def gerar_no(self, s):
@@ -124,7 +124,10 @@ def constroiAnalisador(s): @@ -124,7 +124,10 @@ def constroiAnalisador(s):
124 return nltk.ChartParser(cfg) 124 return nltk.ChartParser(cfg)
125 125
126 def removeAcento(texto): 126 def removeAcento(texto):
127 - return normalize('NFKD', texto.encode('utf-8').decode('utf-8')).encode('ascii', 'ignore') 127 + try:
  128 + return normalize('NFKD', texto.encode('utf-8').decode('utf-8')).encode('ASCII', 'ignore')
  129 + except:
  130 + return normalize('NFKD', texto.encode('iso-8859-1').decode('iso-8859-1')).encode('ASCII','ignore')
128 131
129 def exibeArvores(arvores): 132 def exibeArvores(arvores):
130 """Função 'wrapper' para a função de exibição de árvores do NLTK""" 133 """Função 'wrapper' para a função de exibição de árvores do NLTK"""