Commit 6a9e3a9ff3dcde72a13deeeea4c4649d32dd7981

Authored by Erickson Silva
1 parent 5dea0661
Exists in master and in 1 other branch devel

Adiciona codificação iso-8859-1 na remoção de acentos

Showing 2 changed files with 8 additions and 2 deletions   Show diff stats
src/AplicaRegras.py
... ... @@ -293,7 +293,10 @@ class AplicaRegras(object):
293 293 return lista_nodes
294 294  
295 295 def remover_acento(self, texto):
296   - return normalize('NFKD', texto.encode('utf-8').decode('utf-8')).encode('ascii', 'ignore')
  296 + try:
  297 + return normalize('NFKD', texto.encode('utf-8').decode('utf-8')).encode('ASCII', 'ignore')
  298 + except:
  299 + return normalize('NFKD', texto.encode('iso-8859-1').decode('iso-8859-1')).encode('ASCII','ignore')
297 300  
298 301 # Gera um ParentedTree do NLTK apartir da string recebida
299 302 def gerar_no(self, s):
... ...
src/alexp.py
... ... @@ -124,7 +124,10 @@ def constroiAnalisador(s):
124 124 return nltk.ChartParser(cfg)
125 125  
126 126 def removeAcento(texto):
127   - return normalize('NFKD', texto.encode('utf-8').decode('utf-8')).encode('ascii', 'ignore')
  127 + try:
  128 + return normalize('NFKD', texto.encode('utf-8').decode('utf-8')).encode('ASCII', 'ignore')
  129 + except:
  130 + return normalize('NFKD', texto.encode('iso-8859-1').decode('iso-8859-1')).encode('ASCII','ignore')
128 131  
129 132 def exibeArvores(arvores):
130 133 """Função 'wrapper' para a função de exibição de árvores do NLTK"""
... ...