From 6a9e3a9ff3dcde72a13deeeea4c4649d32dd7981 Mon Sep 17 00:00:00 2001 From: Erickson Silva Date: Fri, 27 Mar 2015 13:44:57 -0300 Subject: [PATCH] Adiciona codificação iso-8859-1 na remoção de acentos --- src/AplicaRegras.py | 5 ++++- src/alexp.py | 5 ++++- 2 files changed, 8 insertions(+), 2 deletions(-) diff --git a/src/AplicaRegras.py b/src/AplicaRegras.py index ac4f4dc..bf16034 100644 --- a/src/AplicaRegras.py +++ b/src/AplicaRegras.py @@ -293,7 +293,10 @@ class AplicaRegras(object): return lista_nodes def remover_acento(self, texto): - return normalize('NFKD', texto.encode('utf-8').decode('utf-8')).encode('ascii', 'ignore') + try: + return normalize('NFKD', texto.encode('utf-8').decode('utf-8')).encode('ASCII', 'ignore') + except: + return normalize('NFKD', texto.encode('iso-8859-1').decode('iso-8859-1')).encode('ASCII','ignore') # Gera um ParentedTree do NLTK apartir da string recebida def gerar_no(self, s): diff --git a/src/alexp.py b/src/alexp.py index 52f5bb5..1e2e9f6 100644 --- a/src/alexp.py +++ b/src/alexp.py @@ -124,7 +124,10 @@ def constroiAnalisador(s): return nltk.ChartParser(cfg) def removeAcento(texto): - return normalize('NFKD', texto.encode('utf-8').decode('utf-8')).encode('ascii', 'ignore') + try: + return normalize('NFKD', texto.encode('utf-8').decode('utf-8')).encode('ASCII', 'ignore') + except: + return normalize('NFKD', texto.encode('iso-8859-1').decode('iso-8859-1')).encode('ASCII','ignore') def exibeArvores(arvores): """Função 'wrapper' para a função de exibição de árvores do NLTK""" -- libgit2 0.21.2