From b648677136fb39b4ac9c6c6ef9192c9a2dff3d44 Mon Sep 17 00:00:00 2001 From: Erickson Silva Date: Fri, 2 Oct 2015 10:45:25 -0300 Subject: [PATCH] Corrige substituição de travessão --- src/alexp.py | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/src/alexp.py b/src/alexp.py index 6a6a419..be0af98 100644 --- a/src/alexp.py +++ b/src/alexp.py @@ -41,7 +41,7 @@ def toqueniza(s): """Decodifica string utilizando utf-8, retornando uma lista de tokens em unicode. """ regex = re.compile('[%s]' % re.escape('“”')) - decodificada=regex.sub('-',s.replace("–", "-")).decode("utf-8") + decodificada=regex.sub('"',s.replace("–", "-").replace("—", "-")).decode("utf-8") return AnotaCorpus.TOK_PORT.tokenize(decodificada) def getAnaliseMorfologica(): -- libgit2 0.21.2