diff --git a/src/alexp.py b/src/alexp.py index 6a6a419..be0af98 100644 --- a/src/alexp.py +++ b/src/alexp.py @@ -41,7 +41,7 @@ def toqueniza(s): """Decodifica string utilizando utf-8, retornando uma lista de tokens em unicode. """ regex = re.compile('[%s]' % re.escape('“”')) - decodificada=regex.sub('-',s.replace("–", "-")).decode("utf-8") + decodificada=regex.sub('"',s.replace("–", "-").replace("—", "-")).decode("utf-8") return AnotaCorpus.TOK_PORT.tokenize(decodificada) def getAnaliseMorfologica(): -- libgit2 0.21.2