From 1bc072e96dd259513368bf2885d7c8e2933a417e Mon Sep 17 00:00:00 2001 From: Erickson Silva Date: Mon, 15 Jun 2015 15:12:40 -0300 Subject: [PATCH] Ignora remoção da vírgula quando a classificação for 'NUM' e não converte número por extenso quando tiver apenas a escala --- src/ConverteExtenso.py | 2 ++ src/alexp.py | 3 +++ 2 files changed, 5 insertions(+), 0 deletions(-) diff --git a/src/ConverteExtenso.py b/src/ConverteExtenso.py index a91d657..96ba274 100644 --- a/src/ConverteExtenso.py +++ b/src/ConverteExtenso.py @@ -90,6 +90,8 @@ o resultado. def convert_extenso(extenso): global newToken, auxToken extensoQuebrado = extenso.lower().split(" ") + if len(extensoQuebrado) == 1 and und.has_key(simplifica(extensoQuebrado[0])): + return extenso nums = [] it = Iterator() it.load(extensoQuebrado) diff --git a/src/alexp.py b/src/alexp.py index 3db1285..ef96c31 100644 --- a/src/alexp.py +++ b/src/alexp.py @@ -59,6 +59,9 @@ def etiquetaSentenca(s): anotada_corrigida = [] for x in anotada: if x[1] not in tag_punctuation: + if x[1] == "NUM": + anotada_corrigida.append(x) + continue tupla = [regex.sub('',x[0]).lower(),x[1]] if tupla[0] != "": anotada_corrigida.append(tupla) return anotada_corrigida -- libgit2 0.21.2