Commit 5d7f200def8109148a1684e7262e78f2942d7347

Authored by Erickson Silva
1 parent 537d95fb
Exists in master and in 1 other branch devel

Replace em caracteres graficos (hífen, aspas) normalmente encontrados em documentos PDF

Showing 2 changed files with 7 additions and 3 deletions   Show diff stats
src/PortGlosa.py
... ... @@ -18,7 +18,8 @@ taxas = []
18 18  
19 19 def traduzir(texto, log=None, threads=False, taxa_qualidade=False):
20 20 tradutor.set_level(log) if log != None else tradutor.desativar_logging()
21   - if texto.isspace() or texto == "" or not checar_idioma(texto):
  21 + if texto.isspace() or texto == "":
  22 + #or not checar_idioma(texto):
22 23 return "ESCOLHER TEXTO CERTO"
23 24  
24 25 elif threads:
... ... @@ -71,7 +72,9 @@ def quebrar_texto(texto):
71 72 lista_texto.append(texto_quebrado[i])
72 73 if '.' in texto_quebrado[i]:
73 74 if not dicionario.has_pron_tratam(texto_quebrado[i].lower()) and i < tamanho_texto_quebrado-1 and texto_quebrado[i+1][0].isupper():
74   - sentenca = " ".join(lista_texto)[:-1]+"."
  75 + sentenca = " ".join(lista_texto)
  76 + if not sentenca[-1].isdigit():
  77 + sentenca = sentenca[:-1]+"."
75 78 sentencas.append(sentenca)
76 79 lista_texto = []
77 80 continue
... ...
src/alexp.py
... ... @@ -40,7 +40,8 @@ sleep_times=[0.1,0.2]
40 40 def toqueniza(s):
41 41 """Decodifica string utilizando utf-8, retornando uma lista de tokens em unicode.
42 42 """
43   - decodificada=s.decode("utf-8")
  43 + regex = re.compile('[%s]' % re.escape('“”'))
  44 + decodificada=regex.sub('-',s.replace("–", "-")).decode("utf-8")
44 45 return AnotaCorpus.TOK_PORT.tokenize(decodificada)
45 46  
46 47 def getAnaliseMorfologica():
... ...