Commit 744f614ad8c71fc3b9b0f9775a3f8b6f88721550
1 parent
08259118
Exists in
master
and in
1 other branch
Corrige quebra de orações
Showing
2 changed files
with
49 additions
and
5 deletions
Show diff stats
src/LerDicionarios.py
| ... | ... | @@ -29,7 +29,8 @@ class LerDicionarios(Singleton): |
| 29 | 29 | self.set_art = [] |
| 30 | 30 | self.set_prep = [] |
| 31 | 31 | self.dic_sin = {} |
| 32 | - self.set_sb_2_gen = [] | |
| 32 | + self.set_sb_2_gen = [] | |
| 33 | + self.set_pron_trat = [] | |
| 33 | 34 | self.dic_vb_infinitivo = {} |
| 34 | 35 | self.set_vb_ligacao = [] |
| 35 | 36 | self.dic_vb_muda_negacao = [] |
| ... | ... | @@ -165,6 +166,17 @@ class LerDicionarios(Singleton): |
| 165 | 166 | rows.append(row[0].decode("utf-8")) |
| 166 | 167 | self.set_vb_ligacao = set(rows) |
| 167 | 168 | |
| 169 | + def carregar_pronomes_tratamento(self): | |
| 170 | + try: | |
| 171 | + self.file = csv.reader(open(self.path+"pronomesTratamento.csv")) | |
| 172 | + except IOError, (errno, strerror): | |
| 173 | + print "I/O error(%s): %s" % (errno, strerror) | |
| 174 | + print "carregar_pronomes_tratamento" | |
| 175 | + | |
| 176 | + rows = [] | |
| 177 | + for row in self.file: | |
| 178 | + rows.append(row[0].decode("utf-8")) | |
| 179 | + self.set_pron_trat = set(rows) | |
| 168 | 180 | |
| 169 | 181 | def carregar_verbos_muda_negacao(self): |
| 170 | 182 | try: |
| ... | ... | @@ -195,6 +207,9 @@ class LerDicionarios(Singleton): |
| 195 | 207 | def has_sinonimo(self, token): |
| 196 | 208 | return self.dic_sin.has_key(token) |
| 197 | 209 | |
| 210 | + def has_pron_tratam(self, token): | |
| 211 | + return token in self.set_pron_trat | |
| 212 | + | |
| 198 | 213 | def has_subst_2_generos (self, token): |
| 199 | 214 | return token in self.set_sb_2_gen |
| 200 | 215 | ... | ... |
src/PortGlosa.py
| ... | ... | @@ -8,9 +8,11 @@ |
| 8 | 8 | |
| 9 | 9 | from ThreadTradutor import * |
| 10 | 10 | from TraduzSentencas import * |
| 11 | +from LerDicionarios import * | |
| 11 | 12 | |
| 12 | 13 | |
| 13 | 14 | tradutor = TraduzSentencas() |
| 15 | +dicionario = LerDicionarios() | |
| 14 | 16 | |
| 15 | 17 | def traduzir(texto, threads=False): |
| 16 | 18 | if texto.isspace() or texto == "": |
| ... | ... | @@ -42,18 +44,45 @@ def iniciar_com_threads(texto): |
| 42 | 44 | return None |
| 43 | 45 | |
| 44 | 46 | def iniciar_sem_threads(texto): |
| 45 | - return tradutor.iniciar_traducao(texto) | |
| 46 | - | |
| 47 | + texto_quebrado = quebrar_texto(texto) | |
| 48 | + texto_traduzido = [] | |
| 49 | + for texto in texto_quebrado: | |
| 50 | + glosa = tradutor.iniciar_traducao(texto) | |
| 51 | + texto_traduzido.append(glosa) | |
| 52 | + return " ".join(texto_traduzido) | |
| 53 | + | |
| 54 | +''' | |
| 47 | 55 | def quebrar_texto(texto): |
| 48 | 56 | quantidade_pontos = texto.count('. ') |
| 49 | 57 | sentencas = [] |
| 58 | + if quantidade_pontos == 0: | |
| 59 | + return [texto] | |
| 50 | 60 | for i in range(quantidade_pontos): |
| 51 | 61 | posicao_ponto = texto.find('.') |
| 52 | 62 | if texto[posicao_ponto+2].isupper(): |
| 53 | 63 | sentencas.append(texto[:posicao_ponto]) |
| 54 | 64 | texto = texto[posicao_ponto+2:] |
| 55 | - if len(texto) > 0: | |
| 56 | - sentencas.append(texto) | |
| 65 | + return sentencas | |
| 66 | +''' | |
| 67 | + | |
| 68 | +def quebrar_texto(texto): | |
| 69 | + if '.' not in texto: | |
| 70 | + return [texto] | |
| 71 | + | |
| 72 | + texto_quebrado = texto.split() | |
| 73 | + tamanho_texto_quebrado = len(texto_quebrado) | |
| 74 | + sentencas = [] | |
| 75 | + lista_texto = [] | |
| 76 | + for i in range(tamanho_texto_quebrado): | |
| 77 | + lista_texto.append(texto_quebrado[i]) | |
| 78 | + if '.' in texto_quebrado[i]: | |
| 79 | + if not dicionario.has_pron_tratam(texto_quebrado[i].lower()) and i < tamanho_texto_quebrado-1 and texto_quebrado[i+1][0].isupper(): | |
| 80 | + sentenca = " ".join(lista_texto)[:-1] | |
| 81 | + sentencas.append(sentenca) | |
| 82 | + lista_texto = [] | |
| 83 | + continue | |
| 84 | + if lista_texto: | |
| 85 | + sentencas.append( " ".join(lista_texto)) | |
| 57 | 86 | return sentencas |
| 58 | 87 | |
| 59 | 88 | def ajuda(): | ... | ... |