Corrige quebra de orações

Erickson Silva
1 parent 08259118
Showing 2 changed files with 49 additions and 5 deletions Show diff stats
src/LerDicionarios.py
src/PortGlosa.py
@@ -29,7 +29,8 @@ class LerDicionarios(Singleton):
       self.set_art = []
       self.set_prep = []
       self.dic_sin = {}
-      self.set_sb_2_gen = []      
+      self.set_sb_2_gen = []
+      self.set_pron_trat = []     
       self.dic_vb_infinitivo = {}
       self.set_vb_ligacao = []
       self.dic_vb_muda_negacao = []
@@ -165,6 +166,17 @@ class LerDicionarios(Singleton):
          rows.append(row[0].decode("utf-8"))
       self.set_vb_ligacao = set(rows) 
+   def carregar_pronomes_tratamento(self):
+      try:
+         self.file = csv.reader(open(self.path+"pronomesTratamento.csv"))
+      except IOError, (errno, strerror):
+         print "I/O error(%s): %s" % (errno, strerror)
+         print "carregar_pronomes_tratamento"
+  
+      rows = []
+      for row in self.file:
+         rows.append(row[0].decode("utf-8"))
+      self.set_pron_trat = set(rows) 
    def carregar_verbos_muda_negacao(self):
       try:
@@ -195,6 +207,9 @@ class LerDicionarios(Singleton):
    def has_sinonimo(self, token):
       return self.dic_sin.has_key(token)
+   def has_pron_tratam(self, token):
+      return token in self.set_pron_trat
+
    def has_subst_2_generos (self, token):
       return token in self.set_sb_2_gen
@@ -8,9 +8,11 @@
 from ThreadTradutor import *
 from TraduzSentencas import *
+from LerDicionarios import *
 tradutor = TraduzSentencas()
+dicionario = LerDicionarios()
 def traduzir(texto, threads=False):
 	if texto.isspace() or texto == "":
@@ -42,18 +44,45 @@ def iniciar_com_threads(texto):
 		return None
 def iniciar_sem_threads(texto):
-	return tradutor.iniciar_traducao(texto)
-
+	texto_quebrado = quebrar_texto(texto)
+	texto_traduzido = []
+	for texto in texto_quebrado:
+		glosa = tradutor.iniciar_traducao(texto)
+		texto_traduzido.append(glosa)
+	return " ".join(texto_traduzido)
+	
+'''
 def quebrar_texto(texto):
 	quantidade_pontos = texto.count('. ')
 	sentencas = []
+	if quantidade_pontos == 0:
+		return [texto]
 	for i in range(quantidade_pontos):
 		posicao_ponto = texto.find('.')
 		if texto[posicao_ponto+2].isupper():
 			sentencas.append(texto[:posicao_ponto])
 			texto = texto[posicao_ponto+2:]
-	if len(texto) > 0:
-		sentencas.append(texto)
+	return sentencas
+'''
+
+def quebrar_texto(texto):
+	if '.' not in texto:
+		return [texto]
+
+	texto_quebrado = texto.split()
+	tamanho_texto_quebrado = len(texto_quebrado)
+	sentencas = []
+	lista_texto = []
+	for i in range(tamanho_texto_quebrado):
+		lista_texto.append(texto_quebrado[i])
+		if '.' in texto_quebrado[i]:
+			if not dicionario.has_pron_tratam(texto_quebrado[i].lower()) and i < tamanho_texto_quebrado-1 and texto_quebrado[i+1][0].isupper():
+				sentenca = " ".join(lista_texto)[:-1]
+				sentencas.append(sentenca)
+				lista_texto = []
+				continue
+	if lista_texto:
+		sentencas.append( " ".join(lista_texto))
 	return sentencas
 def ajuda():
	@@ -8,9 +8,11 @@		@@ -8,9 +8,11 @@
8		8
9	from ThreadTradutor import *	9	from ThreadTradutor import *
10	from TraduzSentencas import *	10	from TraduzSentencas import *
		11	+from LerDicionarios import *
11		12
12		13
13	tradutor = TraduzSentencas()	14	tradutor = TraduzSentencas()
		15	+dicionario = LerDicionarios()
14		16
15	def traduzir(texto, threads=False):	17	def traduzir(texto, threads=False):
16	if texto.isspace() or texto == "":	18	if texto.isspace() or texto == "":
	@@ -42,18 +44,45 @@ def iniciar_com_threads(texto):		@@ -42,18 +44,45 @@ def iniciar_com_threads(texto):
42	return None	44	return None
43		45
44	def iniciar_sem_threads(texto):	46	def iniciar_sem_threads(texto):
45	- return tradutor.iniciar_traducao(texto)
46	-	47	+ texto_quebrado = quebrar_texto(texto)
		48	+ texto_traduzido = []
		49	+ for texto in texto_quebrado:
		50	+ glosa = tradutor.iniciar_traducao(texto)
		51	+ texto_traduzido.append(glosa)
		52	+ return " ".join(texto_traduzido)
		53	+
		54	+'''
47	def quebrar_texto(texto):	55	def quebrar_texto(texto):
48	quantidade_pontos = texto.count('. ')	56	quantidade_pontos = texto.count('. ')
49	sentencas = []	57	sentencas = []
		58	+ if quantidade_pontos == 0:
		59	+ return [texto]
50	for i in range(quantidade_pontos):	60	for i in range(quantidade_pontos):
51	posicao_ponto = texto.find('.')	61	posicao_ponto = texto.find('.')
52	if texto[posicao_ponto+2].isupper():	62	if texto[posicao_ponto+2].isupper():
53	sentencas.append(texto[:posicao_ponto])	63	sentencas.append(texto[:posicao_ponto])
54	texto = texto[posicao_ponto+2:]	64	texto = texto[posicao_ponto+2:]
55	- if len(texto) > 0:
56	- sentencas.append(texto)	65	+ return sentencas
		66	+'''
		67	+
		68	+def quebrar_texto(texto):
		69	+ if '.' not in texto:
		70	+ return [texto]
		71	+
		72	+ texto_quebrado = texto.split()
		73	+ tamanho_texto_quebrado = len(texto_quebrado)
		74	+ sentencas = []
		75	+ lista_texto = []
		76	+ for i in range(tamanho_texto_quebrado):
		77	+ lista_texto.append(texto_quebrado[i])
		78	+ if '.' in texto_quebrado[i]:
		79	+ if not dicionario.has_pron_tratam(texto_quebrado[i].lower()) and i < tamanho_texto_quebrado-1 and texto_quebrado[i+1][0].isupper():
		80	+ sentenca = " ".join(lista_texto)[:-1]
		81	+ sentencas.append(sentenca)
		82	+ lista_texto = []
		83	+ continue
		84	+ if lista_texto:
		85	+ sentencas.append( " ".join(lista_texto))
57	return sentencas	86	return sentencas
58		87
59	def ajuda():	88	def ajuda():