Remove PortGlosa e adiciona as funcionalidades no TraduzSentencas

Erickson Silva
1 parent 1b580bd0
Showing 3 changed files with 168 additions and 117 deletions Show diff stats
src/new/AplicaRegras.py
src/new/PortGlosa.py
src/new/TraduzSentencas.py
@@ -41,11 +41,7 @@ class AplicaRegras(object):
 		it = Iterator()
 		it.load(self.lista)
-		while(it.has_next()):
-			#if self.quantidade_iter_pular > 0:
-			#	self.quantidade_iter_pular-=1
-			#	continue
-			
+		while(it.has_next()):		
 			for morpho in self.__root.findall('morphological'):
 				self.has_rule = False
 				for rule in morpho.findall('rule'): # procura a tag rule 
@@ -58,7 +54,6 @@ class AplicaRegras(object):
 							try:
 								self.lista_iteracoes = it.get_interval(count)
 								it.skip(count-1)
-								#self.quantidade_iter_pular = count-1
 							except:
 								continue
@@ -89,7 +84,14 @@ class AplicaRegras(object):
 										self.quantidade_iter_pular = 0
 										break
-								if newprop is not None:
+								if newprop is not None and newtoken is not None:
+									if newtokenpos is not None and newtokenpos.text == "0":
+										self.lista_iteracao_regra[self.count_iteracao_regra] = (newtoken.text + "_" + self.specific, newprop.text)
+									else:
+										self.lista_iteracao_regra[self.count_iteracao_regra] = (self.specific + "_" + newtoken.text, newprop.text)
+									continue
+
+								elif newprop is not None:
 									self.lista_iteracao_regra.append([self.specific,newprop.text])
 								if newtoken is not None and newpos is not None:
@@ -97,10 +99,10 @@ class AplicaRegras(object):
 										lista_merge = count * [None]
 										lista_merge[int(newpos.text)] = tupla[0]
 										lista_merge[int(newtokenpos.text)] = newtoken.text
-										merge_tokens = " ".join(lista_merge)
+										merge_tokens = "_".join(lista_merge)
 										self.lista_iteracao_regra.append([merge_tokens, title.text])
 									else:
-										self.lista_iteracao_regra.append([tupla[0] + " " + newtoken.text, title.text])
+										self.lista_iteracao_regra.append([tupla[0] + "_" + newtoken.text, title.text])
 								elif newpos is not None:
 									if newpos.text == "-1":
@@ -110,17 +112,15 @@ class AplicaRegras(object):
 										self.lista_iteracao_regra[int(newpos.text)] = tupla	
 								elif newtoken is not None:
-									tokenAnterior = self.lista_iteracao_regra[self.count_iteracao_regra][0]
-									ticketAnterior = self.lista_iteracao_regra[self.count_iteracao_regra][1]
+									token_anterior = self.lista_iteracao_regra[self.count_iteracao_regra][0]
+									ticket_anterior = self.lista_iteracao_regra[self.count_iteracao_regra][1]
 									if newtokenpos is not None and newtokenpos.text == "0":
-										self.lista_iteracao_regra[self.count_iteracao_regra] = [newtoken.text + " " + tokenAnterior, ticketAnterior]
+										self.lista_iteracao_regra[self.count_iteracao_regra] = [newtoken.text + "_" + token_anterior, ticket_anterior]
 									else:
-										self.lista_iteracao_regra[self.count_iteracao_regra] = [tokenAnterior + " " + newtoken.text, ticketAnterior]
+										self.lista_iteracao_regra[self.count_iteracao_regra] = [token_anterior + "_" + newtoken.text, ticket_anterior]
-							#self.lista_corrigida.append(filter(None, self.lista_iteracao_regra)[0])
-							#se ele acho uma regra, então quebra o laço e vai para o token seguinte
 							if self.has_rule:
-								self.lista_corrigida.append(self.lista_iteracao_regra)
+								self.lista_corrigida.append(filter(None, self.lista_iteracao_regra)[0])
 								break
 				if (self.has_rule == False):
@@ -137,65 +137,92 @@ class AplicaRegras(object):
 			for rule in morpho.findall('rule'): # procura a tag rule
 				nome_regra = self.corrigir_anotacao(rule.get('name'))
 				regra = self.separar_regra(nome_regra)
-				node = tgrep_nodes(p_arvore, regra[0], search_leaves=False)
-				if node:
-					print "REGRA SINTÁTICA: " + rule.get('name')
-					node_esq = tgrep_nodes(node[0], regra[1], search_leaves=False)
-					node_esq_pos = tgrep_positions(node[0], regra[1], search_leaves=False)
-					node_dir = tgrep_nodes(node[0], regra[2], search_leaves=False)
-					node_dir_pos = tgrep_positions(node[0], regra[2], search_leaves=False)
-					p_arvore.remove(p_arvore[node_esq_pos])
-					if node_esq and node_dir:
-						subnodes = node_esq + node_dir
-						for subnode in subnodes:
-							self.alteracoes_nao_implementadas = []
-							# modelo: [['node_esq', ['token', 'ticket']],['node_dir', ['token', 'ticket']]]
-							for classe in rule.iter('class'):
-								title = classe.find('title')
-								if subnode.label() == title.text:
-									newpos = classe.find('newpos')
-									newprop = classe.find('newprop')
-									newtoken = classe.find('newtoken')
-									newtokenpos = classe.find('newtokenpos')
+				node_pai = tgrep_nodes(p_arvore, regra[0], search_leaves=False)
+				if node_pai:
+					node_regra = tgrep_nodes(node_pai[0], regra[1].replace('$', '>'), search_leaves=False)
+					if node_regra:
+						node_esq = tgrep_nodes(node_pai[0], regra[1], search_leaves=False)
+						node_esq_pos = tgrep_positions(node_pai[0], regra[1], search_leaves=False)
+						node_dir = tgrep_nodes(node_pai[0], regra[2], search_leaves=False)
+						node_dir_pos = tgrep_positions(node_pai[0], regra[2], search_leaves=False)
+						if node_esq and node_dir:
+							print "REGRA SINTÁTICA: " + rule.get('name')
+							subnodes = node_esq + node_dir
+							for subnode in subnodes:
+								self.has_rule = True
+								self.alteracoes_nao_implementadas = [None,None]
+								self.count_iteracao_regra = -1
+								self.specific = None
+
+								for classe in rule.findall('class'):
 									self.specific = classe.find('specific')
-
-									lista_alter_temp_node = []
-
 									if self.specific is not None:
 										self.specific = self.__especificos[self.specific.text](subnode.leaves()[0])
 										if self.specific is False:
 											self.has_rule = False
 											break
-									if newprop is not None:
-										self.lista_alter_temp_node.append([self.specific,newprop.text])
-									'''
-									if newtoken is not None and newpos is not None:
-										if newtokenpos is not None:
-											lista_merge = count * [None]
-											lista_merge[int(newpos.text)] = tupla[0]
-											lista_merge[int(newtokenpos.text)] = newtoken.text
-											merge_tokens = " ".join(lista_merge)
-											self.lista_iteracao_regra.append([merge_tokens, title.text])
-										else:
-											self.lista_iteracao_regra.append([tupla[0] + " " + newtoken.text, title.text])
-
-									elif newpos is not None:
-										if newpos.text == "-1":
-											self.lista_corrigida.append(None)
+								# modelo: [['node_esq', ['token', 'ticket']],['node_dir', ['token', 'ticket']]]
+								for classe in rule.iter('class'):
+									title = classe.find('title')
+									if subnode.label() == title.text:
+										newpos = classe.find('newpos')
+										newprop = classe.find('newprop')
+										newtoken = classe.find('newtoken')
+										newtokenpos = classe.find('newtokenpos')
+										
+
+										self.count_iteracao_regra += 1
+
+										if self.specific is not None:
+											self.specific = self.__especificos[self.specific.text](subnode.leaves()[0])
+											if self.specific is False:
+												self.has_rule = False
+												break
+
+										if newprop is not None and newtoken is not None:
+											if newtokenpos is not None and newtokenpos.text == "0":
+												self.alteracoes_nao_implementadas[self.count_iteracao_regra].append([newtoken.text + "_" + self.specific, newprop.text])
+											else:
+												self.alteracoes_nao_implementadas[self.count_iteracao_regra].append([self.specific + "_" + newtoken.text, newprop.text])
 											continue
-										else:
-											self.lista_iteracao_regra[int(newpos.text)] = tupla	
-
-									elif newtoken is not None:
-										tokenAnterior = self.lista_iteracao_regra[self.count_iteracao_regra][0]
-										ticketAnterior = self.lista_iteracao_regra[self.count_iteracao_regra][1]
-										if newtokenpos is not None and newtokenpos.text == "0":
-											self.lista_iteracao_regra[self.count_iteracao_regra] = [newtoken.text + " " + tokenAnterior, ticketAnterior]
-										else:
-											self.lista_iteracao_regra[self.count_iteracao_regra] = [tokenAnterior + " " + newtoken.text, ticketAnterior]
-									'''
-		return p_arvore
+
+										elif newprop is not None:
+											self.alteracoes_nao_implementadas[self.count_iteracao_regra].append([self.specific,newprop.text])
+
+										if newtoken is not None and newpos is not None:
+											if newtokenpos is not None:
+												lista_merge = count * [None]
+												lista_merge[int(newpos.text)] = subnode.leaves()[0]
+												lista_merge[int(newtokenpos.text)] = newtoken.text
+												merge_tokens = "_".join(lista_merge)
+												self.alteracoes_nao_implementadas[self.count_iteracao_regra].append([merge_tokens, title.text])
+											else:
+												self.alteracoes_nao_implementadas[self.count_iteracao_regra].append([subnode.leaves()[0] + "_" + newtoken.text, title.text])
+
+										elif newpos is not None:
+											if newpos.text == "-1":
+												alteracoes_nao_implementadas[self.count_iteracao_regra].append(None)
+												continue
+											else:
+												#TODO
+												if int(newpos.text) == 0:
+													self.alteracoes_nao_implementadas[int(newpos.text)] = subnode	
+
+										elif newtoken is not None:
+											token_anterior = self.lista_iteracao_regra[self.count_iteracao_regra][0]
+											ticket_anterior = self.lista_iteracao_regra[self.count_iteracao_regra][1]
+											if newtokenpos is not None and newtokenpos.text == "0":
+												self.lista_iteracao_regra[self.count_iteracao_regra] = [newtoken.text + " " + token_anterior, ticket_anterior]
+											else:
+												self.lista_iteracao_regra[self.count_iteracao_regra] = [token_anterior + " " + newtoken.text, ticket_anterior]
+
+								if self.has_rule:
+									print self.alteracoes_nao_implementadas[0]
+									self.lista_corrigida.append(filter(None, self.lista_iteracao_regra)[0])
+									break
+
+		return self.converter_arv_para_lista(p_arvore)
 	def adaptar_regras_morfo_arvore(self, lista, arvore):
 		lista_pos_arv = []
@@ -207,20 +234,59 @@ class AplicaRegras(object):
 			lista_pos_arv.append(node[0])
 		morfo = self.aplicar_regras_morfo(lista, sint=True)
 		for i in range(0, len(morfo)):
+			arv_ticket = arvore[lista_pos_arv[i]].label()
+			arv_token = arvore[lista_pos_arv[i]][0]
 			if morfo[i] is None:
 				arvore[lista_pos_arv[i][:-1]] = None
-			else:
+			elif arv_token != morfo[i][0] and arv_ticket != morfo[i][1]:
+				arvore[lista_pos_arv[i]][0] = morfo[i][0]
 				arvore[lista_pos_arv[i]].set_label(self.corrigir_anotacao(morfo[i][1]))
+			elif arv_token != morfo[i][0]:
 				arvore[lista_pos_arv[i]][0] = morfo[i][0]
+			elif arv_ticket != morfo[i][1]:
+				arvore[lista_pos_arv[i]].set_label(self.corrigir_anotacao(morfo[i][1]))
+			else:
+				continue
+
 		nodes_none = tgrep_positions(arvore, 'None')
 		for node in nodes_none:
 			arvore[node[:-1]].remove(None)
+	def converter_arv_para_lista(self, arvore):
+		folhas = arvore.leaves()
+		lista_nodes = []
+		for folha in folhas:
+			pos = tgrep_positions(arvore, folha)
+			node = arvore[pos[0][:-1]]
+			#decode node[0]
+			lista_nodes.append([node[0], self.corrigir_anotacao(node.label())])
+		return lista_nodes
+
+
+	def criar_ptree(self, s):
+		all_ptrees = []
+		ptree = ParentedTree.convert(Tree.fromstring(s))
+		all_ptrees.extend(t for t in ptree.subtrees()
+							if isinstance(t, Tree))
+		return ptree
+
+	def separar_new_tokens(self, lista):
+		for index, tupla in enumerate(lista):
+			if '_' in tupla[0]:
+				if 'VB' in tupla[1]:
+					token_split = tupla[0].split('_')
+					tupla[0] = token_split[0]
+					lista.append([token_split[1],'NTK'])
+				else:
+					token_split = tupla[0].split('_')
+					tupla[0] = token_split[0]
+					lista.insert(index+1, [token_split[1],'NTK'])
+
 	def corrigir_anotacao(self, anotacao):
 		split = anotacao.split('_')
 		for i in range(0, len(split)):
 			split[i] = split[i].replace('-','_')
-		return "-".join(split)
+		return "-".join(split).encode('utf-8')
 	def separar_regra(self, regra):
 		split = regra.split("(")
@@ -283,9 +349,7 @@ class AplicaRegras(object):
 			if tag[-2:] == "-P":
 				singular = self.analisar_plural(token)
-				nova_lista.append([singular,tag])
-			else:
-				nova_lista.append(it.get_token())
+				lista[it.get_count()][0] = singular
 		if num: return self.converter_extenso(nova_lista)
 		return nova_lista
@@ -340,4 +404,4 @@ class AplicaRegras(object):
 			lista[i[0]] = [ext, "NUM"]
 		deque((list.pop(lista, i) for i in sorted(index_deleted, reverse=True)), maxlen=0)
 -		return lista
+		return lista
 \ No newline at end of file
@@ -1,28 +0,0 @@
-#!/usr/bin/python
-# -*- coding: utf-8 -*-
-
-#Autor: Erickson Silva 
-#Email: <erickson.silva@lavid.ufpb.br> <ericksonsilva@live.com>
-
-#LAViD - Laboratório de Aplicações de Vídeo Digital
-
-
-
-from TraduzSentencas import *
-
-
-def traduz(texto):
-	try:
-		texto_codificado = texto.decode("UTF-8")
-	except:
-		texto_codificado = texto.decode("ISO-8859-1")
-
-	glosa = iniciar_traducao(texto_codificado)
-	if glosa == "":
-		return "selecione um texto"
-	return glosa.encode("utf-8")
-
-
-def help():
-	#TODO: Adicionar um pequeno tuto aqui
-	print "Help"
@@ -10,32 +10,47 @@ import alexp
 from AplicaSinonimos import *
 from AplicaRegras import * 
+aplic_sinonimos = AplicaSinonimos()
+aplic_regras = AplicaRegras()
+
+def traduz(texto):
+	try:
+		texto_codificado = texto.decode("utf-8")
+	except:
+		texto_codificado = texto.decode("iso-8859-1")
+	glosa = iniciar_traducao(texto_codificado)
+	if glosa: return glosa
+	return "selecione um texto"
+	
 def iniciar_traducao(texto):
-	texto_quebrado = texto.split(".")
+	texto_quebrado = texto.lower().split(".")
 	texto_traduzido = []
 	for sentenca in texto_quebrado:
 		if len(sentenca) > 0 and sentenca != " ":
-			texto_traduzido.append(gerar_analise(sentenca))
+			analise = gerar_analise(sentenca)
+			texto_traduzido.append(analise)
 	try:
 		return " ".join(texto_traduzido)
 	except:
 		return ""
 def gerar_analise(sentenca):
-	aplic_sinonimos = AplicaSinonimos()
-	aplic_regras = AplicaRegras()
-	
-	analise = None
 	try:
-		analise = alexp.run(sentenca)
-	except ValueError:
-		# TODO: Permitir acentos na sentença
-		analise = None
-
-	morfologica = alexp.getAnaliseMorfologica()
-	if (isinstance(analise,type(None))):
-		analise = aplic_regras.aplicar_regras_morfo(morfologica)
+		analise_sintatica = alexp.run(sentenca)
+	except:
+		analise_sintatica = None
+
+	analise_morfologica = alexp.getAnaliseMorfologica()
+	if (isinstance(analise_sintatica,type(None))):
+		regras_aplicadas = aplic_regras.aplicar_regras_morfo(analise_morfologica)
 	else:
-		analise = aplic_regras.aplicar_regras_sint(morfologica, analise)
-	return aplic_sinonimos.aplicar_sinonimos(analise)
 \ No newline at end of file
+		regras_aplicadas = aplic_regras.aplicar_regras_sint(analise_morfologica, analise_sintatica)
+	
+	aplic_regras.separar_new_tokens(regras_aplicadas)
+	sinonimos_aplicados = aplic_sinonimos.aplicar_sinonimos(regras_aplicadas)
+	return sinonimos_aplicados.encode('utf-8')
+
+def help():
+	#TODO: Adicionar um pequeno tuto aqui
+	print "Help"
 \ No newline at end of file
	@@ -1,28 +0,0 @@	@@ -1,28 +0,0 @@
1	-#!/usr/bin/python
2	-# -- coding: utf-8 --
3	-
4	-#Autor: Erickson Silva
5	-#Email: <erickson.silva@lavid.ufpb.br> <ericksonsilva@live.com>
6	-
7	-#LAViD - Laboratório de Aplicações de Vídeo Digital
8	-
9	-
10	-
11	-from TraduzSentencas import *
12	-
13	-
14	-def traduz(texto):
15	- try:
16	- texto_codificado = texto.decode("UTF-8")
17	- except:
18	- texto_codificado = texto.decode("ISO-8859-1")
19	-
20	- glosa = iniciar_traducao(texto_codificado)
21	- if glosa == "":
22	- return "selecione um texto"
23	- return glosa.encode("utf-8")
24	-
25	-
26	-def help():
27	- #TODO: Adicionar um pequeno tuto aqui
28	- print "Help"