Atualiza compatibilidade para a versão 3 do NLTK

Erickson Silva
1 parent ba6d0420
Showing 5 changed files with 80 additions and 75 deletions Show diff stats
src/AplicaSinonimos
src/AplicaSinonimos.py
src/LeitorDicionarios.py
src/Tradutor.py
src/alexp.py
@@ -1,47 +0,0 @@
-#!/usr/bin/python
-# -*- coding: utf-8 -*-
-
-#Autor: Erickson Silva 
-#Email 1: <erickson.silva@lavid.ufpb.br>
-#Email 2: <ericksonsilva@live.com>
-
-#LAViD - Laboratório de Aplicações de Vídeo Digital
-
-import os, csv, sys, LeitorDicionarios
-from nltk.tree import *
-
-
-class AplicaSinonimos(object):
-
-	 # Define e inicializa os atributos
-	def __init__(self):
-		self.__dicionarios = LeitorDicionarios()
-
-	def sinonimosMorfologico(self, texto):
-		lista = texto
-		for i, elem in enumerate(lista):
-			token = self.verificaPalavra(elem[0])
-			texto[i][0] = token
-		return lista
-
-	def sinonimosSintatico(self, texto):
-                folhas = nltk.tree.Tree.leaves(*texto)
-		dic = dicionarioSinonimoFolhas(folhas)
-		stringTree = str(texto)
-		for t in folhas:
-                        stringTree.replace(t, dic[t])
-                                
-		return Tree.fromstring(stringTree, brackets='[]')
-
-	def dicionarioSinonimoFolhas(folhas):
-                dic = {}
-                for f in folhas:
-                        token = verificaPalavra(f)
-                        dic[f] = token
-                return dic
-
-	def verificaPalavra(self, token):
-		if self.__dicionarios.hasSinonimo(token):
-			return self.__dicionarios.getSinonimo(token)
-		return token  
-
@@ -0,0 +1,49 @@
+#!/usr/bin/python
+# -*- coding: utf-8 -*-
+
+#Autor: Erickson Silva 
+#Email 1: <erickson.silva@lavid.ufpb.br>
+#Email 2: <ericksonsilva@live.com>
+
+#LAViD - Laboratório de Aplicações de Vídeo Digital
+
+import os, csv, sys
+from nltk.tree import *
+from LeitorDicionarios import *
+
+class AplicaSinonimos(object):
+
+	 # Define e inicializa os atributos
+	def __init__(self):
+		self.__dicionarios = LeitorDicionarios()
+
+	def sinonimosMorfologico(self, texto):
+		lista = texto
+		for i, elem in enumerate(lista):
+			token = self.verificaPalavra(elem[0])
+			listmp = list(elem)
+			listmp[0] = token 
+			lista[i] = listmp
+		return lista
+
+
+	def dicionarioSinonimoFolhas(self, folhas):
+		dic = {}
+		for f in folhas:
+			token = self.verificaPalavra(f)
+			dic[f] = token
+		return dic
+
+	def sinonimosSintatico(self, texto):
+		folhas = Tree.leaves(texto)
+		dic = self.dicionarioSinonimoFolhas(folhas)
+		stringTree = str(texto)
+		for t in folhas:
+			stringTree.replace(t, dic[t])
+		tree = Tree.fromstring(stringTree, brackets='()')
+		return tree
+
+	def verificaPalavra(self, token):
+		if self.__dicionarios.hasSinonimo(token):
+			return self.__dicionarios.getSinonimo(token)
+		return token
 \ No newline at end of file
@@ -26,77 +26,78 @@ class LeitorDicionarios(object):
  
    # Define e inicializa os atributos
    def __init__(self):
-      self.__path = "vlibras_user/vlibras-core/data/"
+      self.__path = "/home/erickson/vlibras-translate/data/"
       self.__dicInf = {}
       self.__dicSin = {}
       self.__dicWords = {}
       self.__dic2Gen = {}      
-      self.__dicTemVerbs = {}     
+      self.__dicTemVerbs = {}  
+      self.__fileDic = ''   
       self.carregarVerbosInfinitivos()
       self.carregarSinonimos()
       self.carregarPalavrasIgnoradas()
       self.carregarSubst2Generos()
       self.carregarTemposVerbais() 
  
-   # Abre o arquivo que contem os verbos no infinitivo e preenche o dicionario com os mesmos
+   # Abre o self.__fileDic que contem os verbos no infinitivo e preenche o dicionario com os mesmos
    def carregarVerbosInfinitivos(self):
       try:
-         arquivo = csv.reader(open(self.__path+"dicPortGlosa.csv"), delimiter=";")
+         self.__fileDic = csv.reader(open(self.__path+"dicPortGlosa.csv"), delimiter=";")
       except IOError, (errno, strerror): 
          print "I/O error(%s): %s" % (errno, strerror)
          print "carregarVerbosInfinitivos"
  
-      for row in arquivo:
+      for row in self.__fileDic:
          if row[1] != "": 
             try:
                self.__dicInf[row[0].decode("utf-8")] = row[1].decode("utf-8")  
             except UnicodeDecodeError:
                self.__dicInf[row[0].decode('iso8859-1').encode('utf-8')] = row[1].decode('iso8859-1').encode('utf-8')
  
-   # Abre o arquivo que contem os sinonimos e preenche o dicionario com os mesmos
+   # Abre o self.__fileDic que contem os sinonimos e preenche o dicionario com os mesmos
    def carregarSinonimos(self):
       try:
-         arquivo = csv.reader(open(self.__path+"portuguesGlosa.csv"), delimiter=";")
+         self.__fileDic = csv.reader(open(self.__path+"portuguesGlosa.csv"), delimiter=";")
       except IOError, (errno, strerror):
          print "I/O error(%s): %s" % (errno, strerror)
          print "carregarSinonimos"
  
-      for row in arquivo:
+      for row in self.__fileDic:
          if row[1] != "":
             self.__dicSin[row[0].decode("utf-8")] = row[1].decode("utf-8")
  
  
-    # Abre o arquivo que contem os tempos verbais
+    # Abre o self.__fileDic que contem os tempos verbais
    def carregarTemposVerbais(self):
       try:
-         arquivo = csv.reader(open(self.__path+"temposVerbais.csv"), delimiter=";")
+         self.__fileDic = csv.reader(open(self.__path+"temposVerbais.csv"), delimiter=";")
       except IOError, (errno, strerror):
          print "I/O error(%s): %s" % (errno, strerror)
          print "carregarTemposVerbais"
  
-      for row in arquivo:
+      for row in self.__fileDic:
          self.__dicTemVerbs[row[0].decode("utf-8")] = row[0].decode("utf-8")     
  
-   # Abre o arquivo que contem os artigos e preposicoes de acordo com o modelo de idioma passado na chamada e preenche o dicionario com os mesmos
+   # Abre o self.__fileDic que contem os artigos e preposicoes de acordo com o modelo de idioma passado na chamada e preenche o dicionario com os mesmos
    def carregarPalavrasIgnoradas(self):
       try:
-         arquivo = csv.reader(open(self.__path+"hWordsRemove.csv"), delimiter=";")
+         self.__fileDic = csv.reader(open(self.__path+"hWordsRemove.csv"), delimiter=";")
       except IOError, (errno, strerror):
          print "I/O error(%s): %s" % (errno, strerror)
          print "carregarPalavrasIgnoradas"
  
-      for row in arquivo:
+      for row in self.__fileDic:
          self.__dicWords[row[0].decode("utf-8")] = row[0].decode("utf-8")
  
-   # Abre o arquivo que contem os substantivos que sao comuns dos 2 generos e preenche o dicionario com os mesmos
+   # Abre o self.__fileDic que contem os substantivos que sao comuns dos 2 generos e preenche o dicionario com os mesmos
    def carregarSubst2Generos(self):
       try:
-         arquivo = csv.reader(open(self.__path+"subs2Generos.csv"), delimiter=";")
+         self.__fileDic = csv.reader(open(self.__path+"subs2Generos.csv"), delimiter=";")
       except IOError, (errno, strerror):
          print "I/O error(%s): %s" % (errno, strerror)
          print "carregarSubst2Generos" 
  
-      for row in arquivo:
+      for row in self.__fileDic:
          self.__dic2Gen[row[0].decode("utf-8")] = row[0].decode("utf-8")    
  
    # Retorna o dicionario dos verbos no infinitivo
@@ -7,8 +7,10 @@
  
 #LAViD - Laboratório de Aplicações de Vídeo Digital
  
-from alexp import run
-from AplicaSinonimos import sinonimosMorfologico, sinonimosSintatico
+from alexp import run,getAnaliseMorfologica
+from AplicaSinonimos import *
+
+sin = AplicaSinonimos()
  
  
 def iniciarTraducao(texto):
@@ -17,17 +19,18 @@ def iniciarTraducao(texto):
  
 def gerarAnalise(sentenca):
 	analise = run(sentenca)
-	if (len(analise) > 0):
-                analiseSintatica(analise)
-	else:
-                analise = getAnaliseMorfologica()
+	if (isinstance(analise,type(None))):
+		analise = getAnaliseMorfologica()
 		analiseMorfologica(analise)
+	else:
+		analiseSintatica(analise)
+		
  
  
 def analiseMorfologica(sentenca):
-        analise = sinonimosMorfologico(sentenca)
+	analise = sin.sinonimosMorfologico(sentenca)
 	print analise
  
 def analiseSintatica(sentenca):
-        analise = sinonimosSintatico(sentenca)
+	analise = sin.sinonimosSintatico(sentenca)
 	print analise
 \ No newline at end of file
@@ -108,7 +108,7 @@ def analisaSentenca(sentenca):
 	"""
 	parser=constroiAnalisador(sentenca)
 	codificada=[w.encode("utf-8") for w in sentenca]
-	trees=parser.nbest_parse(codificada)
+	trees=parser.parse_one(codificada)
 	return trees
  
 def constroiAnalisador(s):
@@ -120,7 +120,7 @@ def constroiAnalisador(s):
 	entradas=geraEntradasLexicais(SENTENCA_ANOTADA)
 	lexico="\n".join(entradas)
 	gramatica="%s\n%s" % (extraiSintaxe(DIR).strip(),lexico)
-	cfg=nltk.parse_cfg(gramatica)
+	cfg=nltk.CFG.fromstring(gramatica)
 	return nltk.ChartParser(cfg)
  
 def exibeArvores(arvores):
@@ -128,7 +128,6 @@ def exibeArvores(arvores):
 	nltk.draw.draw_trees(*arvores)
  
 def run(sentenca):
-	#SENTENCA_ANOTADA = []
 	tokens=toqueniza(sentenca)
 	trees=analisaSentenca(tokens)
 	return trees
 \ No newline at end of file
...	...	@@ -1,47 +0,0 @@
1		-#!/usr/bin/python
2		-# -- coding: utf-8 --
3		-
4		-#Autor: Erickson Silva
5		-#Email 1: <erickson.silva@lavid.ufpb.br>
6		-#Email 2: <ericksonsilva@live.com>
7		-
8		-#LAViD - Laboratório de Aplicações de Vídeo Digital
9		-
10		-import os, csv, sys, LeitorDicionarios
11		-from nltk.tree import *
12		-
13		-
14		-class AplicaSinonimos(object):
15		-
16		- # Define e inicializa os atributos
17		- def __init__(self):
18		- self.__dicionarios = LeitorDicionarios()
19		-
20		- def sinonimosMorfologico(self, texto):
21		- lista = texto
22		- for i, elem in enumerate(lista):
23		- token = self.verificaPalavra(elem[0])
24		- texto[i][0] = token
25		- return lista
26		-
27		- def sinonimosSintatico(self, texto):
28		- folhas = nltk.tree.Tree.leaves(*texto)
29		- dic = dicionarioSinonimoFolhas(folhas)
30		- stringTree = str(texto)
31		- for t in folhas:
32		- stringTree.replace(t, dic[t])
33		-
34		- return Tree.fromstring(stringTree, brackets='[]')
35		-
36		- def dicionarioSinonimoFolhas(folhas):
37		- dic = {}
38		- for f in folhas:
39		- token = verificaPalavra(f)
40		- dic[f] = token
41		- return dic
42		-
43		- def verificaPalavra(self, token):
44		- if self.__dicionarios.hasSinonimo(token):
45		- return self.__dicionarios.getSinonimo(token)
46		- return token
47		-
...	...	@@ -0,0 +1,49 @@
	1	+#!/usr/bin/python
	2	+# -- coding: utf-8 --
	3	+
	4	+#Autor: Erickson Silva
	5	+#Email 1: <erickson.silva@lavid.ufpb.br>
	6	+#Email 2: <ericksonsilva@live.com>
	7	+
	8	+#LAViD - Laboratório de Aplicações de Vídeo Digital
	9	+
	10	+import os, csv, sys
	11	+from nltk.tree import *
	12	+from LeitorDicionarios import *
	13	+
	14	+class AplicaSinonimos(object):
	15	+
	16	+ # Define e inicializa os atributos
	17	+ def __init__(self):
	18	+ self.__dicionarios = LeitorDicionarios()
	19	+
	20	+ def sinonimosMorfologico(self, texto):
	21	+ lista = texto
	22	+ for i, elem in enumerate(lista):
	23	+ token = self.verificaPalavra(elem[0])
	24	+ listmp = list(elem)
	25	+ listmp[0] = token
	26	+ lista[i] = listmp
	27	+ return lista
	28	+
	29	+
	30	+ def dicionarioSinonimoFolhas(self, folhas):
	31	+ dic = {}
	32	+ for f in folhas:
	33	+ token = self.verificaPalavra(f)
	34	+ dic[f] = token
	35	+ return dic
	36	+
	37	+ def sinonimosSintatico(self, texto):
	38	+ folhas = Tree.leaves(texto)
	39	+ dic = self.dicionarioSinonimoFolhas(folhas)
	40	+ stringTree = str(texto)
	41	+ for t in folhas:
	42	+ stringTree.replace(t, dic[t])
	43	+ tree = Tree.fromstring(stringTree, brackets='()')
	44	+ return tree
	45	+
	46	+ def verificaPalavra(self, token):
	47	+ if self.__dicionarios.hasSinonimo(token):
	48	+ return self.__dicionarios.getSinonimo(token)
	49	+ return token
0	50	\ No newline at end of file
...	...
...	...	@@ -26,77 +26,78 @@ class LeitorDicionarios(object):
26	26
27	27	# Define e inicializa os atributos
28	28	def __init__(self):
29		- self.__path = "vlibras_user/vlibras-core/data/"
	29	+ self.__path = "/home/erickson/vlibras-translate/data/"
30	30	self.__dicInf = {}
31	31	self.__dicSin = {}
32	32	self.__dicWords = {}
33	33	self.__dic2Gen = {}
34		- self.__dicTemVerbs = {}
	34	+ self.__dicTemVerbs = {}
	35	+ self.__fileDic = ''
35	36	self.carregarVerbosInfinitivos()
36	37	self.carregarSinonimos()
37	38	self.carregarPalavrasIgnoradas()
38	39	self.carregarSubst2Generos()
39	40	self.carregarTemposVerbais()
40	41
41		- # Abre o arquivo que contem os verbos no infinitivo e preenche o dicionario com os mesmos
	42	+ # Abre o self.__fileDic que contem os verbos no infinitivo e preenche o dicionario com os mesmos
42	43	def carregarVerbosInfinitivos(self):
43	44	try:
44		- arquivo = csv.reader(open(self.__path+"dicPortGlosa.csv"), delimiter=";")
	45	+ self.__fileDic = csv.reader(open(self.__path+"dicPortGlosa.csv"), delimiter=";")
45	46	except IOError, (errno, strerror):
46	47	print "I/O error(%s): %s" % (errno, strerror)
47	48	print "carregarVerbosInfinitivos"
48	49
49		- for row in arquivo:
	50	+ for row in self.__fileDic:
50	51	if row[1] != "":
51	52	try:
52	53	self.__dicInf[row[0].decode("utf-8")] = row[1].decode("utf-8")
53	54	except UnicodeDecodeError:
54	55	self.__dicInf[row[0].decode('iso8859-1').encode('utf-8')] = row[1].decode('iso8859-1').encode('utf-8')
55	56
56		- # Abre o arquivo que contem os sinonimos e preenche o dicionario com os mesmos
	57	+ # Abre o self.__fileDic que contem os sinonimos e preenche o dicionario com os mesmos
57	58	def carregarSinonimos(self):
58	59	try:
59		- arquivo = csv.reader(open(self.__path+"portuguesGlosa.csv"), delimiter=";")
	60	+ self.__fileDic = csv.reader(open(self.__path+"portuguesGlosa.csv"), delimiter=";")
60	61	except IOError, (errno, strerror):
61	62	print "I/O error(%s): %s" % (errno, strerror)
62	63	print "carregarSinonimos"
63	64
64		- for row in arquivo:
	65	+ for row in self.__fileDic:
65	66	if row[1] != "":
66	67	self.__dicSin[row[0].decode("utf-8")] = row[1].decode("utf-8")
67	68
68	69
69		- # Abre o arquivo que contem os tempos verbais
	70	+ # Abre o self.__fileDic que contem os tempos verbais
70	71	def carregarTemposVerbais(self):
71	72	try:
72		- arquivo = csv.reader(open(self.__path+"temposVerbais.csv"), delimiter=";")
	73	+ self.__fileDic = csv.reader(open(self.__path+"temposVerbais.csv"), delimiter=";")
73	74	except IOError, (errno, strerror):
74	75	print "I/O error(%s): %s" % (errno, strerror)
75	76	print "carregarTemposVerbais"
76	77
77		- for row in arquivo:
	78	+ for row in self.__fileDic:
78	79	self.__dicTemVerbs[row[0].decode("utf-8")] = row[0].decode("utf-8")
79	80
80		- # Abre o arquivo que contem os artigos e preposicoes de acordo com o modelo de idioma passado na chamada e preenche o dicionario com os mesmos
	81	+ # Abre o self.__fileDic que contem os artigos e preposicoes de acordo com o modelo de idioma passado na chamada e preenche o dicionario com os mesmos
81	82	def carregarPalavrasIgnoradas(self):
82	83	try:
83		- arquivo = csv.reader(open(self.__path+"hWordsRemove.csv"), delimiter=";")
	84	+ self.__fileDic = csv.reader(open(self.__path+"hWordsRemove.csv"), delimiter=";")
84	85	except IOError, (errno, strerror):
85	86	print "I/O error(%s): %s" % (errno, strerror)
86	87	print "carregarPalavrasIgnoradas"
87	88
88		- for row in arquivo:
	89	+ for row in self.__fileDic:
89	90	self.__dicWords[row[0].decode("utf-8")] = row[0].decode("utf-8")
90	91
91		- # Abre o arquivo que contem os substantivos que sao comuns dos 2 generos e preenche o dicionario com os mesmos
	92	+ # Abre o self.__fileDic que contem os substantivos que sao comuns dos 2 generos e preenche o dicionario com os mesmos
92	93	def carregarSubst2Generos(self):
93	94	try:
94		- arquivo = csv.reader(open(self.__path+"subs2Generos.csv"), delimiter=";")
	95	+ self.__fileDic = csv.reader(open(self.__path+"subs2Generos.csv"), delimiter=";")
95	96	except IOError, (errno, strerror):
96	97	print "I/O error(%s): %s" % (errno, strerror)
97	98	print "carregarSubst2Generos"
98	99
99		- for row in arquivo:
	100	+ for row in self.__fileDic:
100	101	self.__dic2Gen[row[0].decode("utf-8")] = row[0].decode("utf-8")
101	102
102	103	# Retorna o dicionario dos verbos no infinitivo
...	...
...	...	@@ -7,8 +7,10 @@
7	7
8	8	#LAViD - Laboratório de Aplicações de Vídeo Digital
9	9
10		-from alexp import run
11		-from AplicaSinonimos import sinonimosMorfologico, sinonimosSintatico
	10	+from alexp import run,getAnaliseMorfologica
	11	+from AplicaSinonimos import *
	12	+
	13	+sin = AplicaSinonimos()
12	14
13	15
14	16	def iniciarTraducao(texto):
...	...	@@ -17,17 +19,18 @@ def iniciarTraducao(texto):
17	19
18	20	def gerarAnalise(sentenca):
19	21	analise = run(sentenca)
20		- if (len(analise) > 0):
21		- analiseSintatica(analise)
22		- else:
23		- analise = getAnaliseMorfologica()
	22	+ if (isinstance(analise,type(None))):
	23	+ analise = getAnaliseMorfologica()
24	24	analiseMorfologica(analise)
	25	+ else:
	26	+ analiseSintatica(analise)
	27	+
25	28
26	29
27	30	def analiseMorfologica(sentenca):
28		- analise = sinonimosMorfologico(sentenca)
	31	+ analise = sin.sinonimosMorfologico(sentenca)
29	32	print analise
30	33
31	34	def analiseSintatica(sentenca):
32		- analise = sinonimosSintatico(sentenca)
	35	+ analise = sin.sinonimosSintatico(sentenca)
33	36	print analise
34	37	\ No newline at end of file
...	...
...	...	@@ -108,7 +108,7 @@ def analisaSentenca(sentenca):
108	108	"""
109	109	parser=constroiAnalisador(sentenca)
110	110	codificada=[w.encode("utf-8") for w in sentenca]
111		- trees=parser.nbest_parse(codificada)
	111	+ trees=parser.parse_one(codificada)
112	112	return trees
113	113
114	114	def constroiAnalisador(s):
...	...	@@ -120,7 +120,7 @@ def constroiAnalisador(s):
120	120	entradas=geraEntradasLexicais(SENTENCA_ANOTADA)
121	121	lexico="\n".join(entradas)
122	122	gramatica="%s\n%s" % (extraiSintaxe(DIR).strip(),lexico)
123		- cfg=nltk.parse_cfg(gramatica)
	123	+ cfg=nltk.CFG.fromstring(gramatica)
124	124	return nltk.ChartParser(cfg)
125	125
126	126	def exibeArvores(arvores):
...	...	@@ -128,7 +128,6 @@ def exibeArvores(arvores):
128	128	nltk.draw.draw_trees(*arvores)
129	129
130	130	def run(sentenca):
131		- #SENTENCA_ANOTADA = []
132	131	tokens=toqueniza(sentenca)
133	132	trees=analisaSentenca(tokens)
134	133	return trees
135	134	\ No newline at end of file
...	...