Commit c31c3e4c96afc684c80f7ad41d5ebb3ca2a59b42
1 parent
ba6d0420
Exists in
master
and in
1 other branch
Atualiza compatibilidade para a versão 3 do NLTK
Showing
5 changed files
with
80 additions
and
75 deletions
Show diff stats
src/AplicaSinonimos
... | ... | @@ -1,47 +0,0 @@ |
1 | -#!/usr/bin/python | |
2 | -# -*- coding: utf-8 -*- | |
3 | - | |
4 | -#Autor: Erickson Silva | |
5 | -#Email 1: <erickson.silva@lavid.ufpb.br> | |
6 | -#Email 2: <ericksonsilva@live.com> | |
7 | - | |
8 | -#LAViD - Laboratório de Aplicações de Vídeo Digital | |
9 | - | |
10 | -import os, csv, sys, LeitorDicionarios | |
11 | -from nltk.tree import * | |
12 | - | |
13 | - | |
14 | -class AplicaSinonimos(object): | |
15 | - | |
16 | - # Define e inicializa os atributos | |
17 | - def __init__(self): | |
18 | - self.__dicionarios = LeitorDicionarios() | |
19 | - | |
20 | - def sinonimosMorfologico(self, texto): | |
21 | - lista = texto | |
22 | - for i, elem in enumerate(lista): | |
23 | - token = self.verificaPalavra(elem[0]) | |
24 | - texto[i][0] = token | |
25 | - return lista | |
26 | - | |
27 | - def sinonimosSintatico(self, texto): | |
28 | - folhas = nltk.tree.Tree.leaves(*texto) | |
29 | - dic = dicionarioSinonimoFolhas(folhas) | |
30 | - stringTree = str(texto) | |
31 | - for t in folhas: | |
32 | - stringTree.replace(t, dic[t]) | |
33 | - | |
34 | - return Tree.fromstring(stringTree, brackets='[]') | |
35 | - | |
36 | - def dicionarioSinonimoFolhas(folhas): | |
37 | - dic = {} | |
38 | - for f in folhas: | |
39 | - token = verificaPalavra(f) | |
40 | - dic[f] = token | |
41 | - return dic | |
42 | - | |
43 | - def verificaPalavra(self, token): | |
44 | - if self.__dicionarios.hasSinonimo(token): | |
45 | - return self.__dicionarios.getSinonimo(token) | |
46 | - return token | |
47 | - |
... | ... | @@ -0,0 +1,49 @@ |
1 | +#!/usr/bin/python | |
2 | +# -*- coding: utf-8 -*- | |
3 | + | |
4 | +#Autor: Erickson Silva | |
5 | +#Email 1: <erickson.silva@lavid.ufpb.br> | |
6 | +#Email 2: <ericksonsilva@live.com> | |
7 | + | |
8 | +#LAViD - Laboratório de Aplicações de Vídeo Digital | |
9 | + | |
10 | +import os, csv, sys | |
11 | +from nltk.tree import * | |
12 | +from LeitorDicionarios import * | |
13 | + | |
14 | +class AplicaSinonimos(object): | |
15 | + | |
16 | + # Define e inicializa os atributos | |
17 | + def __init__(self): | |
18 | + self.__dicionarios = LeitorDicionarios() | |
19 | + | |
20 | + def sinonimosMorfologico(self, texto): | |
21 | + lista = texto | |
22 | + for i, elem in enumerate(lista): | |
23 | + token = self.verificaPalavra(elem[0]) | |
24 | + listmp = list(elem) | |
25 | + listmp[0] = token | |
26 | + lista[i] = listmp | |
27 | + return lista | |
28 | + | |
29 | + | |
30 | + def dicionarioSinonimoFolhas(self, folhas): | |
31 | + dic = {} | |
32 | + for f in folhas: | |
33 | + token = self.verificaPalavra(f) | |
34 | + dic[f] = token | |
35 | + return dic | |
36 | + | |
37 | + def sinonimosSintatico(self, texto): | |
38 | + folhas = Tree.leaves(texto) | |
39 | + dic = self.dicionarioSinonimoFolhas(folhas) | |
40 | + stringTree = str(texto) | |
41 | + for t in folhas: | |
42 | + stringTree.replace(t, dic[t]) | |
43 | + tree = Tree.fromstring(stringTree, brackets='()') | |
44 | + return tree | |
45 | + | |
46 | + def verificaPalavra(self, token): | |
47 | + if self.__dicionarios.hasSinonimo(token): | |
48 | + return self.__dicionarios.getSinonimo(token) | |
49 | + return token | |
0 | 50 | \ No newline at end of file | ... | ... |
src/LeitorDicionarios.py
... | ... | @@ -26,77 +26,78 @@ class LeitorDicionarios(object): |
26 | 26 | |
27 | 27 | # Define e inicializa os atributos |
28 | 28 | def __init__(self): |
29 | - self.__path = "vlibras_user/vlibras-core/data/" | |
29 | + self.__path = "/home/erickson/vlibras-translate/data/" | |
30 | 30 | self.__dicInf = {} |
31 | 31 | self.__dicSin = {} |
32 | 32 | self.__dicWords = {} |
33 | 33 | self.__dic2Gen = {} |
34 | - self.__dicTemVerbs = {} | |
34 | + self.__dicTemVerbs = {} | |
35 | + self.__fileDic = '' | |
35 | 36 | self.carregarVerbosInfinitivos() |
36 | 37 | self.carregarSinonimos() |
37 | 38 | self.carregarPalavrasIgnoradas() |
38 | 39 | self.carregarSubst2Generos() |
39 | 40 | self.carregarTemposVerbais() |
40 | 41 | |
41 | - # Abre o arquivo que contem os verbos no infinitivo e preenche o dicionario com os mesmos | |
42 | + # Abre o self.__fileDic que contem os verbos no infinitivo e preenche o dicionario com os mesmos | |
42 | 43 | def carregarVerbosInfinitivos(self): |
43 | 44 | try: |
44 | - arquivo = csv.reader(open(self.__path+"dicPortGlosa.csv"), delimiter=";") | |
45 | + self.__fileDic = csv.reader(open(self.__path+"dicPortGlosa.csv"), delimiter=";") | |
45 | 46 | except IOError, (errno, strerror): |
46 | 47 | print "I/O error(%s): %s" % (errno, strerror) |
47 | 48 | print "carregarVerbosInfinitivos" |
48 | 49 | |
49 | - for row in arquivo: | |
50 | + for row in self.__fileDic: | |
50 | 51 | if row[1] != "": |
51 | 52 | try: |
52 | 53 | self.__dicInf[row[0].decode("utf-8")] = row[1].decode("utf-8") |
53 | 54 | except UnicodeDecodeError: |
54 | 55 | self.__dicInf[row[0].decode('iso8859-1').encode('utf-8')] = row[1].decode('iso8859-1').encode('utf-8') |
55 | 56 | |
56 | - # Abre o arquivo que contem os sinonimos e preenche o dicionario com os mesmos | |
57 | + # Abre o self.__fileDic que contem os sinonimos e preenche o dicionario com os mesmos | |
57 | 58 | def carregarSinonimos(self): |
58 | 59 | try: |
59 | - arquivo = csv.reader(open(self.__path+"portuguesGlosa.csv"), delimiter=";") | |
60 | + self.__fileDic = csv.reader(open(self.__path+"portuguesGlosa.csv"), delimiter=";") | |
60 | 61 | except IOError, (errno, strerror): |
61 | 62 | print "I/O error(%s): %s" % (errno, strerror) |
62 | 63 | print "carregarSinonimos" |
63 | 64 | |
64 | - for row in arquivo: | |
65 | + for row in self.__fileDic: | |
65 | 66 | if row[1] != "": |
66 | 67 | self.__dicSin[row[0].decode("utf-8")] = row[1].decode("utf-8") |
67 | 68 | |
68 | 69 | |
69 | - # Abre o arquivo que contem os tempos verbais | |
70 | + # Abre o self.__fileDic que contem os tempos verbais | |
70 | 71 | def carregarTemposVerbais(self): |
71 | 72 | try: |
72 | - arquivo = csv.reader(open(self.__path+"temposVerbais.csv"), delimiter=";") | |
73 | + self.__fileDic = csv.reader(open(self.__path+"temposVerbais.csv"), delimiter=";") | |
73 | 74 | except IOError, (errno, strerror): |
74 | 75 | print "I/O error(%s): %s" % (errno, strerror) |
75 | 76 | print "carregarTemposVerbais" |
76 | 77 | |
77 | - for row in arquivo: | |
78 | + for row in self.__fileDic: | |
78 | 79 | self.__dicTemVerbs[row[0].decode("utf-8")] = row[0].decode("utf-8") |
79 | 80 | |
80 | - # Abre o arquivo que contem os artigos e preposicoes de acordo com o modelo de idioma passado na chamada e preenche o dicionario com os mesmos | |
81 | + # Abre o self.__fileDic que contem os artigos e preposicoes de acordo com o modelo de idioma passado na chamada e preenche o dicionario com os mesmos | |
81 | 82 | def carregarPalavrasIgnoradas(self): |
82 | 83 | try: |
83 | - arquivo = csv.reader(open(self.__path+"hWordsRemove.csv"), delimiter=";") | |
84 | + self.__fileDic = csv.reader(open(self.__path+"hWordsRemove.csv"), delimiter=";") | |
84 | 85 | except IOError, (errno, strerror): |
85 | 86 | print "I/O error(%s): %s" % (errno, strerror) |
86 | 87 | print "carregarPalavrasIgnoradas" |
87 | 88 | |
88 | - for row in arquivo: | |
89 | + for row in self.__fileDic: | |
89 | 90 | self.__dicWords[row[0].decode("utf-8")] = row[0].decode("utf-8") |
90 | 91 | |
91 | - # Abre o arquivo que contem os substantivos que sao comuns dos 2 generos e preenche o dicionario com os mesmos | |
92 | + # Abre o self.__fileDic que contem os substantivos que sao comuns dos 2 generos e preenche o dicionario com os mesmos | |
92 | 93 | def carregarSubst2Generos(self): |
93 | 94 | try: |
94 | - arquivo = csv.reader(open(self.__path+"subs2Generos.csv"), delimiter=";") | |
95 | + self.__fileDic = csv.reader(open(self.__path+"subs2Generos.csv"), delimiter=";") | |
95 | 96 | except IOError, (errno, strerror): |
96 | 97 | print "I/O error(%s): %s" % (errno, strerror) |
97 | 98 | print "carregarSubst2Generos" |
98 | 99 | |
99 | - for row in arquivo: | |
100 | + for row in self.__fileDic: | |
100 | 101 | self.__dic2Gen[row[0].decode("utf-8")] = row[0].decode("utf-8") |
101 | 102 | |
102 | 103 | # Retorna o dicionario dos verbos no infinitivo | ... | ... |
src/Tradutor.py
... | ... | @@ -7,8 +7,10 @@ |
7 | 7 | |
8 | 8 | #LAViD - Laboratório de Aplicações de Vídeo Digital |
9 | 9 | |
10 | -from alexp import run | |
11 | -from AplicaSinonimos import sinonimosMorfologico, sinonimosSintatico | |
10 | +from alexp import run,getAnaliseMorfologica | |
11 | +from AplicaSinonimos import * | |
12 | + | |
13 | +sin = AplicaSinonimos() | |
12 | 14 | |
13 | 15 | |
14 | 16 | def iniciarTraducao(texto): |
... | ... | @@ -17,17 +19,18 @@ def iniciarTraducao(texto): |
17 | 19 | |
18 | 20 | def gerarAnalise(sentenca): |
19 | 21 | analise = run(sentenca) |
20 | - if (len(analise) > 0): | |
21 | - analiseSintatica(analise) | |
22 | - else: | |
23 | - analise = getAnaliseMorfologica() | |
22 | + if (isinstance(analise,type(None))): | |
23 | + analise = getAnaliseMorfologica() | |
24 | 24 | analiseMorfologica(analise) |
25 | + else: | |
26 | + analiseSintatica(analise) | |
27 | + | |
25 | 28 | |
26 | 29 | |
27 | 30 | def analiseMorfologica(sentenca): |
28 | - analise = sinonimosMorfologico(sentenca) | |
31 | + analise = sin.sinonimosMorfologico(sentenca) | |
29 | 32 | print analise |
30 | 33 | |
31 | 34 | def analiseSintatica(sentenca): |
32 | - analise = sinonimosSintatico(sentenca) | |
35 | + analise = sin.sinonimosSintatico(sentenca) | |
33 | 36 | print analise |
34 | 37 | \ No newline at end of file | ... | ... |
src/alexp.py
... | ... | @@ -108,7 +108,7 @@ def analisaSentenca(sentenca): |
108 | 108 | """ |
109 | 109 | parser=constroiAnalisador(sentenca) |
110 | 110 | codificada=[w.encode("utf-8") for w in sentenca] |
111 | - trees=parser.nbest_parse(codificada) | |
111 | + trees=parser.parse_one(codificada) | |
112 | 112 | return trees |
113 | 113 | |
114 | 114 | def constroiAnalisador(s): |
... | ... | @@ -120,7 +120,7 @@ def constroiAnalisador(s): |
120 | 120 | entradas=geraEntradasLexicais(SENTENCA_ANOTADA) |
121 | 121 | lexico="\n".join(entradas) |
122 | 122 | gramatica="%s\n%s" % (extraiSintaxe(DIR).strip(),lexico) |
123 | - cfg=nltk.parse_cfg(gramatica) | |
123 | + cfg=nltk.CFG.fromstring(gramatica) | |
124 | 124 | return nltk.ChartParser(cfg) |
125 | 125 | |
126 | 126 | def exibeArvores(arvores): |
... | ... | @@ -128,7 +128,6 @@ def exibeArvores(arvores): |
128 | 128 | nltk.draw.draw_trees(*arvores) |
129 | 129 | |
130 | 130 | def run(sentenca): |
131 | - #SENTENCA_ANOTADA = [] | |
132 | 131 | tokens=toqueniza(sentenca) |
133 | 132 | trees=analisaSentenca(tokens) |
134 | 133 | return trees |
135 | 134 | \ No newline at end of file | ... | ... |