Commit 37a7ee72cfef1ddecdd45eaae2de9312220d2ded
1 parent
4841f13a
Exists in
master
and in
1 other branch
Adiciona tratamento de palavras compostas no pós-processamento
Showing
2 changed files
with
53 additions
and
2 deletions
Show diff stats
@@ -0,0 +1,28 @@ | @@ -0,0 +1,28 @@ | ||
1 | +BELO_HORIZONTE | ||
2 | +BUMBA_MEU_BOI | ||
3 | +CAMPO_GRANDE | ||
4 | +FERNANDO_DE_NORONHA | ||
5 | +GUARDA_DE_TRÂNSITO | ||
6 | +JET_SKI | ||
7 | +NÃO_ADIANTAR | ||
8 | +NÃO_COMPARECER | ||
9 | +NÃO_CONHECER | ||
10 | +NÃO_CONSEGUIR | ||
11 | +NÃO_DAR | ||
12 | +NÃO_DESANIMAR | ||
13 | +NÃO_ENTENDER | ||
14 | +NÃO_FUMAR | ||
15 | +NÃO_INGERIR | ||
16 | +NÁO_LIGAR | ||
17 | +NÃO_OUVIR | ||
18 | +NÃO_PRESTAR | ||
19 | +NÃO_USAR | ||
20 | +NÃO_VER | ||
21 | +OFICINA_MECÂNICA | ||
22 | +POR_FAVOR | ||
23 | +PORTO_VELHO | ||
24 | +REFORÇO_ESCOLAR | ||
25 | +RIO_BRANCO | ||
26 | +RODÍZIO_DE_CARRO | ||
27 | +ROLO_DE_MASSA | ||
28 | +TÍTULO_DE_ELEITOR | ||
0 | \ No newline at end of file | 29 | \ No newline at end of file |
src/AplicaSinonimos.py
@@ -11,6 +11,9 @@ import csv | @@ -11,6 +11,9 @@ import csv | ||
11 | import sys | 11 | import sys |
12 | from nltk.tree import Tree | 12 | from nltk.tree import Tree |
13 | from LerDicionarios import * | 13 | from LerDicionarios import * |
14 | +from os.path import expanduser | ||
15 | +from os import environ, path | ||
16 | + | ||
14 | 17 | ||
15 | class AplicaSinonimos(object): | 18 | class AplicaSinonimos(object): |
16 | '''Aplica sinonimos após aplicação de regras morfológicas/sintáticas. | 19 | '''Aplica sinonimos após aplicação de regras morfológicas/sintáticas. |
@@ -24,9 +27,18 @@ class AplicaSinonimos(object): | @@ -24,9 +27,18 @@ class AplicaSinonimos(object): | ||
24 | '''Percorre a lista fazendo a substituição pelos sinonimos. | 27 | '''Percorre a lista fazendo a substituição pelos sinonimos. |
25 | ''' | 28 | ''' |
26 | lista_corrigida = [] | 29 | lista_corrigida = [] |
30 | + palavras_compostas = self.carregar_palavras_compostas() | ||
27 | for tupla in lista_anotada: | 31 | for tupla in lista_anotada: |
28 | sinonimo = self.verificar_sinonimo(tupla[0]) | 32 | sinonimo = self.verificar_sinonimo(tupla[0]) |
29 | - lista_corrigida.append(sinonimo) | 33 | + try: |
34 | + token_composto = lista_corrigida[-1] + "_" + sinonimo | ||
35 | + if token_composto.upper() in palavras_compostas: | ||
36 | + lista_corrigida[-1] = token_composto | ||
37 | + else: | ||
38 | + lista_corrigida.append(sinonimo) | ||
39 | + except IndexError: | ||
40 | + lista_corrigida.append(sinonimo) | ||
41 | + | ||
30 | try: | 42 | try: |
31 | return " ".join(lista_corrigida) | 43 | return " ".join(lista_corrigida) |
32 | except: | 44 | except: |
@@ -38,4 +50,15 @@ class AplicaSinonimos(object): | @@ -38,4 +50,15 @@ class AplicaSinonimos(object): | ||
38 | ''' | 50 | ''' |
39 | if self.dicionarios.has_sinonimo(token): | 51 | if self.dicionarios.has_sinonimo(token): |
40 | return self.dicionarios.get_sinonimo(token) | 52 | return self.dicionarios.get_sinonimo(token) |
41 | - return token | ||
42 | \ No newline at end of file | 53 | \ No newline at end of file |
54 | + return token | ||
55 | + | ||
56 | + def carregar_palavras_compostas(self): | ||
57 | + path = self.localizar_arquivo_palavras_compostas() | ||
58 | + return set(open(path).read().decode('utf-8').split()) | ||
59 | + | ||
60 | + def localizar_arquivo_palavras_compostas(self): | ||
61 | + if platform.system() == 'Windows': | ||
62 | + return environ.get("HOMEDRIVE")+'\\vlibras-libs\\vlibras-translate\data\\palavras_compostas.csv' | ||
63 | + elif "TRANSLATE_DATA" in environ: | ||
64 | + return path.join(environ.get("TRANSLATE_DATA"), "palavras_compostas.csv") | ||
65 | + return expanduser("~")+'/vlibras-translate/data/palavras_compostas.csv' | ||
43 | \ No newline at end of file | 66 | \ No newline at end of file |