Commit 05257307027cda21615797b4d965c4ab2d88cf5c

Authored by Erickson Silva
1 parent 37a7ee72
Exists in master and in 1 other branch devel

Adiciona verificação de palavras compostas de 3 tokens e atualiza lista de palavras compostas

data/palavras_compostas.csv
1 BELO_HORIZONTE 1 BELO_HORIZONTE
2 BUMBA_MEU_BOI 2 BUMBA_MEU_BOI
3 CAMPO_GRANDE 3 CAMPO_GRANDE
4 -FERNANDO_DE_NORONHA  
5 -GUARDA_DE_TRÂNSITO 4 +FERNANDO_NORONHA
  5 +GUARDA_TRÂNSITO
6 JET_SKI 6 JET_SKI
7 NÃO_ADIANTAR 7 NÃO_ADIANTAR
8 NÃO_COMPARECER 8 NÃO_COMPARECER
@@ -23,6 +23,6 @@ POR_FAVOR @@ -23,6 +23,6 @@ POR_FAVOR
23 PORTO_VELHO 23 PORTO_VELHO
24 REFORÇO_ESCOLAR 24 REFORÇO_ESCOLAR
25 RIO_BRANCO 25 RIO_BRANCO
26 -RODÍZIO_DE_CARRO  
27 -ROLO_DE_MASSA  
28 -TÍTULO_DE_ELEITOR  
29 \ No newline at end of file 26 \ No newline at end of file
  27 +RODÍZIO_CARRO
  28 +ROLO_MASSA
  29 +TÍTULO_ELEITOR
30 \ No newline at end of file 30 \ No newline at end of file
src/AplicaSinonimos.py
@@ -31,9 +31,13 @@ class AplicaSinonimos(object): @@ -31,9 +31,13 @@ class AplicaSinonimos(object):
31 for tupla in lista_anotada: 31 for tupla in lista_anotada:
32 sinonimo = self.verificar_sinonimo(tupla[0]) 32 sinonimo = self.verificar_sinonimo(tupla[0])
33 try: 33 try:
34 - token_composto = lista_corrigida[-1] + "_" + sinonimo  
35 - if token_composto.upper() in palavras_compostas:  
36 - lista_corrigida[-1] = token_composto 34 + token_composto_2 = lista_corrigida[-1] + "_" + sinonimo
  35 + token_composto_3 = lista_corrigida[-2] + "_" + lista_corrigida[-1] + "_" + sinonimo
  36 + if token_composto_2.upper() in palavras_compostas:
  37 + lista_corrigida[-1] = token_composto_2
  38 + elif token_composto_3.upper() in palavras_compostas:
  39 + lista_corrigida.pop()
  40 + lista_corrigida[-1] = token_composto_3
37 else: 41 else:
38 lista_corrigida.append(sinonimo) 42 lista_corrigida.append(sinonimo)
39 except IndexError: 43 except IndexError: