Commit 05257307027cda21615797b4d965c4ab2d88cf5c
1 parent
37a7ee72
Exists in
master
and in
1 other branch
Adiciona verificação de palavras compostas de 3 tokens e atualiza lista de palavras compostas
Showing
2 changed files
with
12 additions
and
8 deletions
Show diff stats
data/palavras_compostas.csv
| 1 | BELO_HORIZONTE | 1 | BELO_HORIZONTE |
| 2 | BUMBA_MEU_BOI | 2 | BUMBA_MEU_BOI |
| 3 | CAMPO_GRANDE | 3 | CAMPO_GRANDE |
| 4 | -FERNANDO_DE_NORONHA | ||
| 5 | -GUARDA_DE_TRÂNSITO | 4 | +FERNANDO_NORONHA |
| 5 | +GUARDA_TRÂNSITO | ||
| 6 | JET_SKI | 6 | JET_SKI |
| 7 | NÃO_ADIANTAR | 7 | NÃO_ADIANTAR |
| 8 | NÃO_COMPARECER | 8 | NÃO_COMPARECER |
| @@ -23,6 +23,6 @@ POR_FAVOR | @@ -23,6 +23,6 @@ POR_FAVOR | ||
| 23 | PORTO_VELHO | 23 | PORTO_VELHO |
| 24 | REFORÇO_ESCOLAR | 24 | REFORÇO_ESCOLAR |
| 25 | RIO_BRANCO | 25 | RIO_BRANCO |
| 26 | -RODÍZIO_DE_CARRO | ||
| 27 | -ROLO_DE_MASSA | ||
| 28 | -TÍTULO_DE_ELEITOR | ||
| 29 | \ No newline at end of file | 26 | \ No newline at end of file |
| 27 | +RODÍZIO_CARRO | ||
| 28 | +ROLO_MASSA | ||
| 29 | +TÍTULO_ELEITOR | ||
| 30 | \ No newline at end of file | 30 | \ No newline at end of file |
src/AplicaSinonimos.py
| @@ -31,9 +31,13 @@ class AplicaSinonimos(object): | @@ -31,9 +31,13 @@ class AplicaSinonimos(object): | ||
| 31 | for tupla in lista_anotada: | 31 | for tupla in lista_anotada: |
| 32 | sinonimo = self.verificar_sinonimo(tupla[0]) | 32 | sinonimo = self.verificar_sinonimo(tupla[0]) |
| 33 | try: | 33 | try: |
| 34 | - token_composto = lista_corrigida[-1] + "_" + sinonimo | ||
| 35 | - if token_composto.upper() in palavras_compostas: | ||
| 36 | - lista_corrigida[-1] = token_composto | 34 | + token_composto_2 = lista_corrigida[-1] + "_" + sinonimo |
| 35 | + token_composto_3 = lista_corrigida[-2] + "_" + lista_corrigida[-1] + "_" + sinonimo | ||
| 36 | + if token_composto_2.upper() in palavras_compostas: | ||
| 37 | + lista_corrigida[-1] = token_composto_2 | ||
| 38 | + elif token_composto_3.upper() in palavras_compostas: | ||
| 39 | + lista_corrigida.pop() | ||
| 40 | + lista_corrigida[-1] = token_composto_3 | ||
| 37 | else: | 41 | else: |
| 38 | lista_corrigida.append(sinonimo) | 42 | lista_corrigida.append(sinonimo) |
| 39 | except IndexError: | 43 | except IndexError: |