Merge branch 'devel'

Erickson Silva
2 parents c7bf37c8 1d486c40
Showing 10 changed files with 290 additions and 226 deletions Show diff stats
data/preposicoes.csv
install/linux/install.sh
src/AplicaRegras.py
src/AplicaSinonimos.py
src/ClassificaSentencas.py
src/ConverteExtenso.py
src/LerDicionarios.py
src/PortGlosa.py
src/TraduzSentencas.py
src/alexp.py
@@ -14,4 +14,6 @@ pela
 pelos
 pelas
 ao
-aos
 \ No newline at end of file
+aos
+às
+a
 \ No newline at end of file
@@ -30,7 +30,7 @@ read -r -p &quot;Deseja fazer o download das dependências? [Y/n] &quot; response
 		echo -e "# Instalando dependências...\n"
 		sudo apt-get update
 		sudo apt-get install -y python-dev python-setuptools python-pip python-yaml python-numpy python-matplotlib
-		sudo pip install nltk nltk_tgrep --upgrade 
+		sudo pip install nltk==3.0.5 nltk_tgrep --upgrade 
 	 fi
@@ -6,7 +6,6 @@
 #LAViD - Laboratório de Aplicações de Vídeo Digital
-import platform
 import re
 import xml.etree.ElementTree as ET
 from os.path import expanduser
@@ -38,12 +37,10 @@ class AplicaRegras(object):
 	# Gera arvore a partir do arquivos regras.xml
 	def get_root(self):
 		'''Verifica qual o SO e gera o path de onde se encontra o diretório data.
-      	'''
-      	if "TRANSLATE_DATA" in environ:
+		'''
+		if "TRANSLATE_DATA" in environ:
 			arq_regras = path.join(environ.get("TRANSLATE_DATA"), "regras.xml")
 			return ET.parse(arq_regras).getroot()
-		elif platform.system() == 'Windows':
-			return ET.parse(environ.get("HOMEDRIVE")+'\\vlibras-libs\\vlibras-translate\data\\regras.xml').getroot()
 		return ET.parse(expanduser("~")+'/vlibras-translate/data/regras.xml').getroot()
 	# Aplica regras morfológicas apartir do arquivo regras.xml
@@ -264,8 +261,15 @@ class AplicaRegras(object):
 			# EU FELIZ PASSADO -> EU FELIZ
 			if morfo[i] is not None and morfo[i][1] == "NTK" and morfo[i][0]:
 				new_node = self.gerar_no(morfo[i])
-				arvore[lista_pos_arv[i-1][:-3]].insert(2, new_node)
-				#arvore[lista_pos_arv[i-1][:-2]].insert(2, new_node)
+
+				#arvore[lista_pos_arv[i-1][:-3]].insert(2, new_node)
+				#arvore[lista_pos_arv[i-1][:-3]].insert(2, new_node)
+				
+				if str(arvore[lista_pos_arv[i-1][:-3]]).count('(') > 7:
+					arvore[lista_pos_arv[i-1][:-2]].insert(2, new_node)
+				else:
+					arvore[lista_pos_arv[i-1][:-3]].insert(2, new_node)
+				
 				try:
 					lista_pos_arv.insert(i,lista_pos_arv[i])
 				except:
@@ -399,9 +403,14 @@ class AplicaRegras(object):
 			tag = it.get_ticket()
 			if tag == "NUM":
+				try:
+					num_romano = roman_to_int(it.get_word().encode('utf-8'))
+					lista_simplificada[it.get_count()] = [num_romano.decode('utf-8'), 'NUM-R']
+				except:
+					pass
 				num = True
-			if tag[-2:] == "-P" and self.verificar_excecao_plural(it.get_word()):
+			if tag != "NPR-P" and tag[-2:] == "-P" or tag[-2:] == "_P" and self.verificar_excecao_plural(it.get_word()):
 				singular = self.analisar_plural(it.get_word())
 				lista_simplificada[it.get_count()][0] = singular
@@ -438,7 +447,7 @@ class AplicaRegras(object):
 				return token[:-2]+"l"	
 			return token	
 		elif(token[-1] == "s"):
-	    	#TODO: Palavras paroxítonas ou proparoxítonas terminadas em S. Ex: lápis, vírus, tagênis, ônibus, etc
+			#TODO: Palavras paroxítonas ou proparoxítonas terminadas em S. Ex: lápis, vírus, tagênis, ônibus, etc
 			return token[:-1]
 		else:
 			return token
@@ -27,26 +27,10 @@ class AplicaSinonimos(object):
 		'''Percorre a lista fazendo a substituição pelos sinonimos.
 		'''
 		lista_corrigida = []
-		palavras_compostas = self.carregar_palavras_compostas()
 		for tupla in lista_anotada:
 			sinonimo = self.verificar_sinonimo(tupla[0])
-			try:
-				token_composto_2 = lista_corrigida[-1] + "_" + sinonimo
-				token_composto_3 = lista_corrigida[-2] + "_" + lista_corrigida[-1] + "_" + sinonimo
-				if token_composto_2.upper() in palavras_compostas:
-					lista_corrigida[-1] = token_composto_2
-				elif token_composto_3.upper() in palavras_compostas:
-					lista_corrigida.pop()
-					lista_corrigida[-1] = token_composto_3
-				else:
-					lista_corrigida.append(sinonimo)
-			except IndexError:
-				lista_corrigida.append(sinonimo)
-
-		try:
-			return " ".join(lista_corrigida)
-		except:
-			return " ".join([str(x[0]) for x in lista_anotada])
+			lista_corrigida.append(sinonimo)
+		return self.verificar_palavra_composta(lista_corrigida)
 	# Verifica se há sinonimo do token  
 	def verificar_sinonimo(self, token):
@@ -56,13 +40,23 @@ class AplicaSinonimos(object):
 			return self.dicionarios.get_sinonimo(token)
 		return token
+	def verificar_palavra_composta(self, lista):
+		palavras_compostas = self.carregar_palavras_compostas()
+		try:
+			sentenca_corrigida = "_".join(lista).upper()
+		except:
+			sentenca_corrigida = "_".join([str(x[0]) for x in lista]).upper()
+
+		for p in palavras_compostas:
+			if p in sentenca_corrigida:
+				sentenca_corrigida = sentenca_corrigida.replace(p, p.replace("_", "#*#"))
+		return sentenca_corrigida.replace("_", " ").replace("#*#", "_")
+
 	def carregar_palavras_compostas(self):
 		path = self.localizar_arquivo_palavras_compostas()
 		return set(open(path).read().decode('utf-8').split())
 	def localizar_arquivo_palavras_compostas(self):
-		if platform.system() == 'Windows':
-			return environ.get("HOMEDRIVE")+'\\vlibras-libs\\vlibras-translate\data\\palavras_compostas.csv'
-		elif "TRANSLATE_DATA" in environ:
+		if "TRANSLATE_DATA" in environ:
 			return path.join(environ.get("TRANSLATE_DATA"), "palavras_compostas.csv")
 		return expanduser("~")+'/vlibras-translate/data/palavras_compostas.csv'
 \ No newline at end of file
@@ -0,0 +1,165 @@
+#! /usr/bin/env python2.6
+# -*- coding: utf-8 -*-
+
+#---------------------------------
+
+# Editado:
+
+#Autor: Erickson Silva 
+#Email: <erickson.silva@lavid.ufpb.br> <ericksonsilva@live.com>
+
+#LAViD - Laboratório de Aplicações de Vídeo Digital
+
+#---------------------------------
+
+
+# Donatus Brazilian Portuguese Parser
+#
+# Copyright (C) 2010-2013 Leonel F. de Alencar
+#
+# Author: Leonel F. de Alencar <leonel.de.alencar@ufc.br>
+# Homepage: <http://www.leonel.profusehost.net/>
+#
+# Project's URL: <http://sourceforge.net/projects/donatus/>
+# For license information, see LICENSE.TXT
+#
+# $Id: alexp.py $
+
+"""Este módulo contém funções que permitem utilizar o Aelius para etiquetar uma sentença, construindo entradas lexicais com base nas etiquetas atribuídas às palavras da sentença. Essas entradas lexicais são integradas em uma gramática CFG dada, que é transformada em um parser, utilizado para gerar uma árvore de estrutura sintagmática da sentença. 
+"""
+import re,nltk, time, random
+from os.path import expanduser
+from os import environ, path
+from Aelius.Extras import carrega
+from Aelius import AnotaCorpus, Toqueniza
+from unicodedata import normalize
+
+
+class ClassificaSentencas(object):
+
+	def __init__(self):
+		self.sentenca_anotada = ""
+		self.sleep_times = [0.1,0.2]		
+
+	def toqueniza(self, s):
+		"""Decodifica string utilizando utf-8, retornando uma lista de tokens em unicode.
+		"""
+		regex = re.compile('[%s]' % re.escape('“”'))
+		regex2 = re.compile('[%s]' % re.escape('«»'))
+		try:
+			decodificada = regex2.sub('',regex.sub('"',s.replace("–", "-").replace("—", "-"))).decode("utf-8")
+		except:
+			decodificada = s.decode("utf-8")
+		return Toqueniza.TOK_PORT.tokenize(decodificada)
+
+	def obter_classificacao_morfologica(self):
+		return self.sentenca_anotada
+
+	def etiqueta_sentenca(self, s):
+		"""Aplica um dos etiquetadores do Aelius na etiquetagem da sentença dada como lista de tokens.
+		"""
+		etiquetador = carrega("AeliusHunPos")
+		anotada = AnotaCorpus.anota_sentencas([s],etiquetador,"hunpos")[0]
+		while (anotada[0][1] is None):
+			time.sleep(random.choice(sleep_times))
+			anotada = AnotaCorpus.anota_sentencas([s],etiquetador,"hunpos")[0]
+		regex = re.compile('[%s]' % re.escape('!"#&\'()*+,-./:;<=>?@[\\]^_`{|}~'))
+		tag_punctuation = [".",",","QT","("]
+		anotada_corrigida = []
+		for x in anotada:
+			if x[1] not in tag_punctuation:
+				if x[1] == "NUM":
+					try:
+						float(x[0].replace(',', '.'))
+						anotada_corrigida.append(x)
+						continue
+					except:
+						pass
+					
+				tupla = [regex.sub('',x[0]).lower(),x[1]]
+				if tupla[0] != "": anotada_corrigida.append(tupla)
+			else:
+				if x[0] == ".":
+					anotada_corrigida.append(["[ponto]".decode("utf-8"),"SPT"])
+				elif x[0] == "?":
+					anotada_corrigida.append(["[interrogacao]".decode("utf-8"),"SPT"])
+				elif x[0] == "!":
+					anotada_corrigida.append(["[exclamacao]".decode("utf-8"),"SPT"])
+		return anotada_corrigida
+
+	def gera_entradas_lexicais(self, lista):
+		"""Gera entradas lexicais no formato CFG do NLTK a partir de lista de pares constituídos de tokens e suas etiquetas.
+		"""
+		entradas=[]
+		for e in lista:
+			# é necessário substituir símbolos como "-" e "+" do CHPTB
+			# que não são aceitos pelo NLTK como símbolos não terminais
+			c=re.sub(r"[-+]","_",e[1])
+			c=re.sub(r"\$","_S",c)
+			entradas.append("%s -> '%s'" % (c, self.remove_acento(e[0])))
+		return entradas
+
+	def corrige_anotacao(self, lista):
+		"""Esta função deverá corrigir alguns dos erros de anotação mais comuns do Aelius. No momento, apenas é corrigida VB-AN depois de TR.
+		"""
+		i=1
+		while i < len(lista):
+			if lista[i][1] == "VB-AN" and lista[i-1][1].startswith("TR"):
+				lista[i]=(lista[i][0],"VB-PP")
+			i+=1
+
+	def encontra_arquivo(self):
+		"""Encontra arquivo na pasta vlibras-translate.
+		"""
+		if "TRANSLATE_DATA" in environ:
+			return path.join(environ.get("TRANSLATE_DATA"), "cfg.syn.nltk")
+		return expanduser("~") + "/vlibras-translate/data/cfg.syn.nltk"
+
+	def extrai_sintaxe(self):
+		"""Extrai gramática armazenada em arquivo cujo caminho é definido relativamente ao diretório nltk_data.
+		"""
+		arquivo = self.encontra_arquivo()
+		if arquivo:
+			f=open(arquivo,"rU")
+			sintaxe=f.read()
+			f.close()
+			return sintaxe
+		else:
+			print "Arquivo %s não encontrado em nenhum dos diretórios de dados do NLTK:\n%s" % (caminho,"\n".join(nltk.data.path))
+
+	def analisa_sentenca(self, sentenca):
+		"""Retorna lista de árvores de estrutura sintagmática para a sentença dada sob a forma de uma lista de tokens, com base na gramática CFG cujo caminho é especificado como segundo argumento da função. Esse caminho é relativo à pasta nltk_data da instalação local do NLTK. A partir da etiquetagem morfossintática da sentença são geradas entradas lexicais que passam a integrar a gramática CFG. O caminho da gramática e o parser gerado são armazenados como tupla na variável ANALISADORES.
+		"""
+		parser = self.constroi_analisador(sentenca)
+		codificada=[]
+		for t in self.sentenca_anotada:
+			if t[1] != "SPT":
+				codificada.append(self.remove_acento(t[0]).encode("utf-8"))
+		trees=parser.parse_one(codificada)
+		return trees
+
+	def constroi_analisador(self, s):
+		"""Constrói analisador a partir de uma única sentença não anotada, dada como lista de tokens, e uma lista de regras sintáticas no formato CFG, armazenadas em arquivo. Esta função tem um bug, causado pela maneira como o Aelius etiqueta sentenças usando o módulo ProcessaNomesProprios: quando a sentença se inicia por paravra com inicial minúscula, essa palavra não é incorporada ao léxico, mas a versão com inicial maiúscula.
+		"""
+		self.sentenca_anotada = self.etiqueta_sentenca(s)
+		self.corrige_anotacao(self.sentenca_anotada)
+		entradas = self.gera_entradas_lexicais(self.sentenca_anotada)
+		lexico="\n".join(entradas)
+		gramatica="%s\n%s" % (self.extrai_sintaxe().strip(),lexico)
+		cfg=nltk.CFG.fromstring(gramatica)
+		return nltk.ChartParser(cfg)
+
+	def remove_acento(self, texto):
+		try:
+			return normalize('NFKD', texto.encode('utf-8').decode('utf-8')).encode('ASCII', 'ignore')
+		except:
+			return normalize('NFKD', texto.encode('iso-8859-1').decode('iso-8859-1')).encode('ASCII','ignore')
+
+	def exibe_arvores(self, arvores):
+		"""Função 'wrapper' para a função de exibição de árvores do NLTK"""
+		nltk.draw.draw_trees(*arvores)
+
+	def iniciar_classificacao(self, sentenca):
+		tokens = self.toqueniza(sentenca)
+		tree = self.analisa_sentenca(tokens)
+		return tree
 \ No newline at end of file
@@ -25,7 +25,45 @@ ext = [{&quot;um&quot;:&quot;1&quot;, &quot;dois&quot;:&quot;2&quot;, &quot;tres&quot;:&quot;3&quot;, &quot;quatro&quot;:&quot;4&quot;, &quot;cinco&quot;:&quot;5&quot;, &quot;seis&quot;:&quot;6&quot;,
 und = {"mil":1000, "milhao":1000000, "bilhao":1000000000, "trilhao":1000000000000}
 unds = {"mil":"000", "milhao":"000000","milhoes":"000000", "bilhao":"000000000","bilhoes":"000000000", "trilhao":"000000000000", "trilhoes":"000000000000"}
-
+def int_to_roman(input):
+    if not isinstance(input, type(1)):
+        raise TypeError, "expected integer, got %s" % type(input)
+    if not 0 < input < 4000:
+        raise ValueError, "Argument must be between 1 and 3999"
+    ints = (1000, 900, 500, 400, 100, 90, 50, 40, 10, 9, 5, 4, 1)
+    nums = ('M', 'CM', 'D', 'CD','C', 'XC','L','XL','X','IX','V','IV','I')
+    result = []
+
+    for i in range(len(ints)):
+        count = int(input / ints[i])
+        result.append(nums[i] * count)
+        input -= ints[i] * count
+    return ''.join(result)
+
+def roman_to_int(input):
+    if not isinstance(input, type("")):
+        raise TypeError, "expected string, got %s" % type(input)
+    input = input.upper( )
+    nums = {'M':1000,
+            'D':500,
+            'C':100,
+            'L':50,
+            'X':10,
+            'V':5,
+            'I':1}
+    sum = 0
+    for i in range(len(input)):
+        try:
+            value = nums[input[i]]
+            if i+1 < len(input) and nums[input[i+1]] > value:
+                sum -= value
+            else: sum += value
+        except KeyError:
+            raise ValueError, 'input is not a valid Roman numeral: %s' % input
+        
+    if int_to_roman(sum) == input: return str(sum)
+    else:
+        raise ValueError, 'input is not a valid Roman numeral: %s' % input
 def oneDigit(x):
 	return ext[0][x]
@@ -8,20 +8,20 @@
 import os
 import csv
-import platform
-class Singleton(object):
+class Singleton(type):
    ''' Permite a criação de apenas uma instância da classe
    '''
+   _instances = {}
+   def __call__(cls, *args, **kwargs):
+      if cls not in cls._instances:
+         cls._instances[cls] = super(Singleton, cls).__call__(*args, **kwargs)
+      return cls._instances[cls]
-   def __new__(cls, *args, **kwargs):
-      if '_inst' not in vars(cls):
-         cls._inst = object.__new__(cls, *args, **kwargs)
-      return cls._inst
-
-class LerDicionarios(Singleton):
+class LerDicionarios(object):
    '''Carrega todos os arquivos (dicionários) necessários para auxiliar durante o processo de tradução.
    '''
+   __metaclass__ = Singleton
    def __init__(self):
       self.path = self.get_path()
@@ -37,31 +37,13 @@ class LerDicionarios(Singleton):
       self.set_vb_ligacao = []
       self.dic_vb_muda_negacao = []
       self.file = '' 
-      self.carregar_dicionarios()
    def get_path(self):
       '''Verifica qual o SO e gera o path de onde se encontra o diretório data.
       '''
       if "TRANSLATE_DATA" in os.environ:
          return os.environ.get("TRANSLATE_DATA")
-      elif platform.system() == 'Windows':
-         return os.environ.get("HOMEDRIVE") + "\\vlibras-libs\\vlibras-translate\data\\"
-      return os.path.expanduser("~") + "/vlibras-translate/data"
-
-   def carregar_dicionarios(self):
-      '''Realiza a leitura dos arquivos e atribui à estruturas de dicionários e sets.
-      '''
-      self.carregar_excecoes_plural()
-      self.carregar_adverbios_intensidade()
-      self.carregar_adverbios_tempo()
-      self.carregar_artigos()
-      self.carregar_preposicoes()
-      self.carregar_sinonimos() 
-      self.carregar_subs_2_generos()
-      self.carregar_pronomes_tratamento()
-      self.carregar_verbos_infinitivo()
-      self.carregar_verbos_ligacao()     
-      self.carregar_verbos_muda_negacao  
+      return os.path.expanduser("~") + "/vlibras-translate/data"      
    def montar_diretorio(self, arquivo):
       return os.path.join(self.path, arquivo)
@@ -225,74 +207,104 @@ class LerDicionarios(Singleton):
    def has_excecao_plural(self, token):
       '''Verifica se o token recebido consta no arquivo de exceções de plural.
       '''
+      if not self.set_exc_plural:
+         self.carregar_excecoes_plural()
       return token not in self.set_exc_plural
    def has_adverbio_intensidade(self, token):
       '''Verifica se o token recebido consta no arquivo de advérbios de intensidade.
       '''
+      if not self.dic_adv_intensidade:
+         self.carregar_adverbios_intensidade()
       return self.dic_adv_intensidade.has_key(token)
    def has_adverbio_tempo(self, token):
       '''Verifica se o token recebido consta no arquivo de advérbios de tempo.
       '''
+      if not self.set_adv_tempo:
+         self.carregar_adverbios_tempo()
       return token in self.set_adv_tempo
    def has_artigo(self, token):
       '''Verifica se o token recebido consta no arquivo de artigos a serem removidos.
       '''
+      if not self.set_art:
+         self.carregar_artigos()
       return token in self.set_art
    def has_preposicao(self, token):
       '''Verifica se o token recebido consta no arquivo de preposições a serem removidas.
       '''
+      if not self.set_prep:
+         self.carregar_preposicoes()
       return token in self.set_prep
    def has_sinonimo(self, token):
       '''Verifica se o token recebido consta no arquivo de sinonimos.
       '''
+      if not self.dic_sin:
+         self.carregar_sinonimos()
       return self.dic_sin.has_key(token)
    def has_pron_tratam(self, token):
       '''Verifica se o token recebido consta no arquivo de pronomes de tratamento.
       '''
+      if not self.set_pron_trat:
+         self.carregar_pronomes_tratamento()
       return token in self.set_pron_trat
    def has_subst_2_generos (self, token):
       '''Verifica se o token recebido consta no arquivo de substantivos comuns de 2 generos.
       '''
+      if not self.set_sb_2_gen:
+         self.carregar_subs_2_generos()
       return token in self.set_sb_2_gen
    def has_verbo_infinitivo(self, token):
       '''Verifica se o token recebido consta no arquivo de verbos no infinitivo.
       '''
+      if not self.dic_vb_infinitivo:
+         self.carregar_verbos_infinitivo()
       return self.dic_vb_infinitivo.has_key(token)
    def has_verbo_ligacao(self, token):
       '''Verifica se o token recebido consta no arquivo de verbos de ligação.
       '''
+      if not self.set_vb_ligacao:
+         self.carregar_verbos_ligacao()
       return token in self.set_vb_ligacao
    def has_verbo_muda_negacao(self, token):
       '''Verifica se o token recebido consta no arquivo de verbos que mudam de negação.
       '''
+      if not self.dic_vb_muda_negacao:
+         self.carregar_verbos_muda_negacao()
       return self.dic_vb_muda_negacao.has_key(token)
    def get_adverbio_intensidade(self, token):
       '''Verifica se o token recebido consta no arquivo de advérbios de intensidade.
       '''
+      if not self.dic_adv_intensidade:
+         self.carregar_adverbios_intensidade()
       return self.dic_adv_intensidade[token]
    def get_sinonimo(self, token):
       '''Obtém o sinônimo do token.
       '''
+      if not self.dic_sin:
+         self.carregar_sinonimos()
       return self.dic_sin[token]
    def get_verbo_infinitivo(self, token):
       '''Obtém o verbo no infinitivo do token.
       '''
+      if not self.dic_vb_infinitivo:
+         self.carregar_verbos_infinitivo()
       return self.dic_vb_infinitivo[token]
    def get_verbo_muda_negacao(self, token):
       '''Obtém o verbo que muda a negação do token.
       '''
+      if not self.dic_vb_muda_negacao:
+         self.carregar_verbos_muda_negacao()
       return self.dic_vb_muda_negacao[token]
 \ No newline at end of file
@@ -11,22 +11,20 @@ from ThreadTradutor import *
 from TraduzSentencas import *
 from LerDicionarios import *
-
 tradutor = TraduzSentencas()
-dicionario = LerDicionarios()
 taxas = []
 def traduzir(texto, log=None, threads=False, taxa_qualidade=False):
-	tradutor.set_level(log) if log != None else tradutor.desativar_logging()
+	#tradutor.set_level(log) if log != None else tradutor.desativar_logging()
 	if texto.isspace() or texto == "":
 		#or not checar_idioma(texto):
 		return "ESCOLHER TEXTO CERTO"
-	elif threads:
-		return iniciar_com_threads(texto, taxa_qualidade)
+	#elif threads:
+	#	return iniciar_com_threads(texto, taxa_qualidade)
-	else:
-		return iniciar_sem_threads(texto, taxa_qualidade)
+	#else:
+	return iniciar_sem_threads(texto, taxa_qualidade)
 def iniciar_com_threads(texto, taxa_qualidade):
 	texto_quebrado = quebrar_texto(texto)
@@ -64,6 +62,7 @@ def quebrar_texto(texto):
 	if '.' not in texto:
 		return [texto]
+	dicionario = LerDicionarios()
 	texto_quebrado = texto.split()
 	tamanho_texto_quebrado = len(texto_quebrado)
 	sentencas = []
@@ -6,7 +6,7 @@
 #LAViD - Laboratório de Aplicações de Vídeo Digital
-import alexp
+from ClassificaSentencas import *
 from AplicaRegras import *
 from AplicaSinonimos import *
 import logging
@@ -24,6 +24,7 @@ class TraduzSentencas(object):
 	def __init__(self):
 		'''Instancia os aplicadores de regras e sinônimos.
 		'''
+		self.classificador = ClassificaSentencas()
 		self.aplic_regras = AplicaRegras()
 		self.aplic_sin = AplicaSinonimos()
 		self.check_level()
@@ -33,13 +34,13 @@ class TraduzSentencas(object):
 		'''
 		try:
 			has_sintatica = True
-			analise_sintatica = alexp.run(sentenca)
+			analise_sintatica = self.classificador.iniciar_classificacao(sentenca)
 		except Exception as ex:
 			self.salvar_log(str(traceback.format_exc()))
 			analise_sintatica = None
 			has_sintatica = False
-		analise_morfologica = alexp.getAnaliseMorfologica()
+		analise_morfologica = self.classificador.obter_classificacao_morfologica()
 		if (isinstance(analise_sintatica,type(None))):
 			regras_aplicadas = self.aplic_regras.aplicar_regras_morfo(analise_morfologica)
@@ -1,156 +0,0 @@
-#! /usr/bin/env python2.6
-# -*- coding: utf-8 -*-
-
-#---------------------------------
-
-# Editado:
-
-#Autor: Erickson Silva 
-#Email: <erickson.silva@lavid.ufpb.br> <ericksonsilva@live.com>
-
-#LAViD - Laboratório de Aplicações de Vídeo Digital
-
-#---------------------------------
-
-
-# Donatus Brazilian Portuguese Parser
-#
-# Copyright (C) 2010-2013 Leonel F. de Alencar
-#
-# Author: Leonel F. de Alencar <leonel.de.alencar@ufc.br>
-# Homepage: <http://www.leonel.profusehost.net/>
-#
-# Project's URL: <http://sourceforge.net/projects/donatus/>
-# For license information, see LICENSE.TXT
-#
-# $Id: alexp.py $
-
-"""Este módulo contém funções que permitem utilizar o Aelius para etiquetar uma sentença, construindo entradas lexicais com base nas etiquetas atribuídas às palavras da sentença. Essas entradas lexicais são integradas em uma gramática CFG dada, que é transformada em um parser, utilizado para gerar uma árvore de estrutura sintagmática da sentença. 
-"""
-import re,nltk,platform, time, random
-from os.path import expanduser
-from os import environ, path
-from Aelius.Extras import carrega
-from Aelius import AnotaCorpus
-from unicodedata import normalize
-
-sentenca_anotada=""
-sleep_times=[0.1,0.2]
-
-def toqueniza(s):
-	"""Decodifica string utilizando utf-8, retornando uma lista de tokens em unicode.
-	"""
-	regex = re.compile('[%s]' % re.escape('“”'))
-	decodificada=regex.sub('"',s.replace("–", "-").replace("—", "-")).decode("utf-8")
-	return AnotaCorpus.TOK_PORT.tokenize(decodificada)
-
-def getAnaliseMorfologica():
-	return sentenca_anotada
-
-def etiquetaSentenca(s):
-	"""Aplica um dos etiquetadores do Aelius na etiquetagem da sentença dada como lista de tokens.
-	"""
-	etiquetador = carrega("AeliusHunPos")
-	anotada = AnotaCorpus.anota_sentencas([s],etiquetador,"hunpos")[0]
-	while (anotada[0][1] is None):
-		time.sleep(random.choice(sleep_times))
-		anotada = AnotaCorpus.anota_sentencas([s],etiquetador,"hunpos")[0]
-	regex = re.compile('[%s]' % re.escape('!"#&\'()*+,-./:;<=>?@[\\]^_`{|}~'))
-	tag_punctuation = [".",",","QT","("]
-	anotada_corrigida = []
-	for x in anotada:
-		if x[1] not in tag_punctuation:
-			if x[1] == "NUM":
-				anotada_corrigida.append(x)
-				continue
-			tupla = [regex.sub('',x[0]).lower(),x[1]]
-			if tupla[0] != "": anotada_corrigida.append(tupla)
-		else:
-			if x[0] == ".":
-				anotada_corrigida.append(["[ponto]".decode("utf-8"),"SPT"])
-			elif x[0] == "?":
-				anotada_corrigida.append(["[interrogacao]".decode("utf-8"),"SPT"])
-			elif x[0] == "!":
-				anotada_corrigida.append(["[exclamacao]".decode("utf-8"),"SPT"])
-	return anotada_corrigida
-
-def geraEntradasLexicais(lista):
-	"""Gera entradas lexicais no formato CFG do NLTK a partir de lista de pares constituídos de tokens e suas etiquetas.
-	"""
-	entradas=[]
-	for e in lista:
-		# é necessário substituir símbolos como "-" e "+" do CHPTB
-		# que não são aceitos pelo NLTK como símbolos não terminais
-		c=re.sub(r"[-+]","_",e[1])
-		c=re.sub(r"\$","_S",c)
-		entradas.append("%s -> '%s'" % (c, removeAcento(e[0])))
-	return entradas
-
-def corrigeAnotacao(lista):
-	"""Esta função deverá corrigir alguns dos erros de anotação mais comuns do Aelius. No momento, apenas é corrigida VB-AN depois de TR.
-	"""
-	i=1
-	while i < len(lista):
-		if lista[i][1] == "VB-AN" and lista[i-1][1].startswith("TR"):
-			lista[i]=(lista[i][0],"VB-PP")
-		i+=1
-
-def encontraArquivo():
-	"""Encontra arquivo na pasta vlibras-translate.
-	"""
-	so = platform.system()
-	if "TRANSLATE_DATA" in environ:
-		return path.join(environ.get("TRANSLATE_DATA"), "cfg.syn.nltk")
-	elif so == 'Windows':
-		return environ.get("HOMEDRIVE") + "\\vlibras-libs\\vlibras-translate\data\cfg.syn.nltk"
-	return expanduser("~") + "/vlibras-translate/data/cfg.syn.nltk"
-
-def extraiSintaxe():
-	"""Extrai gramática armazenada em arquivo cujo caminho é definido relativamente ao diretório nltk_data.
-	"""
-	arquivo=encontraArquivo()
-	if arquivo:
-		f=open(arquivo,"rU")
-		sintaxe=f.read()
-		f.close()
-		return sintaxe
-	else:
-		print "Arquivo %s não encontrado em nenhum dos diretórios de dados do NLTK:\n%s" % (caminho,"\n".join(nltk.data.path))
-
-def analisaSentenca(sentenca):
-	"""Retorna lista de árvores de estrutura sintagmática para a sentença dada sob a forma de uma lista de tokens, com base na gramática CFG cujo caminho é especificado como segundo argumento da função. Esse caminho é relativo à pasta nltk_data da instalação local do NLTK. A partir da etiquetagem morfossintática da sentença são geradas entradas lexicais que passam a integrar a gramática CFG. O caminho da gramática e o parser gerado são armazenados como tupla na variável ANALISADORES.
-	"""
-	parser=constroiAnalisador(sentenca)
-	codificada=[]
-	for t in sentenca_anotada:
-		if t[1] != "SPT":
-			codificada.append(removeAcento(t[0]).encode("utf-8"))
-	trees=parser.parse_one(codificada)
-	return trees
-
-def constroiAnalisador(s):
-	"""Constrói analisador a partir de uma única sentença não anotada, dada como lista de tokens, e uma lista de regras sintáticas no formato CFG, armazenadas em arquivo. Esta função tem um bug, causado pela maneira como o Aelius etiqueta sentenças usando o módulo ProcessaNomesProprios: quando a sentença se inicia por paravra com inicial minúscula, essa palavra não é incorporada ao léxico, mas a versão com inicial maiúscula.
-	"""
-	global sentenca_anotada
-	sentenca_anotada=etiquetaSentenca(s)
-	corrigeAnotacao(sentenca_anotada)
-	entradas=geraEntradasLexicais(sentenca_anotada)
-	lexico="\n".join(entradas)
-	gramatica="%s\n%s" % (extraiSintaxe().strip(),lexico)
-	cfg=nltk.CFG.fromstring(gramatica)
-	return nltk.ChartParser(cfg)
-
-def removeAcento(texto):
-	try:
-		return normalize('NFKD', texto.encode('utf-8').decode('utf-8')).encode('ASCII', 'ignore')
-	except:
-		return normalize('NFKD', texto.encode('iso-8859-1').decode('iso-8859-1')).encode('ASCII','ignore')
-
-def exibeArvores(arvores):
-	"""Função 'wrapper' para a função de exibição de árvores do NLTK"""
-	nltk.draw.draw_trees(*arvores)
-
-def run(sentenca):
-	tokens=toqueniza(sentenca)
-	tree=analisaSentenca(tokens)
-	return tree
 \ No newline at end of file
	@@ -14,4 +14,6 @@ pela		@@ -14,4 +14,6 @@ pela
14	pelos	14	pelos
15	pelas	15	pelas
16	ao	16	ao
17	-aos
18	\ No newline at end of file	17	\ No newline at end of file
		18	+aos
		19	+às
		20	+a
19	\ No newline at end of file	21	\ No newline at end of file
	@@ -30,7 +30,7 @@ read -r -p "Deseja fazer o download das dependências? [Y/n] " response		@@ -30,7 +30,7 @@ read -r -p "Deseja fazer o download das dependências? [Y/n] " response
30	echo -e "# Instalando dependências...\n"	30	echo -e "# Instalando dependências...\n"
31	sudo apt-get update	31	sudo apt-get update
32	sudo apt-get install -y python-dev python-setuptools python-pip python-yaml python-numpy python-matplotlib	32	sudo apt-get install -y python-dev python-setuptools python-pip python-yaml python-numpy python-matplotlib
33	- sudo pip install nltk nltk_tgrep --upgrade	33	+ sudo pip install nltk==3.0.5 nltk_tgrep --upgrade
34		34
35	fi	35	fi
36		36
	@@ -0,0 +1,165 @@		@@ -0,0 +1,165 @@
		1	+#! /usr/bin/env python2.6
		2	+# -- coding: utf-8 --
		3	+
		4	+#---------------------------------
		5	+
		6	+# Editado:
		7	+
		8	+#Autor: Erickson Silva
		9	+#Email: <erickson.silva@lavid.ufpb.br> <ericksonsilva@live.com>
		10	+
		11	+#LAViD - Laboratório de Aplicações de Vídeo Digital
		12	+
		13	+#---------------------------------
		14	+
		15	+
		16	+# Donatus Brazilian Portuguese Parser
		17	+#
		18	+# Copyright (C) 2010-2013 Leonel F. de Alencar
		19	+#
		20	+# Author: Leonel F. de Alencar <leonel.de.alencar@ufc.br>
		21	+# Homepage: <http://www.leonel.profusehost.net/>
		22	+#
		23	+# Project's URL: <http://sourceforge.net/projects/donatus/>
		24	+# For license information, see LICENSE.TXT
		25	+#
		26	+# $Id: alexp.py $
		27	+
		28	+"""Este módulo contém funções que permitem utilizar o Aelius para etiquetar uma sentença, construindo entradas lexicais com base nas etiquetas atribuídas às palavras da sentença. Essas entradas lexicais são integradas em uma gramática CFG dada, que é transformada em um parser, utilizado para gerar uma árvore de estrutura sintagmática da sentença.
		29	+"""
		30	+import re,nltk, time, random
		31	+from os.path import expanduser
		32	+from os import environ, path
		33	+from Aelius.Extras import carrega
		34	+from Aelius import AnotaCorpus, Toqueniza
		35	+from unicodedata import normalize
		36	+
		37	+
		38	+class ClassificaSentencas(object):
		39	+
		40	+ def __init__(self):
		41	+ self.sentenca_anotada = ""
		42	+ self.sleep_times = [0.1,0.2]
		43	+
		44	+ def toqueniza(self, s):
		45	+ """Decodifica string utilizando utf-8, retornando uma lista de tokens em unicode.
		46	+ """
		47	+ regex = re.compile('[%s]' % re.escape('“”'))
		48	+ regex2 = re.compile('[%s]' % re.escape('«»'))
		49	+ try:
		50	+ decodificada = regex2.sub('',regex.sub('"',s.replace("–", "-").replace("—", "-"))).decode("utf-8")
		51	+ except:
		52	+ decodificada = s.decode("utf-8")
		53	+ return Toqueniza.TOK_PORT.tokenize(decodificada)
		54	+
		55	+ def obter_classificacao_morfologica(self):
		56	+ return self.sentenca_anotada
		57	+
		58	+ def etiqueta_sentenca(self, s):
		59	+ """Aplica um dos etiquetadores do Aelius na etiquetagem da sentença dada como lista de tokens.
		60	+ """
		61	+ etiquetador = carrega("AeliusHunPos")
		62	+ anotada = AnotaCorpus.anota_sentencas([s],etiquetador,"hunpos")[0]
		63	+ while (anotada[0][1] is None):
		64	+ time.sleep(random.choice(sleep_times))
		65	+ anotada = AnotaCorpus.anota_sentencas([s],etiquetador,"hunpos")[0]
		66	+ regex = re.compile('[%s]' % re.escape('!"#&\'()*+,-./:;<=>?@[\\]^_`{\|}~'))
		67	+ tag_punctuation = [".",",","QT","("]
		68	+ anotada_corrigida = []
		69	+ for x in anotada:
		70	+ if x[1] not in tag_punctuation:
		71	+ if x[1] == "NUM":
		72	+ try:
		73	+ float(x[0].replace(',', '.'))
		74	+ anotada_corrigida.append(x)
		75	+ continue
		76	+ except:
		77	+ pass
		78	+
		79	+ tupla = [regex.sub('',x[0]).lower(),x[1]]
		80	+ if tupla[0] != "": anotada_corrigida.append(tupla)
		81	+ else:
		82	+ if x[0] == ".":
		83	+ anotada_corrigida.append(["[ponto]".decode("utf-8"),"SPT"])
		84	+ elif x[0] == "?":
		85	+ anotada_corrigida.append(["[interrogacao]".decode("utf-8"),"SPT"])
		86	+ elif x[0] == "!":
		87	+ anotada_corrigida.append(["[exclamacao]".decode("utf-8"),"SPT"])
		88	+ return anotada_corrigida
		89	+
		90	+ def gera_entradas_lexicais(self, lista):
		91	+ """Gera entradas lexicais no formato CFG do NLTK a partir de lista de pares constituídos de tokens e suas etiquetas.
		92	+ """
		93	+ entradas=[]
		94	+ for e in lista:
		95	+ # é necessário substituir símbolos como "-" e "+" do CHPTB
		96	+ # que não são aceitos pelo NLTK como símbolos não terminais
		97	+ c=re.sub(r"[-+]","_",e[1])
		98	+ c=re.sub(r"\$","_S",c)
		99	+ entradas.append("%s -> '%s'" % (c, self.remove_acento(e[0])))
		100	+ return entradas
		101	+
		102	+ def corrige_anotacao(self, lista):
		103	+ """Esta função deverá corrigir alguns dos erros de anotação mais comuns do Aelius. No momento, apenas é corrigida VB-AN depois de TR.
		104	+ """
		105	+ i=1
		106	+ while i < len(lista):
		107	+ if lista[i][1] == "VB-AN" and lista[i-1][1].startswith("TR"):
		108	+ lista[i]=(lista[i][0],"VB-PP")
		109	+ i+=1
		110	+
		111	+ def encontra_arquivo(self):
		112	+ """Encontra arquivo na pasta vlibras-translate.
		113	+ """
		114	+ if "TRANSLATE_DATA" in environ:
		115	+ return path.join(environ.get("TRANSLATE_DATA"), "cfg.syn.nltk")
		116	+ return expanduser("~") + "/vlibras-translate/data/cfg.syn.nltk"
		117	+
		118	+ def extrai_sintaxe(self):
		119	+ """Extrai gramática armazenada em arquivo cujo caminho é definido relativamente ao diretório nltk_data.
		120	+ """
		121	+ arquivo = self.encontra_arquivo()
		122	+ if arquivo:
		123	+ f=open(arquivo,"rU")
		124	+ sintaxe=f.read()
		125	+ f.close()
		126	+ return sintaxe
		127	+ else:
		128	+ print "Arquivo %s não encontrado em nenhum dos diretórios de dados do NLTK:\n%s" % (caminho,"\n".join(nltk.data.path))
		129	+
		130	+ def analisa_sentenca(self, sentenca):
		131	+ """Retorna lista de árvores de estrutura sintagmática para a sentença dada sob a forma de uma lista de tokens, com base na gramática CFG cujo caminho é especificado como segundo argumento da função. Esse caminho é relativo à pasta nltk_data da instalação local do NLTK. A partir da etiquetagem morfossintática da sentença são geradas entradas lexicais que passam a integrar a gramática CFG. O caminho da gramática e o parser gerado são armazenados como tupla na variável ANALISADORES.
		132	+ """
		133	+ parser = self.constroi_analisador(sentenca)
		134	+ codificada=[]
		135	+ for t in self.sentenca_anotada:
		136	+ if t[1] != "SPT":
		137	+ codificada.append(self.remove_acento(t[0]).encode("utf-8"))
		138	+ trees=parser.parse_one(codificada)
		139	+ return trees
		140	+
		141	+ def constroi_analisador(self, s):
		142	+ """Constrói analisador a partir de uma única sentença não anotada, dada como lista de tokens, e uma lista de regras sintáticas no formato CFG, armazenadas em arquivo. Esta função tem um bug, causado pela maneira como o Aelius etiqueta sentenças usando o módulo ProcessaNomesProprios: quando a sentença se inicia por paravra com inicial minúscula, essa palavra não é incorporada ao léxico, mas a versão com inicial maiúscula.
		143	+ """
		144	+ self.sentenca_anotada = self.etiqueta_sentenca(s)
		145	+ self.corrige_anotacao(self.sentenca_anotada)
		146	+ entradas = self.gera_entradas_lexicais(self.sentenca_anotada)
		147	+ lexico="\n".join(entradas)
		148	+ gramatica="%s\n%s" % (self.extrai_sintaxe().strip(),lexico)
		149	+ cfg=nltk.CFG.fromstring(gramatica)
		150	+ return nltk.ChartParser(cfg)
		151	+
		152	+ def remove_acento(self, texto):
		153	+ try:
		154	+ return normalize('NFKD', texto.encode('utf-8').decode('utf-8')).encode('ASCII', 'ignore')
		155	+ except:
		156	+ return normalize('NFKD', texto.encode('iso-8859-1').decode('iso-8859-1')).encode('ASCII','ignore')
		157	+
		158	+ def exibe_arvores(self, arvores):
		159	+ """Função 'wrapper' para a função de exibição de árvores do NLTK"""
		160	+ nltk.draw.draw_trees(*arvores)
		161	+
		162	+ def iniciar_classificacao(self, sentenca):
		163	+ tokens = self.toqueniza(sentenca)
		164	+ tree = self.analisa_sentenca(tokens)
		165	+ return tree
0	\ No newline at end of file	166	\ No newline at end of file
	@@ -25,7 +25,45 @@ ext = [{"um":"1", "dois":"2", "tres":"3", "quatro":"4", "cinco":"5", "seis":"6",		@@ -25,7 +25,45 @@ ext = [{"um":"1", "dois":"2", "tres":"3", "quatro":"4", "cinco":"5", "seis":"6",
25	und = {"mil":1000, "milhao":1000000, "bilhao":1000000000, "trilhao":1000000000000}	25	und = {"mil":1000, "milhao":1000000, "bilhao":1000000000, "trilhao":1000000000000}
26	unds = {"mil":"000", "milhao":"000000","milhoes":"000000", "bilhao":"000000000","bilhoes":"000000000", "trilhao":"000000000000", "trilhoes":"000000000000"}	26	unds = {"mil":"000", "milhao":"000000","milhoes":"000000", "bilhao":"000000000","bilhoes":"000000000", "trilhao":"000000000000", "trilhoes":"000000000000"}
27		27
28	-	28	+def int_to_roman(input):
		29	+ if not isinstance(input, type(1)):
		30	+ raise TypeError, "expected integer, got %s" % type(input)
		31	+ if not 0 < input < 4000:
		32	+ raise ValueError, "Argument must be between 1 and 3999"
		33	+ ints = (1000, 900, 500, 400, 100, 90, 50, 40, 10, 9, 5, 4, 1)
		34	+ nums = ('M', 'CM', 'D', 'CD','C', 'XC','L','XL','X','IX','V','IV','I')
		35	+ result = []
		36	+
		37	+ for i in range(len(ints)):
		38	+ count = int(input / ints[i])
		39	+ result.append(nums[i] * count)
		40	+ input -= ints[i] * count
		41	+ return ''.join(result)
		42	+
		43	+def roman_to_int(input):
		44	+ if not isinstance(input, type("")):
		45	+ raise TypeError, "expected string, got %s" % type(input)
		46	+ input = input.upper( )
		47	+ nums = {'M':1000,
		48	+ 'D':500,
		49	+ 'C':100,
		50	+ 'L':50,
		51	+ 'X':10,
		52	+ 'V':5,
		53	+ 'I':1}
		54	+ sum = 0
		55	+ for i in range(len(input)):
		56	+ try:
		57	+ value = nums[input[i]]
		58	+ if i+1 < len(input) and nums[input[i+1]] > value:
		59	+ sum -= value
		60	+ else: sum += value
		61	+ except KeyError:
		62	+ raise ValueError, 'input is not a valid Roman numeral: %s' % input
		63	+
		64	+ if int_to_roman(sum) == input: return str(sum)
		65	+ else:
		66	+ raise ValueError, 'input is not a valid Roman numeral: %s' % input
29		67
30	def oneDigit(x):	68	def oneDigit(x):
31	return ext[0][x]	69	return ext[0][x]
	@@ -1,156 +0,0 @@		@@ -1,156 +0,0 @@
1	-#! /usr/bin/env python2.6
2	-# -- coding: utf-8 --
3	-
4	-#---------------------------------
5	-
6	-# Editado:
7	-
8	-#Autor: Erickson Silva
9	-#Email: <erickson.silva@lavid.ufpb.br> <ericksonsilva@live.com>
10	-
11	-#LAViD - Laboratório de Aplicações de Vídeo Digital
12	-
13	-#---------------------------------
14	-
15	-
16	-# Donatus Brazilian Portuguese Parser
17	-#
18	-# Copyright (C) 2010-2013 Leonel F. de Alencar
19	-#
20	-# Author: Leonel F. de Alencar <leonel.de.alencar@ufc.br>
21	-# Homepage: <http://www.leonel.profusehost.net/>
22	-#
23	-# Project's URL: <http://sourceforge.net/projects/donatus/>
24	-# For license information, see LICENSE.TXT
25	-#
26	-# $Id: alexp.py $
27	-
28	-"""Este módulo contém funções que permitem utilizar o Aelius para etiquetar uma sentença, construindo entradas lexicais com base nas etiquetas atribuídas às palavras da sentença. Essas entradas lexicais são integradas em uma gramática CFG dada, que é transformada em um parser, utilizado para gerar uma árvore de estrutura sintagmática da sentença.
29	-"""
30	-import re,nltk,platform, time, random
31	-from os.path import expanduser
32	-from os import environ, path
33	-from Aelius.Extras import carrega
34	-from Aelius import AnotaCorpus
35	-from unicodedata import normalize
36	-
37	-sentenca_anotada=""
38	-sleep_times=[0.1,0.2]
39	-
40	-def toqueniza(s):
41	- """Decodifica string utilizando utf-8, retornando uma lista de tokens em unicode.
42	- """
43	- regex = re.compile('[%s]' % re.escape('“”'))
44	- decodificada=regex.sub('"',s.replace("–", "-").replace("—", "-")).decode("utf-8")
45	- return AnotaCorpus.TOK_PORT.tokenize(decodificada)
46	-
47	-def getAnaliseMorfologica():
48	- return sentenca_anotada
49	-
50	-def etiquetaSentenca(s):
51	- """Aplica um dos etiquetadores do Aelius na etiquetagem da sentença dada como lista de tokens.
52	- """
53	- etiquetador = carrega("AeliusHunPos")
54	- anotada = AnotaCorpus.anota_sentencas([s],etiquetador,"hunpos")[0]
55	- while (anotada[0][1] is None):
56	- time.sleep(random.choice(sleep_times))
57	- anotada = AnotaCorpus.anota_sentencas([s],etiquetador,"hunpos")[0]
58	- regex = re.compile('[%s]' % re.escape('!"#&\'()*+,-./:;<=>?@[\\]^_`{\|}~'))
59	- tag_punctuation = [".",",","QT","("]
60	- anotada_corrigida = []
61	- for x in anotada:
62	- if x[1] not in tag_punctuation:
63	- if x[1] == "NUM":
64	- anotada_corrigida.append(x)
65	- continue
66	- tupla = [regex.sub('',x[0]).lower(),x[1]]
67	- if tupla[0] != "": anotada_corrigida.append(tupla)
68	- else:
69	- if x[0] == ".":
70	- anotada_corrigida.append(["[ponto]".decode("utf-8"),"SPT"])
71	- elif x[0] == "?":
72	- anotada_corrigida.append(["[interrogacao]".decode("utf-8"),"SPT"])
73	- elif x[0] == "!":
74	- anotada_corrigida.append(["[exclamacao]".decode("utf-8"),"SPT"])
75	- return anotada_corrigida
76	-
77	-def geraEntradasLexicais(lista):
78	- """Gera entradas lexicais no formato CFG do NLTK a partir de lista de pares constituídos de tokens e suas etiquetas.
79	- """
80	- entradas=[]
81	- for e in lista:
82	- # é necessário substituir símbolos como "-" e "+" do CHPTB
83	- # que não são aceitos pelo NLTK como símbolos não terminais
84	- c=re.sub(r"[-+]","_",e[1])
85	- c=re.sub(r"\$","_S",c)
86	- entradas.append("%s -> '%s'" % (c, removeAcento(e[0])))
87	- return entradas
88	-
89	-def corrigeAnotacao(lista):
90	- """Esta função deverá corrigir alguns dos erros de anotação mais comuns do Aelius. No momento, apenas é corrigida VB-AN depois de TR.
91	- """
92	- i=1
93	- while i < len(lista):
94	- if lista[i][1] == "VB-AN" and lista[i-1][1].startswith("TR"):
95	- lista[i]=(lista[i][0],"VB-PP")
96	- i+=1
97	-
98	-def encontraArquivo():
99	- """Encontra arquivo na pasta vlibras-translate.
100	- """
101	- so = platform.system()
102	- if "TRANSLATE_DATA" in environ:
103	- return path.join(environ.get("TRANSLATE_DATA"), "cfg.syn.nltk")
104	- elif so == 'Windows':
105	- return environ.get("HOMEDRIVE") + "\\vlibras-libs\\vlibras-translate\data\cfg.syn.nltk"
106	- return expanduser("~") + "/vlibras-translate/data/cfg.syn.nltk"
107	-
108	-def extraiSintaxe():
109	- """Extrai gramática armazenada em arquivo cujo caminho é definido relativamente ao diretório nltk_data.
110	- """
111	- arquivo=encontraArquivo()
112	- if arquivo:
113	- f=open(arquivo,"rU")
114	- sintaxe=f.read()
115	- f.close()
116	- return sintaxe
117	- else:
118	- print "Arquivo %s não encontrado em nenhum dos diretórios de dados do NLTK:\n%s" % (caminho,"\n".join(nltk.data.path))
119	-
120	-def analisaSentenca(sentenca):
121	- """Retorna lista de árvores de estrutura sintagmática para a sentença dada sob a forma de uma lista de tokens, com base na gramática CFG cujo caminho é especificado como segundo argumento da função. Esse caminho é relativo à pasta nltk_data da instalação local do NLTK. A partir da etiquetagem morfossintática da sentença são geradas entradas lexicais que passam a integrar a gramática CFG. O caminho da gramática e o parser gerado são armazenados como tupla na variável ANALISADORES.
122	- """
123	- parser=constroiAnalisador(sentenca)
124	- codificada=[]
125	- for t in sentenca_anotada:
126	- if t[1] != "SPT":
127	- codificada.append(removeAcento(t[0]).encode("utf-8"))
128	- trees=parser.parse_one(codificada)
129	- return trees
130	-
131	-def constroiAnalisador(s):
132	- """Constrói analisador a partir de uma única sentença não anotada, dada como lista de tokens, e uma lista de regras sintáticas no formato CFG, armazenadas em arquivo. Esta função tem um bug, causado pela maneira como o Aelius etiqueta sentenças usando o módulo ProcessaNomesProprios: quando a sentença se inicia por paravra com inicial minúscula, essa palavra não é incorporada ao léxico, mas a versão com inicial maiúscula.
133	- """
134	- global sentenca_anotada
135	- sentenca_anotada=etiquetaSentenca(s)
136	- corrigeAnotacao(sentenca_anotada)
137	- entradas=geraEntradasLexicais(sentenca_anotada)
138	- lexico="\n".join(entradas)
139	- gramatica="%s\n%s" % (extraiSintaxe().strip(),lexico)
140	- cfg=nltk.CFG.fromstring(gramatica)
141	- return nltk.ChartParser(cfg)
142	-
143	-def removeAcento(texto):
144	- try:
145	- return normalize('NFKD', texto.encode('utf-8').decode('utf-8')).encode('ASCII', 'ignore')
146	- except:
147	- return normalize('NFKD', texto.encode('iso-8859-1').decode('iso-8859-1')).encode('ASCII','ignore')
148	-
149	-def exibeArvores(arvores):
150	- """Função 'wrapper' para a função de exibição de árvores do NLTK"""
151	- nltk.draw.draw_trees(*arvores)
152	-
153	-def run(sentenca):
154	- tokens=toqueniza(sentenca)
155	- tree=analisaSentenca(tokens)
156	- return tree
157	\ No newline at end of file	0	\ No newline at end of file