Altera tokenizador para manter hífens

Erickson Silva
1 parent 4d22eb93
Showing 1 changed file with 3 additions and 4 deletions Show diff stats
src/ClassificaSentencas.py
@@ -49,9 +49,8 @@ class ClassificaSentencas(object):
 			decodificada = s.replace("“","").replace("”","").replace("«","").replace("»","").replace("’","").replace("‘","").replace("º","").decode("utf-8")
 		except:
 			decodificada = s.decode("utf-8")
-
-		return Toqueniza.TOK_PORT.tokenize(decodificada)
-
+		return Toqueniza.TOK_PORT_LX.tokenize(decodificada)
+		
 	def obter_classificacao_morfologica(self):
 		return self.sentenca_anotada
@@ -63,7 +62,7 @@ class ClassificaSentencas(object):
 		while (anotada[0][1] is None):
 			time.sleep(random.choice(sleep_times))
 			anotada = AnotaCorpus.anota_sentencas([s],etiquetador,"hunpos")[0]
-		regex = re.compile('[%s]' % re.escape(u'\u2022''!"#&\'()*+,-./:;<=>?@[\]^_`{|}~'))
+		regex = re.compile('[%s]' % re.escape(u'\u2022''!"#&\'()*+,./:;<=>?@[\]^_`{|}~'))
 		tag_punctuation = [".",",","QT","("]
 		anotada_corrigida = []
 		for x in anotada: