#!/usr/bin/python # -*- coding: utf-8 -*- #Autor: Erickson Silva from Aelius import AnotaCorpus, Toqueniza, Extras class Classificador(object): # inicializacao das variaveis def __init__(self): self.__h = Extras.carrega("AeliusHunPos") # carrega o modelo de idioma (passado por parametro ao instanciar) def anotaSentencas(self, str): self.__t = "" self.__tokens = "" #try: # tokenizae self.__tokens = Toqueniza.TOK_PORT.tokenize(str) # realiza a classificacao morfologica self.__t = AnotaCorpus.anota_sentencas([self.__tokens],self.__h,'hunpos') return self.listClean(self.__t) #except: # print "Erro ao efetuar a classificação morfologica." def listClean(self, l): lClean = [] for w,t in l[0]: lClean.append([w,t]) return lClean # faz a impressao (usado apenas pra testes) def imprimeSentencas(self): for w,t in self.t[0]: print "%s_%s " % (w,t),