Classificador.py
970 Bytes
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
#!/usr/bin/python
# -*- coding: utf-8 -*-
#Autor: Erickson Silva <erickson.silva@lavid.ufpb.br> <ericksonsilva@live.com>
from Aelius import AnotaCorpus, Toqueniza, Extras
class Classificador(object):
# inicializacao das variaveis
def __init__(self):
self.__h = Extras.carrega("AeliusHunPos") # carrega o modelo de idioma (passado por parametro ao instanciar)
def anotaSentencas(self, str):
self.__t = ""
self.__tokens = ""
#try:
# tokenizae
self.__tokens = Toqueniza.TOK_PORT.tokenize(str)
# realiza a classificacao morfologica
self.__t = AnotaCorpus.anota_sentencas([self.__tokens],self.__h,'hunpos')
return self.listClean(self.__t)
#except:
# print "Erro ao efetuar a classificação morfologica."
def listClean(self, l):
lClean = []
for w,t in l[0]:
lClean.append([w,t])
return lClean
# faz a impressao (usado apenas pra testes)
def imprimeSentencas(self):
for w,t in self.t[0]:
print "%s_%s " % (w,t),