Classificador.py 970 Bytes
Edit Raw Blame History



1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44


#!/usr/bin/python
# -*- coding: utf-8 -*-

#Autor: Erickson Silva <erickson.silva@lavid.ufpb.br> <ericksonsilva@live.com>

from Aelius import AnotaCorpus, Toqueniza, Extras

class Classificador(object):

	# inicializacao das variaveis
	def __init__(self):	
		self.__h = Extras.carrega("AeliusHunPos") # carrega o modelo de idioma (passado por parametro ao instanciar)
		
	def anotaSentencas(self, str):
		self.__t = ""
		self.__tokens = ""
		#try:
		# tokenizae
		self.__tokens = Toqueniza.TOK_PORT.tokenize(str)

		# realiza a classificacao morfologica
		self.__t = AnotaCorpus.anota_sentencas([self.__tokens],self.__h,'hunpos')
			
		return self.listClean(self.__t)
		#except:
		#	print "Erro ao efetuar a classificação morfologica."


	def listClean(self, l):
		lClean = []
		for w,t in l[0]:
			lClean.append([w,t])
		return lClean

	# faz a impressao (usado apenas pra testes)
	def imprimeSentencas(self):
		for w,t in self.t[0]:
			print "%s_%s " % (w,t),