Use este identificador para citar ou linkar para este item: http://repositorio.unesc.net/handle/1/12435
Título: Análise de técnicas de extração de dados não estruturados em páginas HTML para utilização no armazenamento e manipulação em banco de dados objeto relacional
Autor(es): Mauricio, Felipe Cogorni
Orientador(es): Caldas, Paracelso de Oliveira
Palavras-chave: Pesquisas na internet
Páginas HTML
Banco de dados
Descrição: Trabalho de Conclusão de Curso apresentado para obtenção do Grau de Bacharel em Ciência da Computação da Universidade do Extremo Sul Catarinense.
Resumo: A internet hoje é o local que mais se acessa para a realização de pesquisas, porém devido a falta de padronização na construção de sites, especificamente nas páginas HTML, existe uma perda bastante significativa de dados que poderiam ser melhores aproveitados, são os casos dos dados não estruturados em páginas HTML. Para poder utilizar esses dados de uma forma relevante existem técnicas que auxiliam na sua extração. Dentre as técnicas disponíveis, estão as de Processamento de Linguagem Natural, probabilidades e árvores de decisão. Com isso esta pesquisa fundamentou-se na implementação de um protótipo que utiliza de uma ferramenta chamada TreeTagger que implementa essas técnicas, para ajudar na tarefa de extração dos dados de maneira contextualizada e para armazená-los em um banco de dados, facilitando assim a sua manipulação e obtenção de resultados mais relevantes. Para a contextualização é usada a frase de busca feita por um usuário em uma ferramenta de busca na web, no intuito de comparação da frase com o conteúdo na página HTML. Durante a pesquisa, foram realizados alguns testes no protótipo implementado, a fim de verificar os resultados obtidos pelo protótipo e comprovar o êxito nos objetivos do trabalho.
Idioma: Português (Brasil)
Tipo: Trabalho de Conclusão de Curso - TCC
Data da publicação: Jul-2011
URI: http://repositorio.unesc.net/handle/1/12435
Aparece nas coleções:Trabalho de Conclusão de Curso (COM)

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Felipe Cogorni Mauricio.pdf3,1 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.