Uma técnica de zoneamento para indexação de documentos em sistemas de recuperação de informação

O advento da computação moderna e o surgimento da área de Recuperação de Informação trouxe problemas relacionados com a manipulação de informação. Com a criação da Web e a disponibilização de informações na internet, a tarefa de pesquisa na rede tornou-se de extrema relevância e os mecanismos de bus...

Descripción completa

Detalles Bibliográficos
Autor: Pereira, Alexandre Neiva
Tipo de recurso: tesis de maestría
Estado:Versión publicada
Fecha de publicación:2010
País:Brasil
Institución:Universidade Estadual do Ceará
Repositorio:Repositório Institucional da UECE
Idioma:portugués
OAI Identifier:oai:uece.br:67646
Acceso en línea:https://siduece.uece.br/siduece/trabalhoAcademicoPublico.jsf?id=67646
Access Level:acceso abierto
Palabra clave:Computação aplicada
Indexacao
Recuperacao de Informacao
Descripción
Sumario:O advento da computação moderna e o surgimento da área de Recuperação de Informação trouxe problemas relacionados com a manipulação de informação. Com a criação da Web e a disponibilização de informações na internet, a tarefa de pesquisa na rede tornou-se de extrema relevância e os mecanismos de busca automáticos tornaram-se essenciais. Estes mecanismos, como o popular Google, assim como outros vários sistemas de RI disponíveis no mercado, deveriam retornar as consultas dos usuários com qualidade maior do que a apresentada na atualidade. A eficácia do resultado recuperado pelo sistema de RI revela-se, portanto, de extrema importância, e consequentemente, a performance de uma de suas principais fases, a indexação. A fase de indexação é composta por alguns passos. Este trabalho aborda o passo do Cálculo da Representatividade, que é realizado atualmente por funções como TF.IDF, BM25 e BM25F. Por meio do cálculo da representatividade é possível ordenar os termos do mais relevante ao menos relevante em cada documento. Neste trabalho são apresentadas novas técnicas que combinam o Cálculo de Representatividade ao conceito de zoneamento. O zoneamento consiste em particionar o texto em regiões com o objetivo de conceder maior representatividade a termos que aparecem em regiões específicas. Palavras-chave: Recuperação de informação. Indexação. Representatividade do termo.