2018-09-28 11:18:57 - Atualizado em 2018-10-24 15:18:40

CIRT.5 -- Uma proposta de representação de textos


INFORMAÇÕES GERAIS


RESUMO DA TÉCNICA CIRT.5

Contextual Information Representation Technique based on 5 steps (CIRT.5) é uma nova técnica de representação de textos baseada no Modelo de Espaço Vetorial. Essa técnica assume que a relação de frequência entre os termos é dependente, considerando a dependência de um conjunto de termos correlacionados (contexto) diretamente proporcional à frequência com que seus termos ocorrem em um documento de texto.


APLICAÇÃO DA TÉCNICA CIRT.5

A técnica CIRT.5 é voltada para a representação de textos em domínios diversos e considerando múltiplas línguas. Para a aplicação dessa técnica no domínio de documentos de texto utilizando modelos de linguagem baseados em word embeddings, isto é, para a aplicação da técnica CIRT.5embed (denominação da técnica CIRT.5 no domínio de modelos baseados em word embeddings), pode ser utilizado o script CIRT.5_embed.py disponível no GitHub. O script CIRT.5_embed.py gera uma representação vetorial única para cada documento, calculando a frequência de todos os contextos em todos os documentos. O diagrama apresentado na Figura 1 ilustra de forma resumida o conceito de exploração de informações contextuais abordado por essa técnica.

Figura 1: informações contextuais na técnica CIRT.5.

Em contraste com técnicas tradicionais de representação de textos, como a Bag of Words, a técnica CIRT.5 permite considerar as semelhanças entre os termos que compõem os diferentes contextos, moderados de acordo com um limiar predefinido, além de possibilitar o aumento do volume e da qualidade de informações dos textos por meio de fontes externas de conhecimento como a Wikipédia. A saída é uma matriz onde as linhas são os documentos ids e as colunas são as frequências para cada documento.


FERRAMENTA BASEADA NA TÉCNICA CIRT.5embed

O script CIRT.5_embed.py pode ser obtido no repositório público do GitHub, e os modelos de linguagem utilizados no projeto mencionado no início desta página podem ser obtidos no site do LABIC. Esses materiais estão disponíveis para download exclusivamente nos seguintes repositórios online:


CITAÇÃO

Para citar algum recurso desenvolvido no projeto "Exploração de informações contextuais para enriquecimento semântico em representações de textos", por favor utilize a citação da dissertação de mestrado, indicada no topo da página do projeto, como referência. Para acessar esta página específica, utilize preferencialmente a seguinte URL: