2018-09-28 10:35:01 - Atualizado em 2018-10-24 15:19:51

CIET.5 -- Uma proposta de extração de contextos textuais


INFORMAÇÕES GERAIS


RESUMO DA TÉCNICA CIET.5

Contextual Information Extraction Technique based on 5 steps (CIET.5) é uma nova técnica de extração de informações contextuais baseada no Modelo de Espaço Vetorial. Analogamente à técnica CIRT.5 (veja a página da aplicação), essa técnica assume que a relação de frequência entre os termos é dependente, considerando a dependência de um conjunto de termos correlacionados (contexto) diretamente proporcional à frequência com que seus termos ocorrem em um documento de texto.


APLICAÇÃO DA TÉCNICA CIET.5

Embora a técnica CIET.5 seja voltada para a extração de informações contextuais de documentos de textos, ela pode ser aplicada em domínios diversos e considerando múltiplas línguas. Para a aplicação dessa técnica no domínio de documentos de texto, e utilizando modelos de linguagem baseados em word embeddings, pode ser utilizado o script CIET.5_embed.py disponível no GitHub. O script CIET.5_embed.py permite converter uma coleção de documentos de texto formados por termos em uma coleção de documentos de texto formados por contextos. O diagrama apresentado na Figura 1 ilustra de forma resumida o conceito de exploração de informações contextuais abordado por essa técnica.

Figura 1: informações contextuais na técnica CIET.5.

As principais diferenças da técnica CIET.5 com outros procedimentos de enriquecimento textual, como o Reconhecimento de Entidades Nomeadas e a Desambiguação Lexical de Sentido, são que os contextos extraídos com base na técnica CIET.5embed (denominação da técnica CIET.5 no domínio de modelos baseados em word embeddings) consideram a influência local dos escopos textuais, além de possibilitar o aumento do volume e da qualidade de informações dos textos por meio de fontes externas de conhecimento como a Wikipédia.


FERRAMENTA BASEADA NA TÉCNICA CIET.5embed

O script CIET.5_embed.py pode ser obtido no repositório público do GitHub, e os modelos de linguagem utilizados no projeto mencionado no início desta página podem ser obtidos no site do LABIC. Esses materiais estão disponíveis para download exclusivamente nos seguintes repositórios online:


CITAÇÃO

Para citar algum recurso desenvolvido no projeto "Exploração de informações contextuais para enriquecimento semântico em representações de textos", por favor utilize a citação da dissertação de mestrado, indicada no topo da página do projeto, como referência. Para acessar esta página específica, utilize preferencialmente a seguinte URL: