Contextual Information Representation Technique based on 5 steps (CIRT.5) é uma nova técnica de representação de textos baseada no Modelo de Espaço Vetorial. Essa técnica assume que a relação de frequência entre os termos é dependente, considerando a dependência de um conjunto de termos correlacionados (contexto) diretamente proporcional à frequência com que seus termos ocorrem em um documento de texto.
Contextual Information Extraction Technique based on 5 steps (CIET.5) é uma nova técnica de extração de informações contextuais baseada no Modelo de Espaço Vetorial. Analogamente à técnica CIRT.5, essa técnica assume que a relação de frequência entre os termos é dependente, considerando a dependência de um conjunto de termos correlacionados (contexto) diretamente proporcional à frequência com que seus termos ocorrem em um documento de texto.
Ferramenta para treinamento de modelos Doc2Vec.
Ferramenta para gerar representações de documentos com base em papéis semânticos.
Inductive Classification Tool was developed in Java language and aims to generate results using traditional inductive algorithms and their different parameter for datasets represented in ARFF format.
This is a Java tool which transforms text files in a document-term matrix.
This tool extracts keywords from single documents using statistical methods.
The required steps to generate the bag-of-related words are implemented in this tool. Thre is also functionalities to analyse the generated bag-of-related-words.
This framework, which is described in ICMC-USP technical report, can to generate synthetic multi-label datasets using two strategies: hyperspheres or hypercubes. For each label in a dataset, these strategies randomly generate a geometric shape (hypersphere or hypercube), which is populated with points (instances or examples) randomly generated. Afterwards, each instance is labeled according to the shapes it belongs to, which defines the instance multi-label.