2017-05-24 20:32:00 - Atualizado em 2017-05-24 21:08:41

PRETEXT - Text preprocessing

A ferramenta

PreTexT 2 é uma ferramenta de pré-processamento de textos que recentemente foi remodelada para atender a um público maior. A ferramenta utiliza a abordagem bag-of-words para gerar uma tabela atributo-valor a partir de um conjunto de documentos.

Download

Download da última versão da ferramenta: Ferramenta PreTexT 2
Download dos módulos necessários para utilização do PreTexT 2: IO-Dirent-0.02.tar.gz e XML-Parser-2.34.tar.gz
Download do relatório técnico com manual completo de uso: Relatório Técnico PreTexT 2
Download do pacote completo do PreTexT 2: PreTexT 2 Completo
Download da versão antiga da ferramenta: PreTexT Antigo

Instalação

    • Windows:
    • Tenha o ActivePerl instalado, e descompacte o PreTexT 2 em alguma pasta de sua preferência.

      • Linux:

      Tenha o perl instalado, e instale também os pacotes build-essential e libc6. Em seguida descompacte e instale os pacotes IO-Dirent-0.02.tar.gz e XML-Parser-2.34.tar.gz com os comandos:

      1. perl Makefile.PL
      2. sudo make
      3. sudo make install

      Após realizado esse procedimento, descompacte o PreTexT 2 em um diretório de sua preferência.

Configuração

O arquivo config.xml contêm todos os parâmetros de configuração do PreTexT 2. Para entender melhor seu funcionamento consulte a seção 3.1 do relatório técnico.

Exemplo do arquivo de configuração: config.xml

Para facilitar a criação do arquivo de configuração, pode ser utilizado um script auxiliar chamado CreateConfig.pl.

Execução

Para executar o PreTexT 2 é necessário que o arquivo de configuração esteja correto, e seja executado o comando:

A partir da configuração desejada serão executados um ou mais módulos dente estes: Maid.pm, NGram.pm, Report.pm.

Módulo responsável pela limpeza dos documentos iniciais. São necessários, para a execução deste módulo, um arquivo de símbolos simbols.xml, zero ou mais arquivos de stoplists, e um diretório contendo o conjunto de documentos. Como saída, este módulo retorna um conjunto de documentos "limpos", e arquivos de informações sobre os stems gerados. Todos estes arquivos são explicados na seção 3.2 do relatório técnico.

Módulo responsável pela geração de n-grama com qualquer valor de n. Este módulo utiliza como entrada o conjunto de documentos "limpos" gerado pelo módulo anterior. Como saída este módulo retorna arquivos de informações sobre os n-grama gerados (.txt e .all). Todos estes arquivos são explicados na seção 3.3 do relatório técnico.

Módulo responsável pela geração da tabela atributo-valor. Este módulo utiliza como entrada os arquivos .txt e .all de informações sobre os n-grama, gerados pelo módulo anterior. Como saída este módulo retorna a tabela atributo-valor em formato DSX do Discover (.data e .names) e arquivos para geração de gráficos. Todos esses arquivos são explicados na seção 3.4 do relatório técnico.

    • Maid.pm
    • NGram.pm
    • Report.pm

Duvidas?

Duvidas, problemas, sugestões? Me envie um e-mail: caneca at icmc usp br


Trabalho realizado com apoio da CNPq e apoio institucional da USP.
Agradecimentos aos colaboradores deste trabalho Ronaldo C. Prati, Edson Takashi Matsubara, Maria Carolina Monard.

Atenção! Conteúdo original hospedado em: http://sites.labic.icmc.usp.br/pretext2/.