2021-09-22 10:49:45 - Atualizado em 2021-09-22 10:50:23
O trabalho foi aceito no 10th Brazilian Conference on Intelligent Systems (Bracis '21) e aborda dois tópicos principais:
- Representação de notícias por meio de redes heterogêneas
- Detecção de notícias falsas por meio de aprendizado positivo e não rotulado (PUL)
Notícias falsas podem rapidamente se disseminar entre usuários da internet, enganando um amplo número de pessoas à medida que são aceitas e compartilhadas. Para minimizar a disseminação de desinformação, abordagens propostas na literatura para classificação de conteúdos geralmente aprendem modelos por meio de algoritmos supervisionados, considerando informações textuais e contextuais para representar notícias verdadeiras e falsas. No entanto, notícias reais possuem um espectro amplo e de difícil caracterização, extenso para rotular. Algoritmos de aprendizado positivo e não rotulado (PUL) podem ser boas alternativas neste cenário. Algoritmos PUL aprendem modelos considerando poucos dados rotulados da classe de interesse e usam dados não rotulados para aumentar o desempenho de classificação. Neste trabalho foi proposto uma variante do algoritmo PU-LP para redes heterogêneas. PU-LP é um algoritmo PUL baseado em redes de similaridade. Logo, uma rede heterogênea incorpora diferentes características linguísticas para caracterização de notícias, como termos representativos, emotividade, pausalidade e tamanho médio de sentença. Nós também consideramos dois modelos de representação de notícias para o cálculo de similaridade: tf-idf e Doc2Vec. Nossa abordagem foi avaliada em 6 bases de dados, escritas em Português e em Inglês, e os desempenhos obtidos foram comparados a um baseline semissupervisionado binário, utilizando dois algoritmos de propagação de rótulos bem estabelecidos: LPHN e GNetMine. Os resultados indicaram que PU-LP com redes heterogêneas pode ser competitivo ao aprendizado semi-supervisionado binário. Além disso, características linguísticas como termos representativos e pausalidade melhoraram o desempenho de classificação, especialmente considerando uma baixa quantidade de notícias rotuladas.
O Bracis '21 irá acontecer de forma remota de 29 de novembro a 3 de dezembro de 2021.
Mais detalhes: Mariana Caravanti, Bruno Nogueira, Rafael Rossi, Ricardo Marcondes Marcacini, and Solange Rezende. 2021. A Heterogeneous Network-based Positive and Unlabeled Learning Approach to Detect Fake News. In Brazilian Conference on Intelligent Systems (Bracis '21), November 29-December 03, 2021, Centro de Inteligência Artificial , Universidade de São Paulo, Brazil.
Site do Bracis: https://c4ai.inova.usp.br/bracis2021/
Códigos, Resultados: https://github.com/marianacaravanti/A-Heterogeneous-Network-based-Positive-and-Unlabeled-Learning-Approach-to-Detecting-Fake-News