O trabalho propõe o método TripleVAE, um Variational Autoencoder Multimodal que representa os eventos. O método explora três modalidades: (i) embeddings geradas pelo modelo de linguagem dependente de contexto Bidiretional Encoder From Transformers (considerado um dos estado-da-arte para tarefas envolvendo texto) que capturam características sintáticas e semânticas dos textos; (ii) informação de tópicos dos eventos, uma vez que eventos contêm tópicos bem definidos e (iii) geolocalização dos eventos (latitude e longitude)
Qual a intenção do autor ao realizar um post em rede social? Neste trabalho, investigamos métodos de aprendizado de máquina multimodais para detectar automaticamente a intenção de posts. A inovação é explorar tanto a informação visual quanto textual, bem como lidar com modalidades faltantes. O trabalho foi publicado no Webmedia 2021 como short paper e foi agraciado como best short paper do Webmedia 2021.
Notícias falsas podem rapidamente se disseminar entre usuários da internet, enganando um amplo número de pessoas à medida que são aceitas e compartilhadas. Para minimizar a disseminação de desinformação, abordagens propostas na literatura para classificação de conteúdos geralmente aprendem modelos por meio de algoritmos supervisionados, considerando informações textuais e contextuais para representar notícias verdadeiras e falsas. No entanto, notícias reais possuem um espectro amplo e de difícil caracterização, extenso para rotular. Algoritmos de aprendizado positivo e não rotulado (PUL) podem ser boas alternativas neste cenário.
O trabalho propõe o método MVAE-FakeNews, um Variational Autoencoder Multimodal que representa os textos de notícias falsas.
Trabalho sobre análise de tendências em commodities agrícolas foi aceito no Symposium on Knowledge Discovery, Mining and Learning (KDMiLe 2021). É proposto um algoritmo de network embedding baseado na propagação de embeddings de modelos de linguagem pré-treinados e as embeddings geradas são comparadas com o estado-da-arte de network embedding.
O trabalho foi aceito no 18th Brazilian Symposium on Computer Music. Dados de música geralmente possuem alta dimensionalidade e diferentes tipos, como áudio e texto. Esses dados dificultam uma análise eficiente em machine learning. Dessa forma, a seleção de instâncias busca reduzir a quantidade de dados necessários para o treinamento, mantendo uma boa performance. Neste artigo são modeladas 10 arquiteturas de redes heterogêneas de informação que armazenam diferentes características das músicas, como: artistas, músicas, gêneros relacionados e o melspectogram. Por meio da pontuação em um cenário de propagação de rótulos são selecionadas instâncias que são avaliadas em um cenário de classificação de gêneros em comparação com outros baselines para a seleção de instâncias.
O LABIC completa 25 anos de história, com ampla formação de alunos de Iniciação Científica, Mestrandos, Doutorandos e Pós-Doutorandos. Vários Docentes do Departamento de Ciências de Computação já orientaram seus alunos no LABIC.
Uma ferramenta desenvolvida no LABIC (com cooperação da UFMS) para mineração de dados e textos, chamada Websensors, está sendo utilizada na análise da evolução da pandemia de COVID-19.