Icono del sitio Javier Campos .es

3er Premio en Hackathon de AWS & Intel: Ayudando a luchar contra la desinformación, utilizando ML y noticias de meneame.net

Hace unos días participé en el Hackathon Iberia, organizado por AWS e Intel. Este es el proyecto con el que quedé en tercera posición 🥉.

Objetivo del Hackathon:

Es un Hackathon for Good, en concreto se buscaban soluciones (apps o análisis de datos) que resolvieran problemas relacionados con Sostenibilidad y Medioambiente, Inclusión y Accesibilidad, o Colectivos Desfavorecidos. Más info en la web oficial 🔗.

 

Proyecto presentado:

El código fuente del proyecto y el dataset creado los he dejado disponibles en este repositorio de github 🔗.

 

❓ Problema que se quiere resolver

La desinformación (o fake news) es la información errónea que se da, generalmente de manera intencionada.

Esta desinformación perjudica frecuentemente a colectivos desfavorecidos, como inmigrantes, refugiados, pobres, niños, adolescentes, ancianos, mujeres víctimas de violencia de género, personas con discapacidad…

🏋️‍♀️ Impacto Social

 

💡 Solución propuesta

Nuestro objetivo es, a partir de una secuencia de entrada (ejemplo: el título de una noticia), ayudar a identificar si es potencialmente:

Para ello, primero generaremos un Dataset de noticias de Meneame.net, las cuales están accesibles de forma pública a través de internet. Meneame.net es un portal donde los usuarios envían noticias y los usuarios votan las más interesantes (con «meneos» positivos o votos negativos).

En Meneame.net hay casi 4 Millones de noticias, cada una de las cuales puede estar en 1 de estos estados:

En este proyecto se propone utilizar Natural language processing (NLP), en concreto una red neuronal de tipo Transformer, para la clasificación de futuras noticias.

Como Dataset de entrenamiento se utilizarán las noticias de Meneame.net, las cuales son públicas. Se ha generado un Dataset con las noticias, y han sido automáticamente clasificadas en categorías (categorías: relevante, no relevante, polémica, descartada) a partir de las columnas del dataset (votos, votos negativos, estado).

Un esquema resumen:

En el repositorio de github encontrarás el cuarderno jupyter que puedes ejecutar paso a paso para generar el dataset, para entrenar el modelo y para evaluarlo.

 

⏭️ Trabajo futuro y mejoras

Estas son algunas de las tareas que me gustaría hacer a futuro, ya que el Hackathon tiene duración limitada y no da tiempo a todo:

 

Vídeo del anuncio de los ganadores:

Salir de la versión móvil