En el momento en el que el presidente ejecutivo de Facebook, Mark Zuckerberg, le prometió al Congreso que la inteligencia artificial (IA) sería capaz de resolver el problema de las noticias falsas, reveló poco respecto a cómo eso sería posible. Sin embargo, una investigación reciente nos acerca un poca más a descubrirlo.

A final de este mes será presentado un extenso estudio que involucra a investigadores del MIT, Qatar Computing Research Institute (QCRI) y la Universidad de Sofía en Bulgarin, quienes decidieron estudiar y analizar 900 variables posibles para predecir la confiabilidad de un medio de comunicación; un dato relevante es que este tal vez sea el conjunto más grande jamás propuesto.

Luego del estudio de las variables, los investigadores se centraron en investigar un modelo de aprendizaje automático en diferentes combinaciones de las variables para ver cuál produciría los resultados más precisos. El mejor modelo etiquetó con precisión los medios de comunicación con una realidad “baja”, “media” o “alta” solo el 65% del tiempo.

Los investigadores enfatizan que esto aún se encuentra lejos de ser un éxito rotundo. Sin embargo, los experimentos han revelado factores importantes sobre lo que sería necesario para externalizar la verificación de hechos a una máquina. Preslav Nakov, un científico senior de QCRI y uno de los investigadores del estudio, expresó que se considera a sí mismo como optimista de que las fuentes de noticias falsas pueden detectarse automáticamente de esta manera.

Sin embargo, eso no significa que sea una meta sencilla de lograr.

Desde el inicio de la investigación sobre detección de noticias falsas desde la campaña presidencial de 2016 en los Estados Unidos, surgieron cuatro enfoques principales: verificación de afirmaciones individuales, detección de artículos falsos, búsqueda de trolls y medición de la fiabilidad de las fuentes de noticias. Nakov y el resto del equipo eligieron enfocarse en la búsqueda de trolls porque se acerca más al origen de la desinformación. Sin embargo también es el enfoque que menos se ha estudiado.

Existen casos de otros estudios que intentaron caracterizar la confiabilidad de una fuente de noticias por la cantidad de sus reclamos que coincidían o estaban en conflicto con los reclamos ya verificados. En otras palabras, una máquina confrontaría el historial de afirmaciones objetivas hechas por un medio de noticias con las conclusiones de sitios como Snopes o PolitiFact. Sin embargo, el mecanismo se basa en la verificación de los hechos humanos y evalúa la historia de la salida, no el presente inmediato. En el momento en que las últimas reclamaciones se verificaron manualmente, “ya es demasiado tarde”, manifiesta Nakov.

Sin embargo, para que los investigadores logren detectar una fuente de noticias falsas casi en tiempo real, entrenaron su sistema utilizando variables que podrían tabularse independientemente de los verificadores de hechos humanos. Dentro de esto incluía análisis de contenido, como la estructura de las oraciones de los titulares y la diversidad de palabras en los artículos; indicadores generales del sitio, como la estructura de URL y el tráfico del sitio web; y medidas de la influencia del canal, como su compromiso con las redes sociales y la página de Wikipedia, si la hay.

Es relevante destacar que para seleccionar las variables, los investigadores se basaron en investigaciones anteriores y en nuevas hipótesis.

Al probar diferentes combinaciones de variables, los investigadores pudieron identificar los mejores predictores para la confiabilidad de una fuente de noticias. El ejercicio ayudó a los investigadores a determinar variables adicionales que podrían explorar en el futuro.

Uno de los problemas a lo que se enfrentaron los investigadores fue a la escasez de datos de entrenamiento, lo que Nakov llama la “verdad fundamental”.

Para la mayoría de las tareas de aprendizaje automático, es lo suficientemente simple para anotar los datos de entrenamiento. Si desea crear un sistema que detecte artículos sobre deportes, puede etiquetar fácilmente los artículos como relacionados o no relacionados con ese tema. Luego alimenta el conjunto de datos en una máquina para que pueda conocer las características de un artículo deportivo.

Sin embargo etiquetar los medios de comunicación con alta o baja relatividad es mucho más sensible. Debe ser realizado por periodistas profesionales que sigan metodologías rigurosas y es un proceso que requiere, evidentemente, mucho tiempo. Como resultado, es un desafío construir un cuerpo sólido de datos de entrenamiento, que es en parte la razón por la cual la precisión del modelo del estudio es tan baja. “La forma más obvia de aumentar la precisión es obtener más datos de entrenamiento”, dice Nakov

Actualmente, Media Bias Fact Check, la organización elegida para proporcionar la “verdad fundamental” para la investigación, ha evaluado 2.500 fuentes de medios, una escasez en términos de aprendizaje automático. Sin embargo Nakov manifiesta que la base de datos de la organización está creciendo rápidamente. Además de obtener más datos de capacitación, los investigadores también buscan mejorar el rendimiento de su modelo con más variables, algunas de las cuales describen la estructura del sitio web, si tiene información de contacto y sus patrones de publicación y eliminación de contenido.

Por otro lado, también se encuentran en las primeras etapas de la construcción de una plataforma de agregación de noticias que brinda a los lectores pistas importantes para la confiabilidad de cada historia y fuente compartida.

Como se mencionó anteriormente, aún queda bastante trabajo por hacer, sin embargo Nakov considera que dicha tecnología podría contribuir a resolver la epidemia de las noticias falsas con relativa rapidez, más aun si plataformas como Facebook y Twitter ejercen seriamente el esfuerzo. “Es como luchar contra el spam”, expresó Nakov “Nunca detendremos las noticias falsas por completo, pero podemos ponerlas bajo control”.