Las trampas, el fraude y la violación de la ética profesional son serias preocupaciones en los campos docente, académico y periodístico frente a la posible acreditación personal de trabajos confeccionados por un algoritmo, desde la creación de los modelos de lenguaje extenso de Inteligencia Artificial (IA) como ChatGPT.
Pues bien, parece que los tramposos podrían tener cierto freno. Una nota de la página web española www.eldiario.es publicó este miércoles la buena nueva de que un equipo liderado por Sumanth Dathathri y Pushmeet Kohli, del laboratorio DeepMind, de Google, ha desarrollado un algoritmo de muestreo capaz de aplicar marcas de agua al texto generado por su herramienta de IA y hacerlo reconocible.
El sistema introduce pequeños cambios, detectables estadísticamente, pero apenas apreciables para los humanos, que funcionan como una firma que puede ser reconocida por el software de detección asociado.
El nuevo software, bautizado como SynthID-Text, se describe en un trabajo publicado este mismo miércoles en la revista Nature. Los autores han puesto a prueba la detectabilidad de estas marcas de agua y encontrado una mejora sustancial en comparación con los enfoques existentes.
El algoritmo dispone de un modo “distorsionador”, que mejora la marca de agua con un pequeño costo de la calidad de salida del texto, y un modo “no distorsionador”, que preserva la calidad del texto.
Los autores han evaluado el sistema utilizando casi 20 millones de respuestas de interacciones de chat en vivo con el modelo de lenguaje de Google DeepMind, Gemini LLM y concluyen que el modo sin distorsión no disminuye la calidad del texto.
Aunque los investigadores de DeepMind han probado la herramienta de Google, este tipo de aproximaciones podría generalizarse en otras tecnologías, como la más popular, ChatGPT. La compañía responsable de este chatbot, OpenAI, admitió el verano que tiene listo un sistema para reconocer sus textos, aunque no se decide a lanzarlo por temor a perjudicar sus resultados.
“Nuestros equipos han desarrollado un método de marca de agua de texto que seguimos considerando mientras investigamos alternativas”, declararon desde la empresa, que también investiga otras vías, como los metadatos, para determinar la procedencia del texto.
“Esta tecnología permite a Google detectar contenido de texto generado por nuestra propia aplicación Gemini y la experiencia web”, explicaron desde DeepMind a elDiario.es. “Ahora, otros desarrolladores de IA generativa podrán usar esta tecnología para ayudarlos a detectar si los resultados de texto provienen de sus propios LLM, ya que se ofrece en código en código abierto”.
Los autores del nuevo trabajo consideran que es un paso más para mejorar la rendición de cuentas y la transparencia del uso responsable de la Inteligencia Artificial, aunque reconocen que las marcas de agua de texto se pueden evitar editando o parafraseando el resultado.
La doctora en Inteligencia Artificial Nerea Luis cree que el resultado es muy interesante y destaca que, a pesar de introducir ciertos conjuntos de palabras para generar esas marcas, la calidad del texto no se altera y el usuario no percibe una pérdida de calidad. “Para mí -afirma- el punto fuerte es que la demostración se ha hecho con el modelo como el que usa todo el mundo, no uno de laboratorio”.
En tanto, Pablo Haya, investigador del Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid (UAM), declaró al Science Media Centre (SMC), de España, que “mientras que en imágenes, vídeos o audios es sencillo insertar marcas de agua, en el caso del texto esto representa un desafío, ya que cualquier alteración en las palabras puede afectar significativamente el significado y la calidad del contenido”.
El experto añade que, actualmente, los sistemas para detectar si un documento ha sido generado por IA tienen bajos índices de acierto, por lo que tecnologías que faciliten la identificación de la autoría son muy necesarias.
Mikel Galar, experto en IA de la Universidad Pública de Navarra (UPNA), recuerda que este estudio está basado en trabajos previos. “Los resultados parecen convincentes y dicen que el sistema ya está implantado en Gemini y Gemini advanced”, destaca antes de agregar que “para sus usuarios sería importante saber esto, porque quizás no tengan interés en usar un sistema que sea fácilmente detectable”.