COLUMNISTAS

El entrenamiento de los algoritmos… y las prisas

LAION, acrónimo correspondiente a Large-scale Artificial Intelligence Open Network, es el repositorio más grande y abierto de imágenes etiquetadas (5,850 millones de pares de imágenes y términos en su última edición, LAION-5B), compilado a partir del scraping de imágenes de muchísimas páginas web, y utilizado de manera habitual por muchas compañías de inteligencia artificial como Google o Stable Diffusion para entrenar sus algoritmos generativos.

La compañía que lo gestiona es una organización sin ánimo de lucro establecida en Alemania y con miembros en todo el mundo, cuyo objetivo fundamental es un compromiso con el código abierto para poder poner a disposición del público modelos de aprendizaje automático a gran escala, así como repositorios de datos y código relacionado.

La existencia de repositorios de este tipo es fundamental para el avance de la inteligencia artificial, y genera una reducción de las barreras de entrada para que las compañías de todo tipo, incluidas las de código abierto, puedan plantearse el entrenamiento de sus modelos. Pero un estudio llevado a cabo por investigadores de Stanford acaba de determinar que esta base de datos masiva contiene varios miles de imágenes que se corresponden con pornografía infantil (CSAM), lo que supone una clara negligencia a la hora de recopilarlas.

Si una compañía como esta, sin ánimo de lucro, comete un error semejante fruto de una defectuosa supervisión de los materiales que recopila, ¿qué no estará pasando en otros repositorios utilizados para el entrenamiento de algoritmos de este tipo? Y sinceramente, más que los problemas derivados de las imágenes, me preocupan casi más los errores que puedan estar cometiéndose en la incorporación de material a bases de datos de entrenamiento para algoritmos de texto de tipo Large Language Model (LLM), en los que esos errores pueden ser mucho más difíciles de determinar y llegar a contaminar e introducir sesgos conceptuales inadvertidos en los modelos que posteriormente cueste bastante localizar.

El problema es el mismo de siempre: la prisa por poner en el mercado un modelo competitivo hace que, en modelos que requieren ingentes cantidades de datos para su entrenamiento, se pueda descuidar su origen, y terminemos generando modelos que establecen relaciones que pueden ser desde conceptualmente incorrectas, hasta auténticas barbaridades. ¿Qué nivel de responsabilidad deberíamos ejercer y exigir sobre las bases de datos que se utilizan para entrenar algoritmos que pueden llegar a convertirse en herramientas de uso tan generalizado como ChatGPT? Tras mucho especular sobre las «alucinaciones» que provienen de correlaciones relativamente bajas pero que, en ocasiones, los algoritmos consideran verdades absolutas y las enuncian como tales, ahora va a resultar que los algoritmos simplemente «alucinan» porque responden a barbaridades que, por prisas y falta de supervisión, fueron introducidas en su entrenamiento.

Si en una base de datos de imágenes etiquetadas se cuela nada menos que pornografía infantil, y considerando la increíble y aparentemente ilimitada profusión de basura conspiranoica, absurda y sin sentido que hay en la red… ¿qué no puede estar colándose en forma de texto en otras?

Tomado del blog del autor

Foto de portada: Pixabay

Foto del avatar
Enrique Dans
Profesor de Innovación en IE Business School desde el año 1990. Mantiene un blog de tecnología www.enriquedans.com

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *