Tinku Tecnología

La era de la IA generativa está aquí: solo seis meses después de que ChatGPT de OpenAI irrumpiera en escena, casi la mitad de los empleados de algunas de las principales empresas mundiales ya utilizan este tipo de tecnología en sus flujos de trabajo, y muchas otras empresas se apresuran a hacerlo.

Pero, como sabéis, los datos utilizados para entrenar los modelos de lenguaje extenso (LLM) y otros modelos transformadores que sustentan productos como ChatGPT, Stable Diffusion y Midjourney provienen inicialmente de fuentes humanas: libros, artículos, fotografías, etc., que se crearon sin la ayuda de la inteligencia artificial.

Ahora, a medida que más personas usan IA para producir y publicar contenido, surge una pregunta obvia: ¿Qué sucede cuando el contenido generado por IA prolifera en Internet y los modelos de IA comienzan a entrenarse en él, en lugar de en contenido generado principalmente por humanos?

[imagen Editorial 00 - Robot comiendo Robot.jpg]

Un grupo de investigadores del Reino Unido y Canadá ha analizado este mismo problema y recientemente publicó un artículo sobre su trabajo en la revista arXiv. Lo que encontraron es preocupante para la tecnología de IA generativa actual y su futuro: "Descubrimos que el uso de contenido generado por modelos en el entrenamiento causa defectos irreversibles en los modelos resultantes".

Los investigadores concluyeron que "aprender de los datos producidos por otros modelos provoca el colapso del modelo, un proceso degenerativo por el cual, con el tiempo, los modelos olvidan el verdadero subyacente"

Ilia Shumailov, en un correo electrónico a VentureBeat comentó: "Nos sorprendió observar lo rápido que ocurre el colapso del modelo: los modelos pueden olvidar rápidamente la mayoría de los datos originales de los que aprendieron inicialmente".

En otras palabras: A medida que un modelo de entrenamiento de IA está expuesto a más datos generados por IA, se desempeña peor con el tiempo, produce más errores en las respuestas y el contenido que genera, y produce mucha menos variedad no errónea en sus respuestas.

Como otro de los autores del artículo, Ross Anderson, profesor de ingeniería de seguridad en la Universidad de Cambridge y la Universidad de Edimburgo, escribió en una publicación de blog sobre el artículo: “Así como hemos esparcido los océanos con basura plástica y llenado la atmósfera con carbono dióxido, por lo que estamos a punto de llenar Internet con basura. Esto hará que sea más difícil entrenar modelos más nuevos scrapeando la web, dando una ventaja a las empresas que ya lo hicieron, o que controlan el acceso a las interfaces humanas a escala. De hecho, ya vemos empresas emergentes de IA que utilizan Internet Archive para obtener datos de capacitación”.

[imagen Editorial 01 - Internet Archive]

Ted Chiang, aclamado autor de ciencia ficción publicó recientemente un artículo en The New Yorker que postula que las copias de copias de IA darían como resultado una calidad degradante, comparando el problema con el aumento de artefactos visibles cuando uno copia una imagen JPEG repetidamente.

[imagen Editorial 02 - Película Multiplicity]

Otra forma de pensar en el problema es como la película de comedia de ciencia ficción de 1996 Multiplicity Mis dobles, mi mujer y yo, protagonizada por Michael Keaton, en la que un hombre humilde se clona a sí mismo y luego clona a los clones, cada uno de los cuales resulta en una disminución exponencial de los niveles de inteligencia y una creciente estupidez.

Cómo ocurre el 'colapso del modelo'

En esencia, el colapso del modelo ocurre cuando los datos que generan los modelos de IA terminan contaminando el conjunto de entrenamiento para los modelos posteriores.

“Los datos originales generados por humanos representan el mundo de manera más justa, es decir, también contienen datos improbables”, explicó Shumailov. “Los modelos generativos, por otro lado, tienden a sobreajustarse a los datos populares y, a menudo, malinterpretan o tergiversan los datos menos populares”.

Un ejemplo de degradación con 100

Shumailov ilustró este problema para VentureBeat con un escenario hipotético, en el que un modelo de aprendizaje automático se entrena en un conjunto de datos con imágenes de 100 gatos, 10 de ellos con pelaje azul y 90 con amarillo. 
El modelo aprende que los gatos amarillos son más frecuentes, pero también representa a los gatos azules como más amarillentos de lo que realmente son, devolviendo algunos resultados de gatos verdes cuando se le pide que produzca nuevos datos. 
Con el tiempo, el rasgo original del pelaje azul se erosiona a través de sucesivos ciclos de entrenamiento, cambiando de azul a verdoso y, finalmente, a amarillo. Esta distorsión progresiva y eventual pérdida de las características de los datos minoritarios es el colapso del modelo. 
Para evitar esto, es importante garantizar una representación justa de los grupos minoritarios en los conjuntos de datos, tanto en términos de cantidad como de descripción precisa de las características distintivas. La tarea es desafiante debido a la dificultad de los modelos para aprender de eventos raros.
Esta "contaminación" con datos generados por IA da como resultado que los modelos adquieran una percepción distorsionada de la realidad. Incluso cuando los investigadores entrenaron a los modelos para que no produjeran demasiadas respuestas repetitivas, descubrieron que aún se producía un colapso del modelo, ya que los modelos comenzaban a inventar respuestas erróneas para evitar repetir los datos con demasiada frecuencia.

“Hay muchos otros aspectos que conducirán a implicaciones más serias, como la discriminación basada en género, etnia u otros atributos sensibles”, dijo Shumailov, especialmente si la IA generativa aprende con el tiempo a producir, digamos, una raza en sus respuestas, mientras que “olvidando” que los demás existen.

Es importante tener en cuenta que este fenómeno es distinto del "olvido catastrófico", donde los modelos pierden información previamente aprendida. Por el contrario, el colapso del modelo involucra modelos que malinterpretan la realidad en función de sus creencias reforzadas.

Los investigadores detrás de este artículo encontraron que incluso si el 10% de los datos originales creados por humanos se utilizan para entrenar el modelo en las generaciones posteriores, "el colapso del modelo aún ocurre, solo que no tan rápido", dijo Shumailov a VentureBeat.

Formas de evitar el "colapso del modelo"

Afortunadamente, existen formas de evitar el colapso del modelo, incluso con los transformadores y LLM existentes.

Los investigadores destacan dos formas específicas. 

La primera es conservar una copia de prestigio del conjunto de datos original producido exclusiva o nominalmente por humanos, y evitar la contaminación con datos generados por IA. Luego, el modelo podría volver a entrenarse periódicamente con estos datos, o actualizarse completamente con ellos, comenzando desde cero.

La segunda forma de evitar la degradación en la calidad de la respuesta y reducir los errores no deseados o las repeticiones de los modelos de IA es volver a introducir conjuntos de datos nuevos, limpios y generados por humanos en su entrenamiento.

Sin embargo, como señalan los investigadores, esto requeriría algún tipo de mecanismo de etiquetado masivo o esfuerzo por parte de los productores de contenido o las empresas de IA para diferenciar entre el contenido generado por IA y el generado por humanos. En la actualidad, no existe tal esfuerzo confiable o de gran escala en línea.

“Para detener el colapso del modelo, debemos asegurarnos de que los grupos minoritarios de los datos originales estén representados de manera justa en los conjuntos de datos posteriores”, dijo Shumailov a VentureBeat, y continuó:

“En la práctica, es completamente no trivial. Los datos deben respaldarse cuidadosamente y cubrir todos los casos de esquina posibles. Al evaluar el rendimiento de los modelos, utilice los datos con los que se espera que funcione el modelo, incluso en los casos de datos más improbables. Tenga en cuenta que esto no significa que los datos improbables deban sobremuestrearse, sino que deben representarse adecuadamente. A medida que el progreso lo lleve a volver a entrenar sus modelos, asegúrese de incluir datos antiguos y nuevos. Esto aumentará el costo de la capacitación, pero lo ayudará a contrarrestar el colapso del modelo, al menos hasta cierto punto”.

Lo que la industria de la IA y los usuarios pueden hacer al respecto en el futuro

Hay un lado positivo para los creadores de contenido humano: los investigadores concluyen que en un futuro lleno de gen Las herramientas de IA y su contenido, el contenido creado por humanos, será aún más valioso de lo que es hoy, aunque solo sea como una fuente de datos de entrenamiento prístinos para la IA.

Estos hallazgos tienen implicaciones significativas para el campo de la inteligencia artificial, enfatizando la necesidad de metodologías mejoradas para mantener la integridad de los modelos generativos a lo largo del tiempo. Subrayan los riesgos de los procesos generativos no controlados y pueden guiar futuras investigaciones para desarrollar estrategias para prevenir o gestionar el colapso del modelo.

“Sin embargo, está claro que el colapso del modelo es un problema para ML y se debe hacer algo al respecto para garantizar que la IA generativa continúe mejorando”, dijo Shumailov.

Fuente:
https://venturebeat.com/ais-got-talent-meet-the-new-rising-star-in-media-and-entertainment/ 

What is Tinku Tecnología?

Tinku Tecnología es el programa sobre Transformación Digital y Nuevos Modelos de Negocio, presentado por Alejandro Guerrero y Juan Carlos Rodríguez Rojo de Resiliente Digital, Sociedad Tecnológica de Empresarios y Profesionales. En la actualidad cuenta con más de 4.000 miembros de España y Latinoamérica.