El desarrollo de los modelos de inteligencia artificial (IA) depende de los datos.
Los datos pueden ser reales o sintéticos.
Los datos sintéticos —datos no creados por humanos pero que responden al propósito de imitar los datos del mundo real— permiten entrenar modelos de IA, realizar pruebas, entrenar algoritmos y desarrollar aplicaciones sin comprometer la información confidencial de los usuarios.
Los datos de alta calidad generados por humanos —datos reales— son mucho más costosos que los datos “sintéticos”.
Las restricciones impuestas al empleo de textos, imágenes y otros tipos de datos disponibles en la web han propiciado que un gran número de desarrolladores de modelos de IA opten por los datos alternativos producidos por máquinas, los datos sintéticos.
Sin embargo, por ahora los datos sintéticos no precisamente aseguran los mejores resultados en el entrenamiento de modelos de IA.
El 24 de julio, la revista científica Nature publicó el artítulo “AI models collapse when trained on recursively generated data” —en castellano: Los modelos de IA se colapsan cuando se entrenan con datos generados recursivamente—.
Un destacado grupo de investigadores en el Departamento de Ciencias Computacionales en la Universidad de Oxford perfeccionó un modelo lingüístico, utilizando para ello datos de Wikipedia
Los investigadores en Oxford generaron un modelo de IA y volvieron a introducir en el modelo más datos para perfeccionarlo.
Tal operación la realizaron varias veces, alimentando cada nuevo modelo con los datos generados por el modelo inmediato anterior.
Los investigadores descubrieron que los datos de entrenamiento se contaminaban cada generación, arrojando resultados absurdos.
Por ejemplo, al modelo de IA le fue solicitado un texto sobre arquitectura medieval y, tras nueve generaciones, emitió un texto sobre conejos.
Los referidos investigadores en Oxford descubrieron que los datos de entrenamiento se contaminaban de generación en generación.
El modelo empezó a perder información sobre datos que no aparecen tan a menudo en el conjunto de entrenamiento —datos minoritarios— y terminó por colapsarse debido al número de errores introducidos.
Uno de los investigadores que participaron en el proyecto —Ilia Shumailov— en otro texto que presentó con otros investigadores —“Fairness Feedback Loops: Training on Synthetic Data Amplifies Bias”— en castellano: Bucles de retroalimentación de imparcialidad: El entrenamiento con datos sintéticos amplifica el sesgo”, publicado en las Actas de la Conferencia ACM 2024 sobre equidad, responsabilidad y transparencia, destacó los cambios que registran, generación a generación los modelos de IA entrenados con datos sintéticos, y la importancia que admiten los datos minoritarios.
Los modelos de IA entrenados con datos sintéticos pierden imparcialidad, incluso en conjuntos de datos que inicialmente eran imparciales.
En cambio, cuando se conservó el 10% de los datos originales generados por humanos, el rendimiento del modelo arrojó mejores resultados.
Sara Hooker, quien dirige el Cohere for AI, parte de cuestionar si los datos sintéticos pueden representar la amplitud de la humanidad y su experiencia.
Un equipo de Cohere for AI informó que es capaz de utilizar el muestreo selectivo de datos generados por IA para reducir significativamente las respuestas tóxicas que arroja modelo.
Algunas de las principales firmas dedicadas al desarrollo de modelos de IA, como Google, Meta, OpenAI suelen emplear ambos, tanto datos reales como datos sintéticos para entrenar los modelos de IA que impulsan sus chatbots.
El desarrollo de los modelos de IA todavía depende de los datos reales, de los datos generados por seres humanos. El mundo será muy diferente cuando los modelos de IA solo dependan de datos artificiales.