Tecnología

La IA entrenada en basura de IA escupe basura de IA

“Se puede imaginar que ocurre lo mismo con los modelos de aprendizaje automático”, afirma. “Por tanto, si el primer modelo ha visto la mitad de Internet, es posible que el segundo modelo no pida la mitad de Internet, sino que rastree los últimos 100.000 tuits y ajuste el modelo sobre ellos”.

Además, Internet no contiene una cantidad ilimitada de datos. Para satisfacer su apetito por más, los futuros modelos de IA podrían necesitar entrenarse en datos sintéticos—o datos producidos por IA.

“Los modelos básicos dependen realmente de la escala de los datos para funcionar bien”, dice Shayne Longpre, que estudia cómo se forman los LLM en el Media Lab del MIT y que no participó en esta investigación. “Y están buscando datos sintéticos en entornos controlados y seleccionados como la solución a ese problema. Porque si siguen rastreando más datos en la web, habrá rendimientos decrecientes”.

Matthias Gerstgrasser, un investigador de IA en Stanford que escribió un artículo diferente papel Al examinar el colapso de modelos, dice que agregar datos sintéticos a los datos del mundo real en lugar de reemplazarlos no causa problemas importantes. Pero agrega: “Una conclusión en la que concuerda toda la literatura sobre el colapso de modelos es que es importante contar con datos de entrenamiento diversos y de alta calidad”.

Otro efecto de esta degradación a lo largo del tiempo es que la información que afecta a los grupos minoritarios está muy distorsionada en el modelo, ya que tiende a centrarse demasiado en muestras que son más frecuentes en los datos de entrenamiento.

En los modelos actuales, esto puede afectar a los idiomas subrepresentados, ya que requieren conjuntos de datos más sintéticos (generados por IA), dice Robert Mahari, quien estudia derecho computacional en el MIT Media Lab (no participó en la investigación).

Una idea que podría ayudar a evitar la degradación es asegurarse de que el modelo dé más peso a los datos originales generados por el hombre. Otra parte del estudio de Shumailov permitió que las generaciones futuras tomaran como muestra el 10% del conjunto de datos original, lo que mitigó algunos de los efectos negativos.

2024-07-24 17:00:00
#entrenada #basura #escupe #basura,