Apple lanza ocho pequeños modelos de lenguaje de IA destinados al uso en dispositivos

imágenes falsas

En el mundo de la IA, lo que podrían llamarse “pequeños modelos de lenguaje” han ganado popularidad recientemente porque pueden ejecutarse en un dispositivo local en lugar de requerir computadoras de centro de datos en la nube. El miércoles, Apple introducido un conjunto de pequeños modelos de lenguaje de IA disponibles llamados OpenELM que son lo suficientemente pequeños como para ejecutarse directamente en un teléfono inteligente. Por ahora son en su mayoría modelos de investigación de prueba de concepto, pero podrían formar la base de futuras ofertas de IA en dispositivos de Apple.

Los nuevos modelos de IA de Apple, denominados colectivamente OpenELM por “Modelos de lenguaje eficientes de código abierto”, están actualmente disponibles en abrazando la cara bajo un Licencia de código de muestra de Apple. Dado que existen algunas restricciones en la licencia, es posible que no se ajuste a las definición comúnmente aceptada de “código abierto”, pero el código fuente de OpenELM está disponible.

El martes cubrimos Los modelos Phi-3 de Microsoft, que pretenden lograr algo similar: un nivel útil de comprensión del lenguaje y rendimiento de procesamiento en pequeños modelos de IA que pueden ejecutarse localmente. Phi-3-mini presenta 3.8 mil millones de parámetros, pero algunos de los modelos OpenELM de Apple son mucho más pequeños y oscilan entre 270 millones y 3 mil millones de parámetros en ocho modelos distintos.

En comparación, el modelo más grande lanzado hasta ahora en Meta’s Llama 3 La familia incluye 70 mil millones de parámetros (con una versión de 400 mil millones en camino), y el GPT-3 de OpenAI de 2020 se envió con 175 mil millones de parámetros. El recuento de parámetros sirve como una medida aproximada de la capacidad y complejidad del modelo de IA, pero investigaciones recientes se han centrado en hacer que los modelos de lenguaje de IA más pequeños sean tan capaces como lo eran los más grandes hace unos años.

Los ocho modelos OpenELM vienen en dos versiones: cuatro como “preentrenados” (básicamente una versión sin procesar del modelo con el siguiente token) y cuatro como ajustados por instrucciones (afinados para seguir instrucciones, lo cual es más ideal para desarrollar asistentes de IA y chatbots):

OpenELM presenta una ventana de contexto máxima de 2048 tokens. Los modelos fueron entrenados en los conjuntos de datos disponibles públicamente. Web refinadauna versión de MONTÓN con duplicaciones eliminadas, un subconjunto de Pijama Rojoy un subconjunto de Dolma v1.6, que según Apple asciende a alrededor de 1,8 billones de tokens de datos. Los tokens son representaciones fragmentadas de datos utilizados por los modelos de lenguaje de IA para su procesamiento.

Apple dice que su enfoque con OpenELM incluye una “estrategia de escalamiento por capas” que, según se informa, asigna parámetros de manera más eficiente en cada capa, ahorrando no solo recursos computacionales sino también mejorando el rendimiento del modelo mientras se entrena con menos tokens. Según lo publicado por Apple papel blancoesta estrategia ha permitido a OpenELM lograr una mejora del 2,36 por ciento en precisión con respecto a Allen AI. OLMo 1B (otro modelo de lenguaje pequeño) y requiere la mitad de tokens de preentrenamiento.

Agrandar / Una tabla que compara OpenELM con otros pequeños modelos de lenguaje de IA de una clase similar, extraída del artículo de investigación OpenELM de Apple.

Manzana

Apple también lanzó el código para Corenet, una biblioteca que utilizó para entrenar OpenELM, y también incluía recetas de entrenamiento reproducibles que permiten replicar los pesos (archivos de red neuronal), lo cual hasta ahora es inusual para una importante empresa de tecnología. Como dice Apple en el resumen de su artículo OpenELM, la transparencia es un objetivo clave para la empresa: “La reproducibilidad y la transparencia de los grandes modelos de lenguaje son cruciales para avanzar en la investigación abierta, garantizar la confiabilidad de los resultados y permitir investigaciones sobre los sesgos de los datos y los modelos, como así como los riesgos potenciales.”

Al publicar el código fuente, los pesos de los modelos y los materiales de capacitación, Apple dice que su objetivo es “potenciar y enriquecer la comunidad de investigación abierta”. Sin embargo, también advierte que dado que los modelos fueron entrenados en conjuntos de datos de origen público, “existe la posibilidad de que estos modelos produzcan resultados inexactos, dañinos, sesgados o objetables en respuesta a las indicaciones de los usuarios”.

Si bien Apple aún no ha integrado esta nueva ola de capacidades del modelo de lenguaje de IA en sus dispositivos de consumo, la próxima actualización de iOS 18 (que se espera sea revelado en junio en WWDC) se rumorea que incluye nuevas características de IA que utilizar el procesamiento en el dispositivo para garantizar la privacidad del usuario, aunque la empresa puede potencialmente contratar google u OpenAI para manejar procesamientos de IA más complejos fuera del dispositivo para darle a Siri un impulso que tanto necesitaba.

2024-04-25 22:55:43
#Apple #lanza #ocho #pequeños #modelos #lenguaje #destinados #uso #dispositivos,

Apple lanza ocho pequeños modelos de lenguaje de IA destinados al uso en dispositivos

Share this:

Andy Goldsworthy está a punto de revelar su trabajo “más importante”

Los Falcons seleccionan sorprendentemente a Michael Penix Jr. y las mejores selecciones del Draft NFL 2024

You may also like

Leave a Comment Cancel Reply