OpenAI lanzó GPT-4o, la última versión de su serie GPT, lo que marca un salto significativo en IA. GPT-4o, donde “o” significa “omnimodal”, marca el comienzo de una nueva era de interacción persona-computadora al aceptar y generar combinaciones de entradas y salidas de texto, audio e imágenes.
La carrera por los modelos de lenguaje grande (LLM) se está calentando. Mientras OpenAI trabaja diligentemente para seguir siendo relevante, Anthropic, una empresa fundada por antiguos investigadores de OpenAI, está según se informa cerca de lanzar su asistente de IA Claude en iPhones.
Para mantenerse a la vanguardia del campo competitivo de la IA, OpenAI, el creador del popular bot de IA ChatGPT, anunció el próximo lanzamiento de GPT-4o el lunes. Los nuevos modelos cuentan con capacidades impresionantes, que incluyen conversaciones de voz realistas e interacción fluida de texto y datos visuales.
OpenAI transmisión en vivo mostró las innovadoras funciones de audio del GPT-4o. Los usuarios ahora pueden conversar con ChatGPT en tiempo real, interrumpiéndolo sin problemas a mitad de una frase, como en un diálogo natural. Esta característica elimina retrasos y facilita una interacción humano-computadora verdaderamente natural.
“Se siente como la IA de las películas… Hablar con una computadora nunca me ha parecido natural; ahora sí lo es”, escribió el CEO de OpenAI, Sam Altman, en un entrada en el blog.
En otro demostración, los investigadores mostraron la impresionante capacidad de GPT-4o para traducir idiomas en tiempo real. Esto resalta aún más la versatilidad del modelo en diferentes tareas. El investigador de OpenAI, claramente impresionado, felicitó al chatbot por demostrar “lo útil y sorprendente que eres”.
En una respuesta humana, ChatGPT respondió: “¡Oh, basta! ¡Me estás haciendo sonrojar!”.
Altman más tarde al corriente “her” en X, destacando el progreso, posiblemente haciendo referencia a la película de 2013 “Her” sobre un hombre enamorado de su asistente de inteligencia artificial.
Durante la presentación, la CTO de OpenAI, Mira Murati, destacó los impresionantes tiempos de respuesta de GPT-4o a las entradas de audio, llegando a 232 milisegundos, rivalizando con la velocidad de conversación humana.
Rendimiento y accesibilidad del GPT-4o
Si bien conserva la destreza de su predecesor, GPT-4 Turbo en el procesamiento de códigos y textos en inglés, GPT-4o logra avances significativos en la comprensión de idiomas distintos del inglés. El modelo supera a sus rivales en visión y comprensión de audio.
Además, GPT-4o opera al doble de velocidad para ofrecer una reducción de costos del 50 por ciento y cuenta con límites de tasa API cinco veces más altos que su predecesor. Murati describió GPT-4o como un “cambio de juego” para la interacción de voz.
Anteriormente, las limitaciones en el modo de voz de ChatGPT, que dependía de un complejo sistema multimodelo, causaban retrasos notables y obstaculizaban su capacidad para capturar señales sutiles como el tono y el ruido de fondo.
GPT-4o elimina estos problemas al implementar un modelo unificado para todos los canales de comunicación (texto, visión y audio). Este enfoque simplificado permite que el modelo interprete y genere respuestas con mayores matices, fomentando interacciones más naturales y atractivas.
La startup de IA liderada por Altman enfatiza la seguridad como principio central en GPT-4o. El modelo se sometió a evaluaciones rigurosas en múltiples puntos de referencia para confirmar su competencia en el manejo de múltiples idiomas y datos visuales y de audio.
Evaluación de modelos, implementación y acceso para desarrolladores
Este enfoque en la seguridad se extiende a todas las modalidades, con salvaguardias integradas y sistemas innovadores de salida de voz diseñados para promover el uso responsable. Además, OpenAI mitigó los riesgos potenciales, principalmente relacionados con las nuevas funciones de audio, mediante la realización de extensos ejercicios de trabajo en equipo con más de 70 investigadores de seguridad externos.
OpenAI está adoptando un enfoque gradual para lanzar las funcionalidades de GPT-4o. Inicialmente, los usuarios pueden acceder a capacidades de texto e imágenes a través de la interfaz ChatGPT existente. Esta funcionalidad es gratuita y tiene mayores límites de mensajes para los suscriptores Plus. Los desarrolladores también pueden utilizar la API para experimentar con las capacidades de visión y texto de GPT-4o.
Además, OpenAI planea introducir soporte limitado para funcionalidades de audio y video en futuras actualizaciones. A pesar de sus impresionantes capacidades, GPT-4o tiene limitaciones en todas las modalidades. Sin embargo, OpenAI está trabajando activamente en mejoras.
El lanzamiento inicial de salidas de audio ofrecerá una selección seleccionada de voces para garantizar el cumplimiento de los protocolos de seguridad. OpenAI sigue comprometido con la mitigación continua de riesgos y la transparencia. En el futuro, planean lanzar tarjetas de sistema integrales que detallan todo el potencial del GPT-4o.
De acuerdo a un informe 2023OpenAI podría estar acelerando el lanzamiento de GPT-5, llegando potencialmente antes de lo habitual.
2024-05-14 09:03:14
#estás #haciendo #sonrojar #ChatGPT #activado #por #voz #tímido #cuando #dicen #increíble #ella,