GPT-4o

gran modelo multimodal creado por OpenAI

GPT-4o (siglas de «GPT-4» y «omni») es un transformador generativo multimodal y multilingüe preentrenado, diseñado por OpenAI. Fue anunciado por la CTO de OpenAI, Mira Murati, durante una demostración transmitida en vivo el 13 de mayo de 2024 y fue lanzado ese mismo día.[1]​ GPT-4o es de uso gratuito, aunque los suscriptores de ChatGPT Plus tienen un límite de uso que es 5 veces mayor.[2]​ Puede procesar y generar texto, imágenes y audio.[3]​ Su API es dos veces más rápida y la mitad de precio que su predecesor, GPT-4 Turbo.[1]

Generative Pre-trained Transformer 4 Omni (GPT-4o)
Parte de OpenAI API
Información general
Tipo de programa Transformador generativo preentrenado
Autor OpenAI
Lanzamiento inicial 13 de mayo de 2024
Licencia Software propietario
Idiomas plurilingüe
Serie OpenAI API
GPT-4
Generative Pre-trained Transformer 4 Omni (GPT-4o)
Enlaces

Historia

editar

Originalmente, se lanzaron en secreto varias versiones de GPT-4o con diferentes nombres.[4]​ El 7 de mayo de 2024, Sam Altman, CEO de la compañía, escribió en X (anteriormente Twitter) «im-a-good-gpt2-chatbot», lo que comúnmente se interpretó como una confirmación de que se trataba de nuevos modelos de OpenAI que se estaban probando.[5][6]

Capacidades

editar

GPT-4o logró resultados de última generación en pruebas comparativas de voz, multilingüe y visión, estableciendo nuevos récords en reconocimiento y traducción de voz en audio.[7][8]​ GPT-4o obtuvo una puntuación de 88,7 en el punto de referencia de comprensión masiva del lenguaje multitarea (MMLU) en comparación con 86,5 de GPT-4.[9]​ A diferencia de GPT-3.5 y GPT-4, que dependen de otros modelos para procesar el sonido, GPT-4o admite de forma nativa voz a voz, lo que hace que la respuesta sea casi instantánea y fluida.[9]​ Sam Altman señaló el 15 de mayo de 2024 que las capacidades de voz a voz de GPT-4o aún no estaban integradas en ChatGPT y que la versión anterior todavía se estaba utilizando.[10]

El modelo admite más de 50 idiomas,[1]​ que, según OpenAI, cubren más del 97% de los hablantes.[11]​ Mira Murati demostró la capacidad multilingüe del modelo hablándole italiano y haciéndole traducir al inglés durante el evento de demostración de OpenAI transmitido en vivo el 13 mayo. Además, el tokenizador utiliza menos tokens para ciertos idiomas, especialmente los idiomas que no se basan en el alfabeto latino, lo que lo hace más barato para esos idiomas.[9]

GPT-4o tiene datos hasta octubre de 2023 [12][13]​ y tiene una longitud de contexto de 128 000 tokens,[12]​ con un límite de token de salida limitado a 2048.[13]

En mayo de 2024, se convirtió en el modelo líder en los puntos de referencia Elo de la Universidad de California, Berkeley.[14]

La polémica de Scarlett Johansson

editar

Tal como se lanzó, GPT-4o ofrecía cinco voces: Breeze, Cove, Ember, Juniper y Sky. Rápidamente se notó una similitud entre la voz de la actriz estadounidense Scarlett Johansson y Sky. El 14 de mayo, Entertainment Weekly se preguntó si este parecido era intencionado.[15]​ El 18 de mayo, el marido de Johansson, Colin Jost, bromeó sobre el parecido en un segmento de Saturday Night Live.[16]​ El 20 de mayo de 2024, OpenAI desactivó la voz de Sky y emitió un comunicado que decía: «hemos escuchado preguntas sobre cómo elegimos las voces en ChatGPT, especialmente Sky. Estamos trabajando para pausar el uso de Sky mientras las abordamos».[17]

Scarlett Johansson protagonizó la película de ciencia ficción Her de Spike Jonze en 2013, interpretando el papel de Samantha, una asistente virtual con inteligencia artificial personificada a través de una voz femenina. Como parte de la promoción previa al lanzamiento de GPT-4o, Sam Altman escribió en X el 13 de mayo una sola palabra: «ella».[18][19]

OpenAI afirmó que cada voz se basó en el trabajo de un actor contratado. Específicamente, OpenAI afirmó que «la voz de Sky no es una imitación de Scarlett Johansson, sino que pertenece a una actriz profesional diferente que usa su propia voz natural».[17]​ Ya en septiembre de 2023, OpenAI había afirmado que su próxima nueva versión parlante de su asistente ChatGPT que sonaba como si Scarlett Johansson «no estuviera destinada a parecerse» a la actriz.[20]​ La CTO, Mira Murati, declaró: «no sé sobre la voz. De hecho, tuve que ir a escuchar la voz de Scarlett Johansson». OpenAI afirmó además que el locutor fue reclutado antes de contactar a Johansson.[19]

El 21 de mayo, Johansson emitió un comunicado explicando que OpenAI se había ofrecido repetidamente a hacerle un trato para obtener permiso para usar su voz tan pronto como nueve meses antes del lanzamiento, un trato que ella rechazó. Dijo que estaba «conmocionada, enojada e incrédula de que el Sr. Altman persiguiera una voz que sonaba tan inquietantemente similar a la mía, que mis amigos más cercanos y los medios de comunicación no podían notar la diferencia». En la declaración, Johansson también aprovechó el incidente para llamar la atención sobre la falta de salvaguardias legales en torno al uso del trabajo creativo para impulsar herramientas líderes de inteligencia artificial, ya que su asesor legal exigió que OpenAI detallara los detalles de cómo se creó la voz Sky.[19][21]

Los observadores notaron similitudes con la forma en que Johansson había demandado y llegado a un acuerdo con The Walt Disney Company por incumplimiento de contrato sobre el lanzamiento directo de su película de Marvel Black Widow,[22]​ un acuerdo que, según se especula ampliamente, le habría reportado alrededor de 40 millones de dólares.[23]

También el 21 de mayo, Shira Ovide del Washington Post, compartió su lista de los "propietarios más tontos" de las empresas de tecnología, con la decisión de seguir adelante con una voz que suena parecida a la de Johansson a pesar de su oposición y luego negar las similitudes ocupando el sexto lugar.[20]​ El 24 de mayo, Derek Robertson de Politico, escribió sobre la "reacción masiva" y concluyó que «apropiarse de la voz de una de las estrellas de cine más famosas del mundo, en referencia [...] a una película que sirve como advertencia sobre más de -la dependencia de la IA- es poco probable que ayude a que el público vuelva al rincón de Sam Altman en el corto plazo».[24]

Véase también

editar

Referencias

editar
  1. a b c Wiggers, Kyle (13 de mayo de 2024). «OpenAI debuts GPT-4o 'omni' model now powering ChatGPT». TechCrunch (en inglés estadounidense). Consultado el 13 de mayo de 2024. 
  2. Field, Hayden (13 de mayo de 2024). «OpenAI launches new AI model GPT-4o and desktop version of ChatGPT». CNBC (en inglés). Consultado el 14 de mayo de 2024. 
  3. Claburn, Thomas. «OpenAI unveils GPT-4o, a fresh multimodal AI flagship model». The Register (en inglés). Consultado el 18 de mayo de 2024. 
  4. Edwards, Benj (13 de mayo de 2024). «Before launching, GPT-4o broke records on chatbot leaderboard under a secret name». Ars Technica (en inglés estadounidense). Consultado el 17 de mayo de 2024. 
  5. Sam, Altman (2024-05-07). "https://twitter.com/sama/status/1787222050589028528" Twitter, X. Retrieved 14 May 2024.
  6. Zeff, Maxwell (7 de mayo de 2024). «Powerful New Chatbot Mysteriously Returns in the Middle of the Night». Gizmodo (en inglés). Consultado el 17 de mayo de 2024. 
  7. van Rijmenam, Mark (13 de mayo de 2024). «OpenAI Launched GPT-4o: The Future of AI Interactions Is Here». The Digital Speaker. Consultado el 17 de mayo de 2024. 
  8. Daws, Ryan (14 de mayo de 2024). «GPT-4o delivers human-like AI interaction with text, audio, and vision integration». AI News (en inglés británico). Consultado el 18 de mayo de 2024. 
  9. a b c «Hello GPT-4o». OpenAI. 
  10. «OpenAI GPT-4o: How to access GPT-4o voice mode; insights from Sam Altman». The Times of India. 16 de mayo de 2024. ISSN 0971-8257. Consultado el 18 de mayo de 2024. 
  11. Edwards, Benj (13 de mayo de 2024). «Major ChatGPT-4o update allows audio-video talks with an “emotional” AI chatbot». Ars Technica (en inglés estadounidense). Consultado el 17 de mayo de 2024. 
  12. a b «Models - OpenAI API». OpenAI. Consultado el 17 de mayo de 2024. 
  13. a b Conway, Adam (13 de mayo de 2024). «What is GPT-4o? Everything you need to know about the new OpenAI model that everyone can use for free». XDA Developers (en inglés). Consultado el 17 de mayo de 2024. 
  14. Franzen, Carl (13 de mayo de 2024). «OpenAI announces new free model GPT-4o and ChatGPT for desktop». VentureBeat (en inglés estadounidense). Consultado el 18 de mayo de 2024. 
  15. Stenzel, Wesley (14 de mayo de 2024). «ChatGPT launching talking AI that sounds exactly like Scarlett Johansson in 'Her' — on purpose?». Entertainment Weekly (en inglés). Consultado el 21 de mayo de 2024. 
  16. Caruso, Nick (20 de mayo de 2024). «Scarlett Johansson Says She Was ‘Shocked, Angered and in Disbelief’ After Hearing ChatGPT Voice That Sounds Like Her — Read Statement». TVLine (en inglés estadounidense). Consultado el 21 de mayo de 2024. 
  17. a b «How the voices for ChatGPT were chosen». OpenAI. 19 de mayo de 2024. 
  18. «her». X (formerly Twitter). 13 de mayo de 2024. Consultado el 21 de mayo de 2024. 
  19. a b c Allyn, Bobby (20 de mayo de 2024). «Scarlett Johansson says she is 'shocked, angered' over new ChatGPT voice». NPR. 
  20. a b Ovide, Shira (30 de mayo de 2024). «Perspective | Exactly how stupid was what OpenAI did to Scarlett Johansson?». Washington Post. 
  21. Mickle, Tripp (20 de mayo de 2024). «Scarlett Johansson Said No, but OpenAI’s Virtual Assistant Sounds Just Like Her». The New York Times (en inglés estadounidense). ISSN 0362-4331. Consultado el 21 de mayo de 2024. 
  22. «Scarlett Johansson took on Disney. Now she’s battling OpenAI over a ChatGPT voice that sounds like hers». Yahoo Finance (en inglés canadiense). 21 de mayo de 2024. Consultado el 21 de mayo de 2024. 
  23. Pulver, Andrew (1 de octubre de 2021). «Scarlett Johansson settles Black Widow lawsuit with Disney». The Guardian (en inglés británico). ISSN 0261-3077. Consultado el 21 de mayo de 2024. 
  24. «Sam Altman’s Scarlett Johansson Blunder Just Made AI a Harder Sell in DC - POLITICO».