GOOGLE LANZA GÉMINIS, EL MODELO DE IA CON EL QUE ESPERA SUPERAR A GPT-4

Es el comienzo de una nueva era de inteligencia artificial (IA) en Google, según su CEO Sundar Pichai: la era de Gemini. Gemini es el último modelo de lenguaje de gran tamaño de Google, mencionado por primera vez en la conferencia para desarrolladores I/O en junio y que ahora se lanza al público. Pichai y el CEO de Google DeepMind, Demis Hassabis, describen a Gemini como un gran avance en un modelo de IA que afectará prácticamente todos los productos de Google. Gemini es más que un único modelo de IA; tiene una versión ligera llamada Gemini Nano para dispositivos Android y una versión más potente, Gemini Pro, que será la base de varios servicios de IA de Google y de Bard. También hay un modelo aún más capaz llamado Gemini Ultra, diseñado principalmente para centros de datos y aplicaciones empresariales. Gemini se lanza de varias formas: Bard ahora funciona con Gemini Pro, y los usuarios de Pixel 8 Pro recibirán nuevas funciones gracias a Gemini Nano. Gemini Pro estará disponible para desarrolladores y clientes empresariales a través de Google Generative AI Studio o Vertex AI en Google Cloud a partir del 13 de diciembre. Por ahora, Gemini solo está disponible en inglés, pero se planea agregar más idiomas. Pichai afirma que el modelo se integrará eventualmente en el motor de búsqueda de Google, sus productos publicitarios, el navegador Chrome y más, en todo el mundo. Es el futuro de Google, y llega en un momento crucial.

OpenAI lanzó ChatGPT hace un año y una semana, y tanto la empresa como el producto se convirtieron de inmediato en lo más destacado en IA. Ahora Google, la empresa que creó gran parte de la tecnología fundamental detrás del actual auge de la IA, que se ha autodenominado una organización «primero en IA» durante casi una década, y que fue claramente sorprendida por lo bueno que era ChatGPT y la rapidez con la que la tecnología de OpenAI se ha apoderado de la industria, está finalmente lista para contraatacar.

Ahora, la pregunta importante: ¿GPT-4 de OpenAI versus Gemini de Google? Esto ha estado claramente en la mente de Google por un tiempo. «Hemos hecho un análisis muy completo de los sistemas uno al lado del otro, y los benchmarks», dice Hassabis. Google ejecutó 32 benchmarks bien establecidos comparando los dos modelos, desde pruebas generales como el benchmark de Entendimiento del Lenguaje Multitarea hasta uno que compara la capacidad de ambos modelos para generar código en Python. «Creo que estamos sustancialmente adelante en 30 de los 32 benchmarks», dice Hassabis, con una sonrisa en su rostro. «Algunos de ellos son muy específicos. Algunos son más amplios».

En esos benchmarks, que son en su mayoría muy ajustados, la ventaja más clara de Gemini proviene de su capacidad para entender e interactuar con video y audio. Esto es muy intencional: la multimodalidad ha sido parte del plan de Gemini desde el principio. Google no ha entrenado modelos separados para imágenes y voz, como hizo OpenAI con DALL-E y Whisper; construyó un modelo multisensorial desde el inicio. Hassabis de Google expresa su interés en cómo combinar todos estos modos, recopilando datos de diversas entradas y sentidos y dando respuestas igualmente variadas.

Actualmente, los modelos más básicos de Gemini son de texto a texto, pero modelos más avanzados como Gemini Ultra pueden trabajar con imágenes, video y audio. Hassabis de Google indica que Gemini se volverá aún más general, incluyendo elementos como acción y tacto, más relacionados con la robótica. Con el tiempo, Gemini adquirirá más sentidos, se volverá más consciente y más preciso. A pesar de que estos modelos todavía pueden crear alucinaciones y tienen sesgos y otros problemas, Hassabis afirma que cuanto más sepan, mejor serán.

Las pruebas de referencia son solo una medida, y la verdadera prueba de la capacidad de Gemini vendrá de los usuarios cotidianos que lo utilicen para generar ideas, buscar información, escribir código y mucho más. Google ve especialmente la programación como una aplicación clave para Gemini; utiliza un nuevo sistema generador de código llamado AlphaCode 2, que dice supera al 85% de los participantes en competencias de programación. Pichai señala que los usuarios notarán mejoras en casi todo lo que el modelo toque. Además, Gemini es un modelo más eficiente, entrenado en Unidades de Procesamiento Tensor de Google, siendo más rápido y económico que modelos anteriores como PaLM. Google también lanza una nueva versión de su sistema TPU, el TPU v5p, diseñado para centros de datos.

Para Pichai y Hassabis, el lanzamiento de Gemini marca tanto el inicio de un proyecto más amplio como un cambio significativo en sí mismo. Gemini es el modelo que Google ha estado esperando y hacia el cual ha estado trabajando durante años. Después del lanzamiento de ChatGPT, Google, que declaró un «código rojo», parece seguir intentando mantener su lema de ser «audaz y responsable». Ambos expresan cautela, especialmente al acercarse al sueño de la inteligencia artificial general (IAG), un AI que se auto-mejora y tiene el potencial de cambiar el mundo.

Google ha trabajado arduamente para asegurar la seguridad y responsabilidad de Gemini, tanto a través de pruebas internas y externas como mediante equipos de prueba «red-teaming». Pichai enfatiza la importancia de la seguridad de datos y la confiabilidad en productos orientados a empresas, que es donde la IA generativa genera la mayoría de sus ingresos. Hassabis reconoce los riesgos de lanzar un sistema de IA de vanguardia, incluyendo problemas y vectores de ataque imprevistos. Google está implementando el lanzamiento de Ultra con cautela, tratándolo como una beta controlada. Pichai y otros ejecutivos de Google han hablado extensamente sobre el potencial de la IA, considerándola incluso más transformadora que el fuego o la electricidad. La primera generación de Gemini podría ayudar a Google a alcanzar a OpenAI en la carrera de IA generativa.

Fuente: David Pierce - The Verge

Entradas Similares

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *