Gemini, un modelo de IA capaz de superar a los humanos en comprensión del lenguaje multitárea

Raúl Limón - El País

La carrera por la inteligencia artificial (IA) se ha convertido en una prueba de velocidad. A los avances en ChatGPT, que ya va por su cuarta versión, y los consecutivos anuncios de las grandes multinacionales de sus propios sistemas, Google ha respondido este miércoles con el lanzamiento de Gemini, una plataforma de inteligencia artificial multimodal que puede procesar y generar texto, código, imágenes, audio y vídeo desde distintas fuentes de datos. La versión Ultra, “disponible a comienzos del próximo año”, según ha anunciado Eli Collins, vicepresidente de productos en Google DeepMind, supera a los humanos en comprensión masiva del lenguaje multitárea (MMLU, por sus siglas en inglés), una referencia de evaluación creada a partir de 57 materias de ciencias, tecnología, ingeniería, matemáticas (STEM), humanidades y ciencias sociales.

“Gemini es nuestro mayor y más capaz modelo de IA”, asegura Collins, quien explica que está “inspirado en la forma en que las personas entienden el mundo e interactúan con él”. “Se percibe más como un colaborador útil y menos como una pieza inteligente de programación”, afirma.

Durante la presentación, Gemini ha sido capaz de identificar una forma geométrica, analizar la formulación para hallar su área y descubrir un error en la misma para proponer y explicar un resultado acertado al problema. De esta forma, es capaz de arrojar resultados a partir de datos de imagen, texto alfanumérico y voz. También ha identificado diferentes formas y dibujos, algunos a partir solo de puntos dispersos, y proponer usos de las figuras o de los objetos presentados o elaborar un relato a partir de propuestas alternativas o desarrollar gráficos actualizados con la información buscada por la propia plataforma.

Según el vicepresidente de DeepMind, ha obtenido más de un 90% de puntuación en MMLU, el sistema de evaluación para comprensión del lenguaje multitárea. “Es el primer modelo de IA que supera a los expertos humanos en este punto de referencia estándar de la industria”, afirma. Gemini también ha aprobado (59,4%) el examen de “comprensión de tareas multimodales que incluyen demandas que requieren un razonamiento deliberado”.

Gemini no es una aplicación sino la plataforma para llevar este último modelo de inteligencia artificial a los servicios existentes, desde Bard, el chat de Google competidor de ChatGPT, hasta el buscador o los gestores de servicios o los móviles con Android o los centros de datos a gran escala.

Para esto, estarán disponibles tres “tamaños” de Gemini: el Nano, que ya se puede usar por parte de los desarrolladores de Android; el Pro, que estará disponible a partir del 13 de diciembre y el Ultra, que se podrá implementar a partir de principios de año en una fecha aún por determinar. Los desarrolladores y clientes empresariales podrán acceder a Pro a través de la API Gemini en Google AI Studio o Vertex AI. A través de AICore, los desarrolladores de Android también podrán crear aplicaciones con Nano.

Bard

Sissie Hsiao, responsable de asistentes y Bard ha anunciado que Gemini se incorpora ya a este último chat en inglés para 180 países y se extenderá al resto de idiomas progresivamente, aunque ha admitido que tendrán que confirmar que su desarrollo es compatible con la inminente normativa europea sobre inteligencia artificial, que incluye estas plataformas de diálogo entre sus desarrollos regulables. Y con su inclusión en Bard, se extenderá a todas las aplicaciones compatibles.

El proceso será en dos fases: la primera utilizará una versión de Pro, que dotará al chat de “razonamiento más avanzado, planificación, comprensión y otras capacidades”, según Hsiao; y la segunda, a principios del próximo año, con mejoras que culminarán con la adopción de la versión Ultra.

Gemini ha nacido como multimodal, es decir, no se ha entrenado con diferentes modalidades de datos y se han unificado luego las capacidades diferenciadas, sino que su programación ya parte de la diversidad de fuentes. Según explica Collins, “esto ayuda a Gemini a comprender sin problemas todo tipo de entradas mucho mejor que los modelos existentes y sus capacidades son de última generación”.

También es capaz de programar incluyendo desarrollos complejos. En este sentido, Amin Vahdat, vicepresidente en Google Cloud, asegura: “En el futuro, veremos a los programadores haciendo uso de modelos de IA de alta capacidad como herramientas colaborativas que ayudan con todo el proceso de desarrollo de software, desde el razonamiento sobre los problemas hasta la asistencia con la implementación, el rendimiento y las capacidades”.

Sobre la seguridad, Google afirma que Gemini supera “las evaluaciones más completas de todos los modelos hasta la fecha”. La compañía asegura que ha sometido a la plataforma a todos los riesgos existentes y potenciales y que mantiene un examen continuo que incluye “pruebas de estrés”. También se han aplicado los principios de IA de la propia compañía, que establecen las normas éticas de sus desarrollos.

Pese a los avances, Gemini no es infalible, según reconocen sus responsables. Admiten que arrojará errores y alucinaciones (respuestas de apariencia segura no justificada por datos). “Hemos progresado mucho y Gemini es nuestro mejor modelo en ese sentido, pero todavía es, diría yo, un problema de investigación sin resolver”, admite Collins.

*Licenciado en Ciencias de la Información por la Universidad Complutense, máster en Periodismo Digital por la Universidad Autónoma de Madrid y con formación en EU, es redactor de la sección de Ciencia. Colabora en televisión, ha escrito dos libros (uno de ellos Premio Lorca) y fue distinguido con el galardón a la Difusión en la Era Digital.