The Independent Sentinel #48
La encarnación de los modelos de lenguaje, un rival emergente y la glorificación de la compresión
¡Hola! Soy Javier Fuentes, de Akoios, te doy la bienvenida a esta nueva edición de The Independent Sentinel, el boletín de noticias en el que hablamos sobre todo lo que está ocurriendo en el mundo de la Inteligencia Artificial y la Ciencia de Datos.
Si te apetece recibir cada nueva publicación directamente en tu correo electrónico puedes suscribirte aquí:
Hoy hablamos de la personificación de los modelos de lenguaje, del mayor rival de ChatGPT y de una analogía que podría cambiar el modo en el que entendemos la Inteligencia Artificial.
¡Despegamos! 🛫
1. Tendencias 📈
🦿Buscando un cuerpo para un cerebro
No dejo de sorprenderme de lo bonito que es el idioma español. Tomemos como ejemplo el verbo “encarnar” cuyo origen etimológico radica en el latín, concretamente en el término incarnāre cuyo significado literal es “tomar forma corporal” y que tiene varias acepciones según la RAE:
¿Qué por qué te hablo de este verbo? Pues porque últimamente se ha puesto de moda su traducción al inglés, embodiment, para describir el proceso de integración entre los modelos de lenguaje y la robótica, es decir, el proceso de dotar de forma corpórea (robótica obviamente) a un LLM (Large Language Model).
Hace apenas unos días, se presentaba este vídeo demostrativo por parte de Figure, una empresa de robótica recientemente adquirida por OpenAI. Las razones para la adquisición son, como ahora verás, más que obvias:
No te voy a negar que este vídeo me ha emocionado. Es como cumplir mi sueño infantil de poder ver los robots con lo que siempre habíamos soñado haciendo las cosas que siempre supimos que serían capaces de hacer.
Impresiona la velocidad a la que se están produciendo los avances, todo está ocurriendo de manera mucho más rápida de lo que podríamos haber imaginado. Este avance disruptivo contrasta con el avance gradual en habilidades robóticas que habíamos venido viendo en el pasado (sirva como ejemplo la evolución gradual en capacidades de los conocidísimos robots de Boston Dynamics).
Veamos con un poco más de detalle cómo funciona:
Según comentar desde Figure, el vídeo no ha sido acelerado y todas las acciones han sido aprendidas por el robot, es decir, no ha habido un entrenamiento específico previo.
Hay dos cosas que me resultan increíblemente interesantes en el vídeo.
La primera es comprobar cómo emergen capacidades al combinar un LLM con un “cuerpo” robótico que pueda gobernar.
La segunda es la “metacognición”. En dos momentos del vídeo, el humano le pregunta al robot que le explique por qué ha hecho algo y que piense sobre cómo lo ha hecho. A esto, Figure 01 responde manera correcta y precisa, reflexionando sobre su actuación. Esta metacognición es algo imprescindible para la auto-mejora de estos artefactos y abre caminos interesantísimos para explorar el camino a la AGI.
Cada día tengo menos dudas, el futuro está ocurriendo hoy. Por fin.
👀 El competidor que todos estábamos esperando
Hace unas semanas, Anthropic, la empresa creada por los hermanos Dario y Daniela Amodei (ambos ex-trabajadores de OpenAI), presentaron la última versión de su modelo de lenguaje insignia: Claude.
Desde el comienzo, Anthropic ha intentado rivalizar con openAI argumentando ser más rigurosos y cautelosos con el desarrollo de su tecnología, en contraposición al desarrollo a toda velocidad que Altman está dirigiendo en OpenAI. Esto se puede ver si nos fijamos en cómo se describen a sí mismos en su página web:
Volviendo al nuevo modelo, Claude 3 cuenta con tres versiones de distintas inteligencia, coste y velocidad: Haiku, Sonnet y Opus.
Claude 3 Haiku: El modelo más rápido y compacto, diseñado para una respuesta casi instantánea, especialmente adecuado para consultas y solicitudes simples.
Claude 3 Sonnet: Ofrece equilibrio entre velocidad e inteligencia, destacando en tareas que requieren respuestas rápidas como la recuperación de información o la automatización de tareas. Es dos veces más rápido que los modelos Claude anteriores.
Claude 3 Opus: El modelo más inteligente de la familia, superando a sus competidores en pruebas de referencia como el conocimiento y razonamiento a nivel de grado y posgrado, matemáticas básicas y más. Exhibe una comprensión y fluidez cercanas a las humanas en tareas complejas.
Lo más sorprendente el modelo es que, según las comparativas realizadas por Anthropic es que Opus, su modelo más potente, supera a GPT-4 en todas las categorías en las que ha sido evaluado.
Como muestra de la potencia, se puede recurrir también a rankings independientes en los que Claude 3 está comportándose de manera excepcional frente a sus competidores.
Más allá de las comparativas, llevo unas semanas usando personalmente Claude 3 y, hasta el momento, estas son mis conclusiones sobre su rendimiento en comparación con GPT-4.
A nivel de capacidades, Claude 3 permite la subida de ficheros para su análisis y es capaz de entender imágenes como GPT4- vision pero, por otra parte, es incapaz por de realizar búsquedas por Internet (decisión de diseño por parte de Anthropic), de poder generar código ejecutable o de generar imágenes como se hace en ChatGPT con la inclusión del motor Dall-e 3.
En términos de rendimiento, este sería, por el momento, mi veredicto a falta de realizar más pruebas y de ver cómo va evolucionando Claude.
Con las versiones de que disponemos actualmente, parece que Claude 3 es mejor en lo relacionado con la generación y análisis de texto, mientras que GPT-4 se intuye más fuerte en todo lo relacionado con el entendimiento y manejo de cuestiones complejas, así como en el tratamiento de datos numéricos e imágenes.
Sea como fuere, es una gran noticia que OpenAI tengo un competidor así de sólido, la competencia siempre es beneficiosa para los usuarios y este no es un caso distinto.
2. Historias 📔
🎼 ¿Quieres banda sonora? ¡Dale al Play!
💬 La eficacia de los idiomas
Es común en todos los idiomas hablados por los humanos el intentar transmitir información de la manera más eficaz. No obstante, existe cierta variabilidad entre idiomas respecto a la cantidad de información que se transmite por segundo y en la velocidad del habla:
Con el advenimiento de los sistemas de comunicación modernos, la eficacia en la transmisión se ha ido haciendo aún mas perentoria para maximizar el ancho de banda de las comunicaciones.
🆘 El código más conocido del mundo
Un buen ejemplo de la optimización para la comunicación es el código Morse, un código desarrollado para el telégrafo, el dispositivo de comunicación inventado por Samuel Morse.
El 24 de Mayo de 1844, Morse transmitió el primer mensaje desde Washington a Baltimore con el siguiente mensaje:
What hath God wrought
La hazaña de Morse era encomiable, era la primera vez que se transmitía un mensaje a larga distancia y, además, a la velocidad de la luz. El impacto del telégrafo y del código Morse podría ser dibujado como algo equivalente al impacto que ha tenido Internet a nivel personal y empresarial para nosotros.
Como seguramente conocerás, el código Morse usaba dos símbolos para la transmisión, el punto (pulso corto) y la raya (pulso largo). Además de hacer la codificación (representación de cada letra con estos dos símbolos), Morse y su asistente (Alfred Vail) se dieron cuenta de que podrían optimizar las pulsaciones necesarias en el telégrafo.
¿Cómo? Asignando aquellas representaciones más cortas a aquellos caracteres más frecuentes en el abecedario (la t o la e, por ejemplo), ahorrando así millones y millones de pulsaciones. Este fue el primer acercamiento al concepto que hoy nos ocupa: la compresión.
🗜 Cuando menos no es más, sino igual
Al igual que con los idiomas, desde el nacimiento de la computación moderna, científicos e ingenieros han intentado ser lo más eficientes posibles a la hora de codificar la información ya que, históricamente, la capacidad de almacenamiento ha sido escasa y, por lo tanto, cara:
Si lo piensas, desde la llegada de Internet, esta optimización no es solo una cuestión de almacenamiento sino también una cuestión de transmisión. Estamos continuamente moviendo bits de un sitio a otro para transmitir información: enviar un mensaje de texto, recibir una foto, escuchar una canción en Spotify o ver una serie en Netflix. Esta optimización tiene un nombre: la compresión.
En la Teoría de la Información, la compresión de datos es el proceso por el que se puede codificar una información usando menos bits que la representación original.
De manera general, tenemos dos tipos de compresiones:
Lossless (sin pérdidas): Donde no se pierde nada de la información original mediante la eliminación de la redundancia estadística.
Lossy (con pérdidas): Donde se elimina cierta información innecesaria o menos importante
Veamos con más detalle en qué consiste este interesante concepto.
📞 El legado de Shannon
Nuestro querido Claude Shannon, del que ya hemos hablado en alguna ocasión en esta newsletter, fue el encargado de sentar las bases de la compresión en su celebérrimo artículo “Una teoría matemática de la comunicación” publicado en 1948.
En este artículo, Shannon explicaba dos conceptos básicos para entender la compresión:
La entropía: Representa la incertidumbre sobre la información contenida en un mensaje. A mayor entropía, más dificultad tendremos para comprimir la información.
La codificación: Aquí Shannon se inspiró en la técnica de Morse, indicando que la codificación optima depende de la frecuencia y la predictibilidad de los mensajes. Por ello, tiene sentido usar codificaciones más cortas para aquella información (i.e. caracteres) más frecuente.
El impacto de la teoría de la compresión de Shannon ha dado lugar a algoritmos de compresión que que usamos en nuestro día a día casi sin darnos cuenta. Shannon creó justo con Robert Fano el primer algoritmo de este tipo en 1949 (con el permiso de la compresión de Morse/Vail) coincidiendo con el advenimiento de la computación.
A este algoritmo le seguiría la codificación Huffman (llamada así por David Huffman, un alumno de Robert Fano), o la codificación LZ77 de Lempel y Ziv, que daría lugar a una miriada de algoritmos que aún usamos a día de hoy.
Los modelos DEFLATE fueron los más usados hasta mediados de los 90, cuando irrumpió el conocidísimo programa WinRAR que usaba su propio algoritmo propietario llamado RAR y que ha sido uno de los principales mecanismos de compresión en la era de Internet.
🏆 El premio Hutter
Te estarás preguntando por qué estamos hablando hoy sobre este asunto de la compresión. La razón es que la compresión está relacionada con el Machine Learning de una manera mucho más íntima de lo que podríamos imaginar.
Como veremos, un modelo de Machine Learning capaz de predecir la probabilidad de una secuencia en dados sus valores previos históricos, podría ser usado como un algoritmo de compresión óptimo.
🤓 Inciso técnico: Siguiendo esta línea de razonamiento, algoritmos de reducción dimensional (e.g. SVD) o algoritmos no supervisados de clasificación como k-means podrían ser considerados de algún modo como mecanismos de compresión de la información, ya sea por usar una representación en un espacio latente en el primer caso o por agrupar en clusters información con ciertas similitudes en el segundo.
Tan interesante es esta relación que existe un premio llamado “Hutter Prize” creado por Marcus Hutter (un conocido investigador de DeepMind) cuyo único objetivo es probar que el problema de la compresión y el de la Inteligencia Artificial son problemas equivalentes 🤯
El concurso consiste en comprimir (sin pérdidas) un fichero de 1GB de texto en inglés a menos de 112MB (el actual récord).
Lex Fridman habla sobre este tema con el propio Marcus Hutter en uno de sus podcasts que puedes ver aquí.
Being able to compress well is closely related to intelligence as explained below. While intelligence is a slippery concept, file sizes are hard numbers. Wikipedia is an extensive snapshot of Human Knowledge. If you can compress the first 1GB of Wikipedia better than your predecessors, your (de)compressor likely has to be smart(er). The intention of this prize is to encourage development of intelligent compressors/programs as a path to AGI.
Entrevista con Lex Fridman (26.Feb'20)
Merece la pena ver también este breve fragmento de otra entrevista de Lex Fridman al famoso hacker George Hotz donde habla justamente del premio Hutter.
¿Podría ser la compresión un camino para llegar a la AGI? Parece que sí.
🤯 Predecir es comprimir
Gracias a iniciativas como el premio Hutter, tenemos evidencias para suponer que, en el fondo, la teoría de la información (que obviamente incluye la compresión) y el Machine Learning son dos caras de la misma moneda, dos formas de abordar el mismo problema.
Comprimir y predecir son acciones equivalentes y, en cierta medida, ambas acciones requieren inteligencia y conocimiento.
Pensemos por un momento en los grandes modelos de lenguaje. Estos modelos están entrenados para predecir la siguiente palabra en función de lo escrito antes, capacidad que los haría idóneos como mecanismos (sub)óptimos para la compresión.
De hecho, esto es algo que ya podemos asegurar, los modelos predictivos pueden ser transformados en compresores sin pérdidas y viceversa, tal y como se explica en el paper “Language Modeling is Compression” en el que, entre otros, participa el propio Hutter.
En el paper se explica cómo esta teoría se ha probado con éxito en Google DeepMind validando que los LLM son capaces de comprimir texto, imágenes y audio de manera eficiente. Como conclusión, se indica que esta equivalencia predicción-compresión nos permite usar cualquier compresor (por ejemplo el archiconocido gzip) para construir un modelo generativo.
Desde esta óptica, podemos pensar que los LLMs no son más que una nueva y sofisticada técnica de compresión y, yendo un poco más allá, podríamos también pensar que el cerebro humano no es si no la herramienta de compresión más sofisticada del Universo.
--. .-. .- -.-. .. .- ... / -.-. --- -- --- / ... .. . -- .--. .-. . / .--. --- .-. / .-.. . . .-. / .... .- ... - .- / .- --.- ..- .. -.-.--
¿Te gusta The Independent Sentinel? ¡Ayúdame a que más gente conozca la publicación!
Si tienes comentarios o quieres iniciar una conversación, recuerda que puedes hacerlo aquí.
Si te has perdido alguna edición de la newsletter o quieres volver a leerlas, puedes acceder a todas aquí.
Si quieres escuchar todas las canciones de The Independent Sentinel, echa un vistazo a esta lista de Spotify.
Te felicito porque este artículo es extraordinariamente claro y a la vez entretenido teniendo en cuenta la complejidad del tema. En fin, gracias.