The Independent Sentinel #46
La Kryptonita de los Transformers, modelos independientes y el lugar dónde nació la computación
¡Hola! Soy Javier Fuentes, de Akoios, te doy la bienvenida a una nueva edición de The Independent Sentinel, la newsletter en la que hablamos sobre la revolución de la Inteligencia Artificial que estamos viviendo.
Para recibir cada nueva edición en tu correo electrónico debes suscribirte aquí:
En esta edición hablamos de el punto débil de los Transformers, de modelos que se ejecutan en cualquier sitio y del lugar que cambió el rumbo de la Segunda Guerra Mundial.
¡Comenzamos! 🎢
1. Tendencias 📈
🧮 La Kryptonita de los Transformers
Si has usado algún modelo de lenguaje, te habrás dado cuenta de que no son demasiado certeros a la hora de realizar operaciones aritméticas, incluso aquellas más sencillas. Tan es así que podríamos decir que las matemáticas son ahora mismo el punto débil de estos modelos.
Si lo piensas, esto tiene todo el sentido del mundo, ya que los LLMs (Grandes Modelos de Lenguaje) están especializados en exclusivamente en predecir la siguiente palabra al generar una respuesta y no en realizar operaciones aritméticas.
¿Por qué entonces en ocasiones es capaz de dar en el clavo con un resultado? La respuesta es sencilla, es posible que, en su entrenamiento, haya visto cadenas comúnmente usadas como, por ejemplo, 2 + 2 = 4, siendo por ello capaz de “recordar” -que no entender- el resultado de la operación. Lo que está ocurriendo en estos casos es que los modelo están recordando más que calculando.
Es por ello que tal vez obtengas resultados correctos al hacer operaciones con números pequeños porque es más probable que “recuerde” haber visto esas operaciones. Sin embargo, al hacer operaciones más grandes y, por tanto, menos convencionales y menos susceptibles de aparecer en los datos usados para el entrenamiento, el modelo empieza a “alucinar”.
¿Cómo se podría solucionar esto? El primer acercamiento (y el más lógico) fue dotar a las modelos de lenguaje de herramientas de cálculo, es decir, ayudarles a entender cuando no deben hacer una predicción de siguiente palabra y, en su lugar, optar por usar una calculadora para hacer la operación.
El ejemplo más sofisticado que tenemos ahora mismo es el llamado Advanced Data Analytics o Code Interpreter de OpenAI que, a la vista de un prompt en el que se requiera cálculo, es capaz de generar el código Python necesario para computar la solución al problema planteado.
Usando el Advanced Data Analysis con GPT-4, si le pasamos de nuevo la nueva operación previa, entiende que es una operación aritmética y, en vez de intentar adivinar las siguientes cadenas de texto, opta por crear el código para hacer el cálculo de manera analítica. Maravilloso.
Pese a que esta solución parece muy adecuada y funciona del mismo modo en el que lo haría un humano (usando herramientas para hacer cálculos complejos), hay investigadores explorando otras opciones para verificar si, finalmente, los grandes modelos de lenguaje podrían llevarse mejor con las matemáticas.
En el paper “Positional Description Matters for Transformers Arithmetic”, investigadores de Microsoft han entrenado un pequeño Transformer de “solo” 100 millones de parámetros (similar al tamaño de GPT-2) para hacer operaciones aritméticas.
Según lo autores, el modelo es capaz de “clavar” multiplicaciones de 12x12 dígitos y descartan que esto sea un caso de memorización ya que los resultados posibles exceden la friolera de las 10^24 opciones.
Me ha parecido especialmente interesante cómo han preparado el dataset, facilitando al modelo tres representaciones distintas para cada operación de cara a hacer más efectivo su aprendizaje:
Más allá de la utilidad de este acercamiento y su potencial escalabilidad (hay que tener en cuenta que ya contamos métodos analíticos para hacer estas operaciones sin problema alguno) lo interesante de estas investigaciones es entender cómo los modelos son capaces de aprender y extraer patrones de una dataset de entrenamiento.
El tiempo dirá, pero puede que este sea el camino para acabar encontrando una calculadora extremadamente compleja y poco eficiente pero que, de algún modo, es capaz de dar con los resultados correctos.
📲 Modelos empotrados
Hace un poco más de un mes, Qualcomm, el famoso fabricante americano de semiconductores, presentaba el que afirman es el mejor procesador creado hasta la fecha para teléfonos móviles, el Snapdragon 8 Gen 3.
Más allá de que realmente sea la mejor opción actual para equipar en un teléfono móvil, lo que llama la atención al leer sus especificaciones es ver todo aquello relativo a IA que incorpora “on-chip”:
Inteligencia artificial generativa integrada
Soporte para modelos de lenguaje multimodales (LLM)
Qualcomm AI Stack
Snapdragon Sight
Aquí lo explican con más detalle:
Como se puede ver, aparentemente este procesador puede ejecutar localmente un modelo de 10 billones de parámetros basado en Llama 2 con una velocidad de hasta 20 tokens por segundo.
¿Por qué esto es importante? Lo es porque es posible que pronto tengamos en el bolsillo modelos de potencia equiparable a GPT-4 capaces de ejecutarse en nuestros propios móviles sin necesitar ningún tipo de conexión externa. Esto puede dar lugar a modelos totalmente privados, alimentados con nuestros datos, capaces de ser usados sin interrupciones y que no requieren conectividad.
Esto empieza a plantear una métrica muy interesante: los tokens por segundo. ¿Quién sabe si eventualmente dejaremos de clasificar los procesadores por su velocidad en GHz y empecemos a categorizarlos por el número de tokens que son capaces de generar por segundo?
2. Historias 📔
🎼 ¿Quieres banda sonora? ¡Dale al Play!
🏢 Un edificio en las afueras
A finales del XIX, Sir Samuel Herbert Leon, un conocido político y financiero de la época, adquirió un terreno en Milton Keynes, una pequeña ciudad ubicada unos 80 kilómetros al norte de Londres.
Sobre este terreno llamado Bletchley Park, acabó construyendo una mansión con una ecléctica combinación de estilos arquitectónicos que sirvió de hogar para su familia hasta 1937, cuando la finca completa fue adquirida por un promotor inmobiliario para realizar un desarrollo residencial.
Sin embargo, el destino tenía preparado un lugar en la historia muy distinto para esta extraña mansión a las afueras de Londres.
💥 Una guerra que se complica
En el apogeo de la Segunda Guerra Mundial, los aliados se estaban enfrentando a un enemigo formidable capaz de ponerles en apuros en todos los frentes, tanto militares como operativos.
La ayuda que llegaba en convoyes marítimos desde EEUU hasta Gran Bretaña era sistemáticamente saboteada por submarinos alemanes sin que los aliados pudiesen anticiparse a estos ataques.
De algún modo, los nazis disponían de una superioridad en inteligencia y capacidad de comunicación que excedía las capacidades de espionaje del bando aliado.
¿El secreto? Una máquina de rotores diseñada para cifrar y descifrar mensajes llamada Enigma estaba siendo utilizada por el ejército aleman para transmitir cientos de mensajes cada día que, pese a que fuesen interceptados, eran totalmente ininteligibles para los aliados.
Los mensajes eran de muy diversa naturaleza, desde informes de generales sobre la situación en el frente hasta órdenes directas de Hitler, pasando por meros reportes meteorológicos o inventarios logísticos.
Una máquina Enigma estándar de 3 rotores era capaz de generar aproximadamente 159,000,000,000,000,000,000 posibles combinaciones.
Los servicios secretos británicos entendieron finalmente que la única solución para poder dar un giro a la guerra era interceptar y descifrar las comunicaciones alemanas pero, ¿cómo se podría conseguir algo así?.
❌ Station X
El progreso imparable de las fuerzas alemanas en Europa hizo que Hugh Sinclair, uno de los mandos del MI6 (servicio secreto británico) decidiese adquirir la mansión de Bletchley Park para crear un centro de investigación con un único objetivo: descifrar el funcionamiento de Enigma. El nombre en clave de este nuevo emplazamiento fue Station X.
Los militares y civiles destinados a Bletchley recibieron el nombre de Codebreakers (rompecódigos). Se estima que más de 10.000 hombres y mujeres llegaron a servir en Bletchley. Los perfiles eran de lo más variados: matemáticos con altas capacidades analíticas, jugadores profesionales de ajedrez o adictos al Bridge (uno de los juegos de naipes más populares en el Reino Unido).
Para acomodar a tal cantidad de gente, las instalaciones de Bletchley Park tuvieron que ser ampliadas más allá de la mansión original, dando lugar a las construcción de múltiples edificios aledaños que conformaron la configuración actual del recinto.
Entre toda la gente que en algún momento trabajó en Bletchley Park hay un nombre que destaca sobre todos los demás y que ya forma parte de la cultura popular: hablamos de un joven matemático llamado Alan Turing.
🤓 Un genio de las matemáticas
En Septiembre de 1939, Gran Bretaña entró en guerra oficialmente con Alemania. Poco después, un jovencísimo Alan Turing fue contratado para pasar a formar parte de los codebreakers del Bletchley Park.
El objetivo de Turing, así como el del resto de integrantes del centro de investigación no era otro que descifrar Enigma. Para ello, Turing jugó un papel clave ya que, junto con Gordon Welchman diseñó y construyó un artefacto llamado “The Bombe”.
“The Bombe” era un dispositivo electromecánico que sirvió finalmente para descifrar los mensajes alemanes y cuyo aspecto se puede apreciar en la imagen.
El nombre era una abreviatura de polaco “bomba kryptologiczna” (bomba criptológica) ya que estaba basado en los estudios de un criptólogo polaco llamado Marian Rejewski.
A partir de 1940, los mensajes alemanes empezaron a ser descifrados de manera sistemática por Turing y su equipo, dando esto un giro crucial en una guerra contra un enemigo que era aparentemente imbatible.
Se ha estimado que el trabajo de Turing y del resto de personal en Bletchley Park acortó la guerra en mas de dos años y que, además de acabar con la amenaza totalitaria nazi, acabó salvando más de 14 millones de vidas.
Poco después, en 1944 y como continuación del trabajo realizado con “The Bombe”, se desarrolló “Colossus” la primera computadora electrónica construida con 1600 válvulas de vacío que podemos considerar como el primer ordenador.
De manera casual, la necesidad de desentrañar un sistema de comunicaciones cifradas había dado el pistoletazo de salida a la revolución de las ciencias de la computación. Una revolución que, como estamos viendo, sigue a día de hoy más viva que nunca.
🗻 Una cumbre simbólica
Com todo lo que hemos visto, queda patente que hay pocos sitio tan simbólicos para la computación y la Inteligencia Artificial como Bletchley Park, de hecho, éste es considerado como el lugar de nacimiento de la ciencias de la computación.
Este fuerte simbolismo es el que ha hecho que hace apenas unos semanas, los días 1 y 2 del pasado Noviembre, Bletchley Park acogiese el primer encuentro mundial sobre la seguridad de la IA, el Artificial Intelligence (AI) Safety Summit.
Lo más relevante de este evento es que ha reunido tanto a expertos en la materia como a dirigentes globales. Elon Musk, Ursula Von de Leyen, Rishi Sunak o Kamala Harris se contaron entre los asistentes.
Si tuviésemos que resumir el evento por sus principales conclusiones podríamos decir:
El Reino Unido se ha adelantado a Europa al organizar un evento de estas características y a contar con invitados de relevancia internacional. Aunque parezca solo un gesto, es algo que posiciona al Reino Unido en lo que a la Inteligencia Artificial se refiere.
Como estamos viendo, EEUU lleva de nuevo la delantera en la regulación de la IA. Tal y como han anunciado, obligarán a las empresas a aportar información y someter a pruebas a sus modelos de IA más potentes para que puedan ser evaluados.
Pese a que los riesgos existenciales a largo plazo de la IA son discutibles y discutidos, no ocurre lo mismo con los riesgos a corto plazo ya que, pese a no ser tan graves, sí que son reales. Sirva como ejemplo la preocupación por la posible influencia del uso de estas nuevas tecnologías en las futuras elecciones de UK y EEUU
Queda patente también que no hay una política común respecto a la IA. Cada país está avanzando a su ritmo y no se han alcanzado aún consensos relevantes.
Se espera con expectación y cierto miedo la inminente regulación europea. Esperemos que esté a la altura del momento histórico que se está viviendo y que no ponga trabas al crecimiento y evolución de esta tecnología en el continente.
Más allá de estas conclusiones, lo que está claro es que la IA ha pasado a formar parte del debate público, algo sinceramente impensable hace apenas unos años. Solo nos queda esperar que la atención que está puesta actualmente sobre esta disciplina ayude a aunar esfuerzos para aprovechar el potencial de la IA sin dejar de controlar los posibles riesgos. Como se suele decir, la tecnología es neutral, será el uso que hagamos de ella lo que acabe definiendo si es buena o mala.
¡Gracias como siempre por leer hasta aquí!
¿Disfrutas The Independent Sentinel? ¡Difunde esta publicación para que la conozcan muchos más entusiastas de la Inteligencia Artificial!
Si tienes comentarios o quieres iniciar una conversación, recuerda que puedes hacerlo aquí.
Si te has perdido alguna edición de la newsletter o quieres volver a leerlas, puedes acceder a todas aquí.
Si quieres escuchar todas las canciones de The Independent Sentinel, echa un vistazo a esta lista de Spotify.
Excelente artículo. Muchas gracias por enriquecer mi curiosidad!