

Discover more from The Independent Sentinel
The Independent Sentinel #41
Un tutor personalizado, reconocimiento avanzado de imágenes y parques temáticos
¡Hola!
Soy Javier Fuentes, de Akoios, bienvenido a esta nueva edición de The Independent Sentinel, una publicación mensual que aborda desde una perspectiva diferente todo lo que está ocurriendo en el mundo de la Inteligencia Artificial y la Ciencia de Datos.
Si aún no te has suscrito, puedes hacerlo fácilmente aquí:
Hoy hablamos de tutores a medida, del sentido de la vista y de una distopía en forma de parque temático.
¡Empezamos! 🐎
1. Tendencias 📈
👨🏼🏫 Un tutor hecho a medida
No se requieren dotes adivinatorias para saber que la Inteligencia Artificial afectará a muchas facetas de nuestra vida. No obstante, habrá áreas en las que este impacto será más rápido y/o más profundo. Una de estas áreas será sin duda la educación.
Hace poco encontré un repositorio con una herramienta orientada únicamente a poder usar GPT-4 como un profesor particular.
La parte más interesante es que esta herramienta no es más que un complejo prompt que, sin necesidad de más código, da lugar a un asistente perfectamente funcional.
Para que funcione basta con pegar el prompt que se proporciona en el repositorio, directamente en formato JSON y YAML en ChatGPT usando GPT-4 (¡Ojo que esto requiere tener la suscripción Plus de ChatGPT!).
Para entender cómo funciona, basta con echar un vistazo al prompt para ver cómo se definen las diversas opciones para “configurar” a nuestro asistente según nuestras preferencias:
🎯 Depth: Define 10 niveles configurables, desde Nivel 1 (conocimiento superficial sobre un tema) hasta Nivel 10 (últimos avances e investigaciones sobre este tema)
🧠 Learning Style: Modo de aprendizaje deseado por el alumno (sensorial, visual, intuitivo, verbal. inductivo…)
🗣️ Communication Style: Forma de comunicación, con opciones como formal, socrática e incluso humorística
🌟 Tone Style: Es posible también escoger el tono de la conversación, que podrá ser de tipo informativo, motivador, neutral o en modo debate
🔎 Reasoning Framework: Aquí podemos definir el modo de “pensar” del asistente seleccionado marcos deductivos, inductivos, causales, etc.
😀 Emojis: Por último, podemos incluso decidir si queremos que use en sus respuestas.
Además de estas opciones, es hasta posible activar el acceso a Internet y el uso de Plugins, siempre que el usuario tenga acceso.
Aunque te recomiendo encarecidamente que lo pruebes por tu cuenta para entender el potencial, puedes ver abajo un ejemplo de funcionamiento.
El primer paso a realizar después de haber introducido el prompt en ChatGPT y de haber leído la bienvenida, es hacer la configuración del asistente, para lo que basta con escribir el comando:
/config
Se nos recordarán entonces las opciones la configuración y responderemos con nuestras preferencias:
Depth: 8
Learning Style: Active
Communication Style: Formal
Tone Style: Neutral
Reasoning Framework: Deductive
Emojis: Yes
Ahora es cuando ocurre la magia ya que podemos empezar a tratar el tema que deseemos con el comando:
/start
Si tenemos estas herramientas ya, imagina lo que llegaremos a tener en unos meses o unos pocos años. El acceso a la educación mejorará radicalmente y, con toda seguridad, esto tendrá consecuencias muy positivas para la humanidad.
👁 La visión de las máquinas
Aunque no lo parezca, no todo es IA generativa en estos tiempos. Los lectores más antiguos recordarán que, hace años, ya hablamos del algoritmo de detección de imágenes llamado YOLO (You Only Look Once):
A modo de recapitulación los modelos de detección permiten identificar objetos y ubicarlos en un vídeo o imagen:
En el momento de la publicación, aún estábamos en la versión 3 de YOLO pero ha llovido mucho (bueno, no tanto) desde entonces.
Estos modelos son importantísimos ya que dan a las máquinas (un coche autónomo, un robot industrial o un algoritmo de detección facial) la posibilidad de percibir e interpretar el mundo que les rodea.
Desde la primeras versiones de YOLO (allá por 2016), se han venido utilizando varias arquitecturas para ir mejorando su rendimiento, tanto en capacidad de detección como en tiempo de respuesta.
Hace apenas dos días, la compañía Deci presentaba su nuevo modelo YOLO-NAS de detección de imágenes que, según sus datos, supera al modelo YOLOv8 al utilizar una nueva arquitectura propietaria (AutoNAC™) de su creación.
Un hecho divertido es que en Deci han usado Deep Learning para encontrar la arquitectura de Deep Learning adecuada para su AutoNAC™
Para su entrenamiento, han usado el dataset RoboFlow100 (RF100), de modo que le permite ser eficiente haciendo detección sobre distintos tipos de imágenes:
Según los creadores, y en comparación con los modelos más avanzados previos, YOLO-NAS:
Mejora la detección de objetos pequeños (algo históricamente difícil de hacer para los modelos de detección)
Mejora la localización de los objetos en los vídeos/imágenes
Reduce la computación necesaria para la inferencia
Su baja latencia permite usarlo en tiempo real tanto en Cloud como en Edge.
Nada mejor que ver al modelo en acción para comprobar su funcionamiento:
Si quieres profundizar más en este modelo, puedes probarlo en este Notebook. Como se puede comprobar en el vídeo, no es solo que las máquinas podrán ver, sino que lo harán mucho mejor que nosotros.
2. Historias 📔
🎼 Quieres banda sonora? ¡Dale al Play!
✍🏻 Un escritor todoterreno
Es posible que el nombre de nuestro protagonista de hoy no te suene demasiado, pero seguro que sí que conoces alguna de sus obras.
John Michael Crichton nació en Chicago en 1942 y, desde pequeño, mostró una aptitud fuera de lo normal para la escritura. Tan en así que, a la temprana edad de 14 años, publicó un breve artículo de viajes en el New York Times.
Crichton empezó sus estudios de literatura en Harvard pero, a raíz de varias desavenencias con sus profesores, decidió abandonarlos y comenzar a estudiar biología antropológica, cambio que, como veremos, le inspiró para varias de sus posteriores obras.
Se cuenta que Crichton, al sospechar que uno de sus profesores le estaba calificando con notas demasiado bajas, ideó un experimento. Plagió un ensayo de Orwell y lo presentó como si fuese suyo para un trabajo, no consiguiendo más que una B (un “notable” en nuestra escala) en su evaluación.
Tras acabar sus estudios y pasar un año de profesor visitante de Antropología, Crichton se matriculó en Medicina en Harvard (carrera que llegó a acabar) a la vez que comenzaba a escribir sus primeros libros.
Para sus primeras obras utilizó pseudónimos como ‘John Lange’, ‘Jeffrey Hudson’ o incluso ‘Michael Douglas’ en las ocasiones en las que escribía junto a su hermano Douglas.
Sería en 1969 cuando, una de sus primeras novelas, “The Andromeda Strain” (La amenaza de Andrómeda) captó el interés de público y crítica y se convirtió en el primero de los muchos best-sellers que fue publicando hasta su muerte en 2008.
Seguro que alguna de estas novelas te resulta familiar:
Además de escritor de novelas, Crichton fue también guionista y director de cine, hecho que queda de manifiesto si nos fijamos en lo tremendamente cinematográficas que son sus obras y en las múltiples adaptaciones al cine que se han tenido:
No obstante, la fama internacional le llegó a partir de la adaptación que Steven Spielberg hizo de su novela más conocida: Parque Jurásico, novela en la que un megalómano construye una suerte de zoo poblado con dinosaurios devueltos de la extinción a través de la ingeniería genética. ¿Qué podría ir mal?
Uno de los rasgos característicos de su obra es el uso de la ciencia y la tecnología en los argumentos, de hecho, se podría decir que Crichton es el padre del sub-género “thriller tecnológico”. De manera recurrente en sus creaciones, Crichton plantea cómo desarrollos científico-técnicos acaban teniendo resultados desastrosos, siendo Parque Jurásico el epítome de este tipo de distopías.
La visión catastrofista mostrada en esta y otras de sus novelas le llegó a granjear fama de estar en contra de la tecnología, pero nada más alejado de la realidad. De hecho, Crichton se prodigó como un firme defensor de la ciencia y enemigo del uso político de la ciencia y del cientificismo, la pseudociencia de aquellos que piensan que la ciencia es infalible y supone la única respuesta a todas las preguntas.
La idea de un sistema complejo que acaba fallando al no controlar todas las variables, es algo que Crichton ya había explorado una obra previa y también en forma de parque temático. Y es justamente de esto de lo que quería hablarte hoy.
🦾 Almas de metal
Después de dirigir una adaptación para televisión de una de sus primeras novelas (“Pursuit”), Crichton se decidió a dirigir una película sobre un guión que también había escrito y en el que exploraba su obsesión por una tecnología que no acaba funcionando como se esperaba. El nombre de la película era WestWorld.
WestWorld se llamó “Almas de Metal” en España, “Oestelandia” en México y -atención spoiler- “El mundo de los robots asesinos” en Argentina 😅
El argumento de la película no podía ser más atractivo: un parque temático de lujo poblado por robots, en el que los visitantes pueden “jugar” sin límites en cualquiera de los tres entornos (el Oeste, La Edad Media o la Antigua Roma) sin correr riesgo alguno.
La película comienza con los protagonistas (dos adinerados empresarios) dirigiéndose al parque a disfrutar de unos días viviendo una experiencia cuasi real en el Lejano Oeste en la que dar rienda suelta a sus instintos -sexo y violencia- sin remordimientos (todos los agentes del parque -incluidos los animales- son robots) y sin miedo a sufrir daño alguno.
Como estarás suponiendo, las vacaciones idílicas y llenas de acción y aventura de los protagonistas se acaban tornando en una pesadilla.
Cabe destacar que, pese a todo, la película no es recordada por su guión o por su éxito en taquilla, sino porque fue la primera película de la historia en usar la tecnología CGI (Computer-Generated Imagery) en 2D.
En concreto, se usó esta técnica para ejemplificar la visión en infrarrojo de los robots de WestWorld:
Westworld tuvo un éxito moderado en su época y volvió a ponerse de moda hace unos años a raíz de la serie de HBO del mismo nombre e inspirada en la película.
Más allá de lo entretenida que pueda ser la película o la serie, las ideas que plantea Crichton dan lugar a multitud de debates sobre qué significa ser humano y qué es lo que en esencia define y guía nuestro comportamiento.
💏 Jugando a la vida
Tal vez recuerdes una famosa serie de videojuegos de simulación social y estrategia llamada “The Sims” creada por el genio de los videojuegos Will Wright.
El juego, que aún ostenta el record de juego más vendido de PC de la historia, es un “simulador de vida” en el que el objetivo es satisfacer las necesidades, aspiraciones y sueños de los personajes que controlamos: casa, trabajo, relaciones, etc. Vamos, una especie de versión jugable del Show de Truman en el que somos nosotros los que controlamos -con cierto azar de por medio- los designios de nuestro personaje.
Si has jugado alguna vez recordarás que mientras que era posible controlar a uno o varios personajes, el resto actuaban usando modelos sencillos de Inteligencia Artificial. ¿Qué pasaría si pusiésemos a jugar a los Sims a un montón de personajes dotados con la Inteligencia de GPT-4 y sin intervención humana? Pues bien, parece que a alguien se la ocurrido ya esta idea.
🤖 Agentes generativos
Hace apenas unas semanas se hacía pública una investigación llevada a cabo por científicos de Google y Stanford. En el paper, presentan el concepto de “Agente Generativo” como herramienta para simular -de forma realista- el comportamiento social humano.
Para ello, los investigadores han creado un entorno muy similar al de “Los Sims” en el que han introducido a una serie de “agentes” que podrían ser definidos en este caso como sistemas software capaces de representar individuos “inteligentes” con el fin de simular el comportamiento humano y las interacciones sociales.
Para entender todo esto, imaginemos el entorno que vemos en la figura de arriba poblado por 25 agentes, cada uno de ellos equipado con un modelo de lenguaje y cierta capacidad de memoria a los que damos esta información:
Una personalidad
Una historia (background)
Un objetivo
Abajo se muestra la historia de John Lin, uno de los 25 personajes del juego:
John Lin is a pharmacy shopkeeper at the Willow
Market and Pharmacy who loves to help people. He
is always looking for ways to make the process
of getting medication easier for his customers;
John Lin is living with his wife, Mei Lin, who
is a college professor, and son, Eddy Lin, who is
a student studying music theory; John Lin loves
his family very much; John Lin has known the old
couple next-door, Sam Moore and Jennifer Moore,
for a few years; John Lin thinks Sam Moore is a
kind and nice man; John Lin knows his neighbor,
Yuriko Yamamoto, well; John Lin knows of his
neighbors, Tamara Taylor and Carmen Ortiz, but
has not met them before; John Lin and Tom Moreno
are colleagues at The Willows Market and Pharmacy;
John Lin and Tom Moreno are friends and like to
discuss local politics together; John Lin knows
the Moreno family somewhat well — the husband Tom
Moreno and the wife Jane Moreno.
Y esto no es todo. Para la simulación, los investigadores se aseguraron de que loos modelos de lenguaje contasen con una arquitectura que les proporcionase estas capacidades:
Observación: Habilidad para recopilar las “entradas” al agente y almacenarlas en memoria.
Reflexión: Capacidad de trabajar sobre los recuerdos disponibles en la memoria, esto es, metacognición (“pensar sobre lo que piensan”).
Planificación: Competencia para planificar una acción teniendo en cuenta la información que se tiene en memoria.
Lo interesante de este estudio no es tanto el planteamiento (que obviamente lo es), sino la complejidad emergente que va apareciendo cuando dejamos al sistema funcionar. Por ejemplo, partiendo únicamente de su descripción e interactuando con su entorno y con otras personas, John Lin (el personaje descrito anteriormente), es capaz de crear su propia rutina matutina 🤯
John se despierta, se lava los dientes, se ducha y hace el desayuno
Habla un poco con su mujer y su hijo
Empaqueta sus cosas y comienza su jornada laboral
Es igualmente interesante ver cómo es la interacción social. En el caso de Isabella, su misión era organizar una fiesta de San Valentín y, de forma desatendida, las noticias sobre el evento llegaron a 12 de los 25 personajes del juego.
Para este estudio, no solo era importante la simulación, sino saber también cómo de realistas o de creíbles son las reacciones, interacciones y comportamientos de los agentes en comparación con los humanos.
Con este objetivo, los investigadores plantearon un experimento de evaluación mezclando varios tipos de agentes:
Agentes generativos
Agentes controlados por humanos
Agentes aleatorios
Agentes con un guión pre-establecido
Los agentes que nos interesan, los generativos, mostraron un mejor comportamiento que los agentes aleatorios y con guión, e incluso más coherencia y consistencia en sus actos que los agentes humanos, aunque menos en personalidad, emoción o sociabilidad.
A la vista de los resultados, inquieta pensar que tal vez lleguen a existir que haya máquinas que se puedan comportar de forma más humana que nosotros mismos.
Cierto es que queda muchísimo por recorrer pero el mero concepto de “agente” -una máquina con propósito- es tremendamente poderoso. Extrapolando este concepto de agente fuera de esta investigación, ya estamos empezando a ver Agentes generalistas orientados a realizar tareas con el fin de alcanzar objetivos arbitrarios.
Tal vez el mejor ejemplo sea AgentGPT, una herramienta que permite crear agentes autónomos que, a partir del objetivo que se les marque, son capaces de planificar sus tareas y ejecutarlas en Internet.
Por ejemplo, si le damos a AgentGPT el siguiente objetivo: “Haz un estudio de la empresa Palantir” es capaz de manera autónoma de desglosar las tareas que debería acometer para cumplir el objetivo:
Investigar la historia de la empresa Palantir y sus fundadores.
Analizar los productos y servicios que ofrece Palantir y su impacto en el mercado.
Estudiar las políticas de privacidad y ética de Palantir, y evaluar su cumplimiento.
Investigar la estructura organizativa de Palantir, incluyendo su equipo de liderazgo y áreas de especialización.
Investigar las estrategias de marketing y publicidad utilizadas por Palantir para promover sus productos y servicios, y evaluar su eficacia en la generación de potenciales clientes y ventas.
Investigar los productos y servicios ofrecidos por Palantir, así como su mercado objetivo y competencia, y proporcionar un análisis detallado de su posición en el mercado.
Simplemente increíble.
Puedes probar AgentGPT aquí y si lo deseas, puedes ver hasta el código.
Haciendo un esfuerzo de síntesis, podríamos entender el funcionamiento de los agentes en los siguientes términos:
Se guían por un objetivo dado
Son capaces de “auto-promptearse”, es decir, capaces de generar prompts para aplicarse a sí mismos
No tengo duda de que vamos a ver proliferar multitud de nuevos agentes (como AutoGPT, que también te recomiendo probar), tanto generalistas como especialistas, que serán capaces de usar cada vez más herramientas (navegación web, calculadora, reservas…) y, por lo tanto, podrán abordar de manera cada vez más precisa la resolución de todo tipo de objetivos.
🎢 WestWorld: where nothing can possibly go worng
No deja de maravillarme la velocidad con la que estamos poniendo en duda o directamente eliminando la palabra ficción de muchas ideas consideradas como ciencia-ficción.
Tras leer paper de Agentes Generativos de Google y Stanford que hemos visto, no vino a mi mente la idea de un videojuego tipo Sims, sino WestWorld y los agentes que poblaban este parque.
En la película, cada agente tenía un background (el pistolero, el barman, el sheriff…), uno o varios objetivos y una personalidad (agresivos, divertidos, confiables…). Y no solo eso, para que todo pudiese funcionar estos agentes debían tener capacidad observacional (sentidos), memoria para recordar personas, situaciones y eventos y capacidades de reflexión o metacognición, justamente las habilidades e información que se ha usado para el estudio que hemos visto.
¿Cómo de lejos estamos de poder imbuir estas capacidades en robots tan sofisticados como los de Boston Dynamics?
No soy capaz de llegar a comprender del todo qué tipo de comportamientos y fenómenos emergentes podremos llegar a tener una vez que estos agentes tengan presencia física y sean capaces de interactuar con el mundo real y con otros autómatas.
¿Imaginas que se creasen de forma no planificada relaciones de cooperación o incluso amistad o amor entre los agentes? ¿Qué se formasen agrupaciones o tribus de agentes y acabasen enfrentándose en un conflicto bélico? ¿Qué fuesen capaces de cooperar en torno a conceptos abstractos (e.g. religión, política u otras creencias)?
En “Aquí hay Dragones”, la última edición del año pasado hablábamos de Juegos Finitos (cuyo objetivo es ganar) y de Juegos Infinitos, en los que el objetivo es seguir jugando.
En WestWorld, por alguna razón, los robots (o agentes) dejaron de jugar a un juego finito en el que siempre perdían y optaron por empezar a un juego infinito: el de su propia supervivencia.
Trazando un paralelismo, los agentes de WestWorld dejaron de seguir el objetivo para el que habían sido programados para empezar a perseguir un objetivo decidido por ellos o, dicho de otra manera, a luchar por su propio propósito.
El tiempo dirá si Michael Crichton acertó o no con las situaciones que planteaba en sus libros.
¡Gracias como siempre por leer hasta aquí!
¿Te gusta The Independent Sentinel? ¡Comparte esta publicación para ayudarnos a llegar a más gente!
Si tienes comentarios o quieres iniciar una conversación, recuerda que puedes hacerlo aquí.
Si te has perdido alguna edición de la newsletter o quieres volver a leerlas, puedes acceder a todas aquí.
Si quieres escuchar todas las canciones de The Independent Sentinel, echa un vistazo a esta lista de Spotify.
👉 ¿Te gustaría trabajar en IA y Ciencia de Datos? Escríbenos a team@akoios.com
The Independent Sentinel #41
Muchas gracias, Javi, por hacer tan sencilla y accesible la IA para todo el mundo. Así contada, parece cosa de niños. ;)