The Independent Sentinel #34
El fin de los RPAs, generación de imágenes para todos y una bicicleta para dos
¡Hola!
Soy Javier Fuentes, de Akoios. Te doy la bienvenida a esta nueva edición de The Independent Sentinel, la newsletter sobre Inteligencia Artificial y Ciencia de Datos en la que hablamos del presente y el futuro de estas disciplinas sin perder de vista el pasado.
Si quieres suscribirte y recibir por email cada publicación, puedes hacerlo fácilmente aquí:
Hoy hablamos de automatización de procesos, de generación de imágenes y de una canción con mucha historia.
¡Arrancamos! 🚲
🎼 Quieres banda sonora? ¡Dale al Play!
1. Tendencias 📊
🦾 El fin de los RPAs (Tal y cómo los conocemos)
Como seguramente conocerás, la automatización robótica de procesos, RPA (Robotic Process Automation), es una disciplina que ha ido ganando visibilidad en los últimos años.
Los RPAs no son más que un modo de replicar las acciones de un humano interactuando con un sistema informático.
Imagina por ejemplo, un software capaz de revisar de manera sistemática el precio de un vuelo en la página de una aerolínea repitiendo automáticamente el procedimiento que un humano haría:
Entrar a la página de la aerolínea
Introducir las opciones de vuelo (fechas, número de personas, clase…)
Identificar el precio deseado
Estas técnicas se han venido utilizando de manera generalizada en por, ejemplo, los web scrapers que recopilan información publicada en Internet y, a día de hoy, se utilizan también en entornos corporativos para automatizar tareas tediosas y repetitivas para los humanos.
Entre posibles casos de uso, además del ya mencionado web scraping, tenemos por ejemplo:
Generación de informes
Procesamiento de pedidos
Transferencia de datos entre sistemas
Tradicionalmente, se han usado herramientas específicas para programar las “actuaciones” de estos autómatas como UiPath, Automation Anywhere o Trubot. Estas herramientas, aunque en sus sucesivas versiones han ido simplificando su uso, suelen requerir cierto nivel de expertise técnico por parte del usuario (HTML, selectores CSS, JavaScript…) para su uso.
Hace apenas unas semanas, la compañía Adept, especializada en Inteligencia Artificial, lanzó un nuevo modelo llamado Action Transformer ACT-1 que automatiza la creación de un RPA mediante únicamente lenguaje natural. Nada mejor que ver un ejemplo que ilustra perfectamente las capacidades de este modelo:
No solo es perfectamente funcional en entornos web, sino que también puede operar, por ejemplo, sobre una hoja Excel. ¿Quién no ha deseado alguna vez poder automatizar una tarea aburrida mientras mientras trabaja con una hoja de cálculo?
Puedes encontrar más información y unirte a la lista de espera aquí.
👨🏼🏫 La democratización de la generación de imágenes
Todavía nos estábamos recuperando del shock de Dall-e 2 (que por cierto ya es de acceso libre) cuando apareció Stable Diffusion para rompernos todos los esquemas en lo que a generación de imágenes se refiere.
Apenas han pasado unos meses desde el lanzamiento de Stable Diffusion por parte de Stability.ai, y ya tenemos iniciativas para llevar este modelo al público masivo de manera sencilla y rápida.
Me refiero en concreto a DifussionBee, una herramienta para Mac que permite ejecutar de manera muy sencilla Stable Diffusion en computadoras equipadas con los chips de última generación M1 y M2.
Lo bueno de DiffusionBee es que viene con un instalable que permite usar y disfrutar StableDiffusion a través de una sencilla interfaz:
Lo más interesante es que usando DiffusionBee no hace falta tener ningún conocimiento técnico para empezar a usar StableDiffusion.
Si tienes un Mac con procesadores M1/M2, puedes descargarlo directamente aquí.
2. Historias 📔
🗞 Una celebrity victoriana
Daisy Greville, condesa de Warwick, era toda una celebridad en los estertores de la época Victoriana en el Reino Unido.
Además de ser parte de la alta sociedad, la señora Greville hacía una amplia labor filantrópica ayudando a los más desfavorecidos a mejorar sus condiciones en el incipiente Estado del bienestar británico.
Tan es así, que llegó a fundar varias escuelas de jardinería, costura y agricultura tanto en Reading como en Studley. Su fuerte conciencia social le llevó a colaborar con las agrupaciones que acabarían, un par de décadas más tarde, dando lugar a la creación del Partido Laborista en el Reino Unido.
Llegó a ser conocida por el sobrenombre de “The Red Countess” debido a sus inclinaciones políticas y por su por todos conocido gusto por las fiestas excesivas, frívolas y extravagantes en las que gastó su fortuna.
Entre sus excentricidades, Daisy acostumbraba a moverse en bicicleta, algo no muy bien visto en aquella época entre la alta sociedad y menos aún para una mujer.
Por si fuera poco, era igualmente bien sabido que mantuvo por muchos años un romance con el Príncipe de Gales, príncipe con el que compartía afición por las bicicletas y que, finalmente, se acabaría convirtiendo en el rey Eduardo VII del Reino Unido.
Pese a todo, Daisy Greville acabaría pasando a la historia por razones distintas a las mencionadas. Su nombre será siempre recordado por una canción.
🎵 Una bicicleta para dos
Harry Dacre, nombre artístico de Frank Dean, era un músico y compositor británico que ganó cierta relevancia en el cambio del siglo XIX al XX.
Tras algunos éxitos antes de cumplir los treinta, Dacre consideró que la actividad artística era demasiado estresante y que estaba afectando a su salud, por lo que decidió poner rumbo a América en 1891 llevando consigo una bicicleta bajo el brazo y una canción en su cabeza: Daisy Bell. Canción que, como ya estarás suponiendo, estaba inspirada en la señorita Greville.
Al llegar, y como era de esperar, tuvo que pagar una tasa en aduanas por la bicicleta que portaba consigo. Un buen amigo, también compositor, le dijo que no estuviese molesto ya que podría haber sido mucho peor. Tendría que haber pagado el doble si hubiese llevado un tándem: Una bicicleta para dos.
La frase inspiró al compositor, que incluyó esta idea en la canción que tenía en mente y la usó para completar el título de la misma.
Dacre convenció a Kate Lawrence, una cantante americana, para interpretar la canción en directo. Tal fue la acogida, que la canción acabó siendo publicada en disco y acabó convirtiéndose en un completo éxito a ambas orillas del Atlántico.
Por si tienes curiosidad, así es como sonaba la canción en un fonógrafo. Si te fijas en la letra, verás que es una historía mil veces repetida, un hombre humilde que no tiene mucho que ofrecer a su amada y que, a falta de un carruaje, se ofrece a llevarla en una bicicleta hecha para dos.
🔔 La primera canción electrónica
Los Laboratorios Bell fueron y siguen siendo una referencia en lo que a innovación tecnológica se refiere. De estos laboratorios salieron invenciones como el transistor, el láser, UNIX, la teoría de la información o los lenguajes de programación C/C++. No en vano, entre sus investigadores se encuentran nueve Premios Nobel, cuatros premios Turing e incluso dos Grammys, un Emmy y un Oscar de Hollywood.
En 1961, dos programadores (John Kelly y Carol Lochbaum) acompañados de otro ingeniero y violinista llamado Max Mathews lograron que la computadora IBM 7094 se convirtiese en el primer ordenador capaz de cantar una canción usando la tecnología vocoder (voice recorder synthesizer) inventada por Kelly. Como no podría ser de otra manera, la canción era esta:
Aunque en retrospectiva parezca trivial, esta demostración sentó las bases del procesamiento electrónico del sonido, dando pie a toda la tecnología de grabación, reproducción y síntesis de sonido que tenemos hoy.
La llegada de la tecnología de la información al mundo del sonido anunciaba la llegada inminente de una nueva revolución industrial. El mundo digital por primera vez se acercaba a la cultura popular, y seguiría haciéndolo hasta cambiarla para siempre.
💤 Dulces sueños Daisy
Tal y como contamos en una de las primeras ediciones de esta newsletter, el escritor Arthur C. Clarke era un invitado habitual en los Laboratorios Bell. Para un escritor de ciencia-ficción estos laboratorios eran sin duda el sitio más idóneo para encontrar la inspiración.
En una de sus visitas, pudo ver la interpretación de IBM 7094 y, obviamente, quedó muy impresionado por la fidelidad con la que una máquina era capaz de reproducir una canción.
Tal fue el impacto que le causó, que Clarke decidió incluir -de manera magistral por cierto- esta canción en su obra más conocida: “2001: Una Odisea en el Espacio”.
En un momento de la película dirigida por Kubrick, HAL 9000 es desconectado y comienza a cantar una canción mientras se va apagando gradualmente, dando lugar a una de las escenas más emocionantes e icónicas del cine de ciencia-ficción. No hace falta que te diga cuál era esta canción:
🗣 Síntesis de voz
De la mano de los avances de la electrónica y las tecnologías de la información, la síntesis de sonido ha progresado de manera espectacular, dando lugar a una disciplina específica en la que no han parado de explorarse multitud de modelos de síntesis de voz desde aquella demostración en los años 60.
Aunque aún quedan muchos retos por resolver en este ámbito, ya hay diversas tecnologías capaces de sintetizar voces extremadamente similares a las de los humanos.
Al igual que la interpretación de Daisy Bell rompió una barrera en los años 60 del siglo XX, parece que nos encontramos de nuevo muy cerca de un cambio disruptivo.
🎙 Susurros
Cuando hablamos de interactuar con máquinas, no solo es importante que se dirijan a nosotros de manera natural (como si fuesen un humano) sino también, que puedan entender lo que decimos con todos los matices, inflexiones y complejidad contextual del lenguaje humano.
En este sentido, OpenAI nos ha vuelto a sorprender con una nueva herramienta Open Source basada en redes neuronales para el reconocimiento de voz.
Tras entrenar la red con cientos de miles de horas de audio transcrito, han sido capaz de realizar un modelo capaz de operar de manera adecuada en los escenarios más complejos para un algoritmo de reconocimiento de habla:
Acentos marcados
Ruido de fondo
Habla extremadamente rápida
Como ya se ha convertido en norma, la arquitectura para este modelo es de nuevo un Transformer con codificador-decodificador, estructura que nos estamos acostumbrado a ver para modelos cada vez más variados.
Si quieres probarlo, puedes ver una demo aquí, basta con que te grabes con un micrófono y Whisper será capaz de generar una transcripción.
Al pensar en la combinación de estos modelos con los modelos de síntesis de voz, es imposible parar de imaginar posibles usos: subtítulos automáticos, traducciones en audio en tiempo real, interfaces para modelos de lenguaje como GPT-3, etc.
Modelos de este tipo son los que pavimentarán el camino hacia una comunicación más eficaz y sencilla no solo entre los humanos, sino también entre máquinas y humanos.
Supongo que, muy pronto, lo complicado no será poder comunicarse o entenderse, sino saber si estamos hablando con otra persona o con una máquina.
¡Gracias como siempre por leer hasta aquí!
¿Te gusta de The Independent Sentinel? ¡Compártelo con amigos y conocidos a los que creas que les pueda gustar!
Si tienes comentarios o quieres iniciar una conversación, recuerda que puedes hacerlo aquí.
Si te has perdido alguna edición de la newsletter o quieres volver a leerlas, puedes acceder a todas aquí.
👉 ¿Quieres conocer nuestra tecnología Titan? No te pierdas nuestra serie de tutoriales publicados en Medium.
👉 Si te interesa, puedes solicitar un acceso gratuito para probar Titan aquí https://lnkd.in/gPz-2mJ