Explora con Torsten Reidt, Ingeniero de IA del Equipo Cactai, el fascinante mundo de la inteligencia artificial en este interesante artículo. Descubre los momentos cruciales que han dado forma al campo de la IA y explora el importante papel que desempeña la IA Generativa en el panorama tecnológico actual. Ya seas un entusiasta de la IA o simplemente sientas curiosidad por la evolución de esta tecnología transformadora, esta visión general completa ofrece valiosas perspectivas sobre el pasado, el presente y el futuro de la IA.
En la era digital actual, es casi imposible escapar del revuelo que rodea a la Inteligencia Artificial (IA). Una búsqueda rápida en Internet arroja millones de nuevas entradas a diario. El desarrollo de esta tecnología avanza a un ritmo vertiginoso. Antes de sumergirme en el estado del arte actual, me gustaría dar un paso atrás y comenzar con una mirada a la historia de la IA.
Hace unos 70 años, para ser exactos en el año 1956, se publicó el artículo de Alan Turing «Computing Machinery and Intelligence». Aunque el término «Inteligencia Artificial» no se mencionaba explícitamente, Turing planteó preguntas y reflexiones interesantes. El término «Inteligencia Artificial» en sí mismo fue acuñado en 1956 en el Dartmouth Summer Research Project.
Desde entonces, ha habido una investigación activa en el campo académico de la Inteligencia Artificial. Sin embargo, la trayectoria no ha sido lineal. A oleadas de entusiasmo (aumento de los fondos de investigación) les siguieron los llamados «inviernos de la IA» (disminución de los fondos de investigación). La lista de logros en el camino es bastante larga, por lo que solo destacaré algunos de los hitos sin restar importancia a otros logros no mencionados.

Ahora que hemos visto que el desarrollo tuvo sus altibajos en los últimos 70 años, ¿qué llevó al actual auge de la IA? ¿Por qué todo el mundo habla hoy en día de esta tecnología? Yo diría que la razón son los avances revolucionarios en un único subdominio de la IA: la IA Generativa.
La IA Generativa se refiere a un tipo de inteligencia artificial que aprovecha algoritmos de aprendizaje automático para generar nuevo contenido, como imágenes o texto. Durante la fase de entrenamiento, estos algoritmos analizan conjuntos de datos masivos identificando patrones, estructuras y características dentro de los datos. Las estructuras aprendidas se utilizan entonces para crear nuevo contenido.
Si bien la posibilidad de generar imágenes con Redes Generativas Antagónicas (GAN) puede haber pasado desapercibida para el público en general, el lanzamiento de chatGPT por OpenAI fue bastante disruptivo. Quizás la capacidad de comprender y responder al lenguaje natural ha humanizado la IA de alguna manera, o quizás fue simplemente la primera vez que el público en general tuvo acceso a un sistema de IA a través de una interfaz de usuario fácil de usar, sea lo que sea, chatGPT sin duda cambió la percepción pública de la IA.
Muchas veces, cuando se menciona la IA hoy en día, la gente piensa principalmente en sistemas que toman texto como entrada (una pregunta) y devuelven texto como salida (la respuesta). Los modelos que impulsan este tipo de aplicaciones se denominan «Grandes Modelos de Lenguaje» (LLM, por sus siglas en inglés). La aplicación descrita anteriormente también se conoce como «chatbot». Otras tareas en las que destacan los LLM son el resumen de texto, la clasificación de texto o el análisis de sentimientos.
La aplicación más interesante y reciente para los LLM es, en mi opinión, los Sistemas de Agentes (Agentic Systems). Un Sistema de Agentes consiste en un solo agente o en varios. Cada agente está impulsado por un LLM que permite al sistema estar orientado a objetivos, tener un cierto nivel de autonomía, ser capaz de razonar y tomar decisiones. Mientras que los LLM están limitados a la entrada/salida de texto, un agente a menudo se integra con herramientas externas, bases de datos o API para extender sus capacidades más allá de la generación de texto. Un esquema de un Sistema de Agentes (agente único) se muestra en la siguiente figura.

Puedes pensar en el LLM en este contexto como el cerebro del agente. El lado derecho de la figura describe cómo debe actuar el LLM. Si el Agente fuera un humano, describirías esto aproximadamente como una «forma de pensar». El lado izquierdo de la figura muestra algunos ejemplos de Herramientas que el Agente puede utilizar. En este punto, es importante recordar que los LLM solo pueden tomar texto como entrada y crear texto como salida. En consecuencia, el LLM crea instrucciones sobre qué Herramienta utilizar con qué argumentos de función. La llamada a la función en sí se realiza mediante programación con un módulo de terceros. Los resultados de la llamada a la función (si los hay) se devuelven entonces al LLM y se procesan más. En cuanto a las propias Herramientas, la imaginación pone los límites. Lo que quiero decir con eso es que puedes implementar cualquier funcionalidad que necesites. Esto puede ser una llamada a una API, una consulta a una base de datos o incluso una interacción con tu Sistema Operativo.
Para dar un ejemplo de dónde se podría utilizar un Sistema de Agentes para automatizar procesos, imaginé una Agencia de Viajes con Agentes. Utilizo un sistema de varios agentes que procesan la tarea de planificar y reservar un viaje de vacaciones de forma secuencial. La siguiente figura muestra cómo podría ser este sistema.

Si bien el ejemplo anterior podría sugerir que la configuración de un Sistema de Agentes es una tarea fácil, quiero destacar que no es necesariamente el caso. Para un Sistema de Agentes fiable en un entorno de producción, uno tendrá que lidiar con la naturaleza no determinista de los LLM, los cambios en las indicaciones de entrada o incluso los cambios en las versiones de los LLM, por nombrar algunos desafíos.
Como mencioné anteriormente, los sistemas basados en lenguaje natural suelen venir a la mente cuando se habla de IA. Sin embargo, hay muchas otras áreas interesantes dentro de la Inteligencia Artificial, como el Reconocimiento de Voz, la Generación de Música o la Visión por Computadora. Para esta última, me gustaría destacar el subdominio de la Detección de Objetos.
Aunque existe desde hace algún tiempo, la Detección de Objetos ha ganado importancia debido a su aplicación en industrias como la imagen médica, los sistemas de vigilancia o los coches autónomos. Las tareas principales involucradas en la Detección de Objetos son localizar y clasificar objetos en imágenes o video. Las siguientes imágenes ilustran resultados típicos de la Detección de Objetos donde dos objetos han sido localizados (marcados con un cuadro delimitador) y clasificados (etiquetados con texto) en una sola imagen. Cuando se aplica a videos, la Detección de Objetos permite el seguimiento de objetos de un fotograma al siguiente.


Si quieres aplicar la Detección de Objetos, normalmente no necesitas empezar desde cero, ya que hay modelos pre-entrenados de código abierto disponibles como YOLO (You Only Look Once), Faster R-CNN o RetinaNet, siendo YOLO posiblemente el más popular.
Ambos sistemas destacados, los Sistemas de Agentes que utilizan Grandes Modelos de Lenguaje y la Detección de Objetos que utiliza YOLO, son solo dos ejemplos introductorios de aplicaciones de IA. Muchos más sistemas de IA ya están influyendo en nuestra vida cotidiana. Piensa simplemente en NETFLIX recomendándote tu próxima película, el filtro de SPAM en tu cuenta de correo electrónico o Google adaptando los anuncios a tus preferencias. Estas impresionantes capacidades, aunque especializadas, podrían llevarnos, después de un rato de reflexión, a la pregunta inicial de esta entrada del blog:
¿Se están rebelando las máquinas?
Yo diría que no lo están haciendo, al menos no todavía. Los sistemas de IA actuales están diseñados y entrenados para funcionar bien en tareas muy específicas, como la generación de texto o la Detección de Objetos en imágenes. Esta especialización limita su versatilidad en otros dominios. Para superar esta situación, hay un desarrollo significativo en la combinación de capacidades individuales en modelos de Inteligencia Artificial Multimodal. Esta nueva clase de modelos puede procesar diferentes tipos de entrada, como imágenes, video o texto. Algunos ejemplos son GPT-4o de OpenAI (combina cualquier combinación de texto, imágenes o habla como entrada), moshi de kytai (combina entrada de texto y habla), y LLaVA (combina entrada de imagen y texto).
Muchos consideran que el desarrollo de la Inteligencia Artificial Multimodal es un paso crucial hacia la consecución de la Inteligencia General Artificial (AGI), cuyo objetivo es igualar o incluso superar las capacidades humanas en una amplia gama de tareas cognitivas.
A pesar de estos avances, todos los modelos existentes actualmente, incluidos los modelos multimodales, aún se quedan cortos en varias áreas clave, entre ellas:
- Razonamiento y resolución de problemas similares a los humanos
- Generalización entre dominios
- Capacidad para adaptarse a nuevas situaciones
- Aprendizaje y comprensión en tiempo real
- Comprensión del contexto
- Conciencia y autoconciencia
- Creatividad e Innovación
Solo abordando estos desafíos podríamos presenciar un sistema artificial que se acerque a la inteligencia humana. Es probable que los investigadores y las grandes empresas tecnológicas como Microsoft, Google, Meta, OpenAI o Amazon sigan este camino. Incluso si no lo consiguen, habrá muchos nuevos hitos que destacar en futuras entradas del blog.
¿Qué sigue?
Aunque las máquinas aún no se están rebelando, el desarrollo de la IA avanza a un ritmo rápido. Los Sistemas de Agentes en combinación con modelos multimodales están creando oportunidades para optimizar procesos, automatizar tareas y generar nuevas oportunidades de negocio. En Cactus, estamos explorando todas estas posibilidades teniendo en cuenta cuestiones críticas como la privacidad de los datos, la ética y los posibles sesgos. A medida que avanzamos, continuaremos monitoreando estos desarrollos y compartiremos nuevos hitos en futuras publicaciones del blog.