Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder en la industria. Más información
Una nueva arquitectura de crimson neuronal desarrollada por investigadores de Google podría resolver uno de los grandes desafíos de los grandes modelos de lenguaje (LLM): ampliar su memoria en el momento de la inferencia sin disparar los costos de la memoria y la computación. Llamado Titanesla arquitectura permite que los modelos encuentren y almacenen durante la inferencia pequeños fragmentos de información que son importantes en secuencias largas.
Titans combina bloques de atención tradicionales de LLM con capas de “memoria neuronal” que permiten a los modelos manejar tareas de memoria a corto y largo plazo de manera eficiente. Según los investigadores, los LLM que utilizan memoria neuronal a largo plazo pueden escalar a millones de tokens y superar tanto a los LLM clásicos como a las alternativas como Mamba, aunque tienen muchos menos parámetros.
Capas de atención y modelos lineales.
La arquitectura de transformador clásica utilizada en los LLM emplea el mecanismo de autoatencion para calcular las relaciones entre tokens. Esta es una técnica eficaz que puede aprender patrones complejos y granulares en secuencias de tokens. Sin embargo, a medida que crece la longitud de la secuencia, los costos de computación y memoria para calcular y almacenar la atención aumentan cuadráticamente.
Las propuestas más recientes implican arquitecturas alternativas que tienen complejidad lineal y pueden escalar sin explotar la memoria y los costos de cálculo. Sin embargo, los investigadores de Google sostienen que los modelos lineales no muestran un rendimiento competitivo en comparación con los transformadores clásicos, ya que comprimen sus datos contextuales y tienden a pasar por alto detalles importantes.
Sugieren que la arquitectura best debería tener diferentes componentes de memoria que puedan coordinarse para utilizar el conocimiento existente, memorizar nuevos hechos y aprender abstracciones de su contexto.
«Sostenemos que en un paradigma de aprendizaje eficaz, comparable al cerebro humano, existen módulos distintos pero interconectados, cada uno de los cuales es responsable de un componente essential para el proceso de aprendizaje», escriben los investigadores.
Memoria neuronal a largo plazo
«La memoria es una confederación de sistemas (por ejemplo, la memoria a corto plazo, la de trabajo y la de largo plazo), cada uno de los cuales cumple una función diferente con diferentes estructuras neuronales y cada uno es capaz de operar de forma independiente», escriben los investigadores.
Para llenar el vacío en los modelos de lenguaje actuales, los investigadores proponen un módulo de «memoria neuronal a largo plazo» que puede aprender nueva información en el momento de la inferencia sin las ineficiencias del mecanismo de atención complete. En lugar de almacenar información durante el entrenamiento, el módulo de memoria neuronal aprende una función que puede memorizar nuevos hechos durante la inferencia y adaptar dinámicamente el proceso de memorización en función de los datos que encuentra. Esto resuelve el problema de generalización que padecen otras arquitecturas de redes neuronales.
Para decidir qué bits de información vale la pena almacenar, el módulo de memoria neuronal utiliza el concepto de «sorpresa». Cuanto más difiere una secuencia de fichas del tipo de información almacenada en las pesas del modelo y en la memoria existente, más sorprendente es y, por tanto, más vale la pena memorizar. Esto permite que el módulo haga un uso eficiente de su memoria limitada y solo almacene datos que agreguen información útil a lo que el modelo ya sabe.
Para manejar secuencias muy largas de datos, el módulo de memoria neuronal tiene un mecanismo de olvido adaptativo que le permite eliminar información que ya no es necesaria, lo que ayuda a gestionar la capacidad limitada de la memoria.
El módulo de memoria puede ser complementario al mecanismo de atención de los modelos de transformadores actuales, que los investigadores describen como “módulos de memoria a corto plazo, que atienden al tamaño de la ventana del contexto precise. Por otro lado, nuestra memoria neuronal, con la capacidad de aprender continuamente de los datos y almacenarlos en sus pesos, puede desempeñar el papel de memoria a largo plazo”.
Arquitectura titán

Los investigadores describen a los Titanes como una familia de modelos que incorporan bloques transformadores existentes con módulos de memoria neuronal. El modelo tiene tres componentes clave: el módulo “núcleo”, que actúa como memoria a corto plazo y utiliza el mecanismo de atención clásico para atender al segmento precise de los tokens de entrada que el modelo está procesando; un módulo de “memoria a largo plazo”, que utiliza la arquitectura de la memoria neuronal para almacenar información más allá del contexto precise; y un módulo de “memoria persistente”, los parámetros que se pueden aprender y que permanecen fijos después del entrenamiento y almacenan conocimientos independientes del tiempo.
Los investigadores proponen diferentes formas de conectar los tres componentes. Pero, en normal, la principal ventaja de esta arquitectura es que permite que los módulos de atención y memoria se complementen entre sí. Por ejemplo, las capas de atención pueden utilizar el contexto histórico y precise para determinar qué partes de la ventana del contexto precise deben almacenarse en la memoria a largo plazo. Mientras tanto, la memoria a largo plazo proporciona conocimientos históricos que no están presentes en el contexto de atención precise.
Los investigadores realizaron pruebas a pequeña escala en modelos de Titán, con entre 170 y 760 millones de parámetros, en una amplia gama de tareas, incluido el modelado del lenguaje y tareas de lenguaje de secuencia larga. Compararon el rendimiento de Titans con varios modelos basados en transformadores, modelos lineales como Tipo de serpiente venenosa y modelos híbridos como por ejemplo Samba.

Titans demostró un sólido desempeño en el modelado de lenguaje en comparación con otros modelos y superó tanto a los transformadores como a los modelos lineales con tamaños similares.
La diferencia de rendimiento es especialmente pronunciada en tareas de secuencias largas, como “aguja en un pajar”, donde el modelo debe recuperar bits de información de una secuencia muy larga, y BABILargodonde el modelo debe razonar a través de hechos distribuidos en documentos muy extensos. De hecho, en estas tareas, Titan superó a los modelos con órdenes de magnitud más parámetros, incluidos GPT-4 y GPT-4o-miniy un modelo Llama-3 mejorado con generación aumentada de recuperación (RAG).
Además, los investigadores pudieron ampliar la ventana de contexto de Titans hasta 2 millones de tokens manteniendo los costos de memoria en un nivel modesto.
Los modelos aún deben probarse en tamaños más grandes, pero los resultados del artículo muestran que los investigadores aún no han alcanzado el techo del potencial de los titanes.
¿Qué significa para las aplicaciones empresariales?
Con Google siendo a la vanguardia de los modelos de contexto largopodemos esperar que esta técnica llegue a modelos privados y abiertos como Géminis y Gemma.
Dado que los LLM admiten ventanas de contexto más largas, existe un potencial creciente para crear aplicaciones en las que se pueden incluir nuevos conocimientos en el mensaje en lugar de utilizar técnicas como RAG. El ciclo de desarrollo para desarrollar e iterar aplicaciones basadas en avisos es mucho más rápido que el de las complejas canalizaciones RAG. Mientras tanto, arquitecturas como Titans pueden ayudar a reducir los costos de inferencia para secuencias muy largas, lo que permite a las empresas implementar aplicaciones LLM para más casos de uso.
Google planea lanzar el código PyTorch y JAX para entrenar y evaluar modelos de Titans.