[ad_1]
El tamaño del modelo, el tamaño del conjunto de datos y la computación dependen de la disponibilidad de la infraestructura de IA necesaria.
En enero de 2020, un equipo de investigadores de OpenAI dirigido por Jared Kaplan, quien luego cofundó Anthropic, publicó un artículo titulado «Leyes de escala para modelos de lenguaje neuronal.” Los investigadores observaron «escalas precisas de la ley de potencias para el rendimiento en función del tiempo de entrenamiento, la duración del contexto, el tamaño del conjunto de datos, el tamaño del modelo y el presupuesto de cómputo». Básicamente, el rendimiento de un modelo de IA mejora en función del aumento de la escala en el tamaño del modelo, el tamaño del conjunto de datos y la potencia informática. Si bien la trayectoria comercial de la IA ha cambiado materialmente desde 2020, las leyes de escala siguen siendo firmes; y esto tiene implicaciones materiales para la infraestructura de IA que subyace al entrenamiento y la inferencia del modelo del que dependen cada vez más los usuarios.
Antes de continuar, analizaremos las leyes de escala:
- El escalado del tamaño del modelo muestra que aumentar la cantidad de parámetros en un modelo generalmente mejora su capacidad para aprender y generalizar, suponiendo que esté entrenado con una cantidad suficiente de datos. Las mejoras pueden estancarse si el tamaño del conjunto de datos y los recursos informáticos no se escalan proporcionalmente.
- El escalado del tamaño del conjunto de datos relaciona el rendimiento del modelo con la cantidad y calidad de los datos utilizados para el entrenamiento. La importancia del tamaño del conjunto de datos puede disminuir si el tamaño del modelo y los recursos informáticos no se escalan proporcionalmente.
- El escalado de la computación básicamente significa que más computación (GPU, servidores, redes, memoria, energía, and so on.) equivale a un mejor rendimiento del modelo porque el entrenamiento puede durar más tiempo, hablando directamente con la infraestructura de IA necesaria.
En resumen, un modelo grande necesita un gran conjunto de datos para funcionar de forma eficaz. La capacitación en un gran conjunto de datos requiere una inversión significativa en recursos informáticos. Escalar una de estas variables sin las demás puede generar ineficiencias en los procesos y resultados. Es importante tener en cuenta aquí la hipótesis de escala de Chinchilla, desarrollada por investigadores de DeepMind y conmemorada en el artículo de 2022 «Entrenamiento de modelos de lenguaje grande con cálculo óptimo”, que cube que escalar el conjunto de datos y la computación juntos puede ser más efectivo que construir un modelo más grande.
«Creo firmemente en las leyes de escala», dijo el director ejecutivo de Microsoft, Satya Nadella, en un entrevista reciente con Brad Gerstner y Invoice Gurley. Dijo que la compañía se dio cuenta en 2017 de que “no apueste contra las leyes de escala, sino que se base en los exponenciales de las leyes de escala que se vuelven más difíciles. A medida que los clústeres (de computación de IA) se vuelven más difíciles, el problema de la computación distribuida que implica realizar capacitación a gran escala se vuelve más difícil”. Al analizar el gasto de capital a largo plazo asociado con el despliegue de la infraestructura de IA, Nadella dijo: “Creo que aquí es donde ser un hiperescalador es estructuralmente muy útil. En cierto sentido, hemos estado practicando esto durante mucho tiempo”. Dijo que los costos de construcción se normalizarán, «entonces seguirás creciendo como ha crecido la nube».
Nadella explicó en la entrevista que sus limitaciones de escala actuales ya no estaban relacionadas con el acceso a las GPU utilizadas para entrenar modelos de IA, sino más bien con la potencia necesaria para ejecutar la infraestructura de IA utilizada para el entrenamiento.
El inversor en centros de datos Obinna Isiadinso de IFC tuvo una buena análisis de esto en una publicación de LinkedIn titulado “Panorama de los centros de datos de 2025: por qué la estrategia de ubicación ahora comienza con la disponibilidad de energía”. En cuanto al mercado norteamericano, contabilizó 2.700 centros de datos y esperaba un consumo de energía de 139 mil millones de kilovatios-hora anualmente a partir de este año. «La disponibilidad de energía sigue siendo el principal issue que influye en la selección del sitio en América del Norte», escribió Isiadinso. «La actividad de desarrollo se está expandiendo más allá de los centros tradicionales hacia nuevos territorios, particularmente en el centro de Estados Unidos, donde los recursos de energía eólica son abundantes». Entonces poder.
Y dos leyes más de escalado de IA
Más allá de las tres leyes de escalamiento de la IA descritas anteriormente, el CEO de NVIDIA, Jensen Huang, hablando durante una sesión magistral en el Client Electronics Present a principios de este mes, descartó dos más que “ahora han surgido”. Esas son la ley de escalamiento posterior al entrenamiento y la escala de tiempo de prueba.
Uno a la vez: el escalado posterior al entrenamiento se refiere a una serie de técnicas utilizadas para mejorar los resultados del modelo de IA y hacer que los sistemas sean más eficientes. Algunas de las técnicas relevantes incluyen:
- Ajuste un modelo agregando datos específicos del dominio, lo que scale back de manera efectiva la computación y los datos necesarios en comparación con la creación de un nuevo modelo.
- La cuantificación scale back los pesos de precisión del modelo para hacerlo más pequeño y más rápido, manteniendo al mismo tiempo un rendimiento aceptable y reduciendo la memoria y la computación.
- La poda elimina parámetros innecesarios en un modelo entrenado, haciéndolo más eficiente sin disminuir el rendimiento.
- Básicamente, la destilación comprime el conocimiento de un modelo grande a un modelo pequeño conservando la mayoría de las capacidades.
- El aprendizaje por transferencia reutiliza un modelo previamente entrenado para tareas relacionadas, lo que significa que las nuevas tareas requieren menos datos y computación.
Huang comparó la ampliación posterior al entrenamiento con “tener un mentor o un entrenador que te dé retroalimentación una vez que hayas terminado de ir a la escuela”. Y entonces obtienes pruebas, recibes retroalimentación y te mejoras”. Dicho esto, «el posentrenamiento requiere una enorme cantidad de cálculos, pero el resultado remaining produce modelos increíbles».
La segunda (o quinta) ley de escalamiento de la IA es el escalamiento en el momento de la prueba, que se refiere a técnicas aplicadas después del entrenamiento y durante la inferencia destinadas a mejorar el rendimiento e impulsar la eficiencia sin volver a entrenar el modelo. Algunos de los conceptos centrales aquí son:
- Ajuste dinámico del modelo basado en las restricciones de entrada o del sistema para equilibrar la precisión y la eficiencia sobre la marcha.
- El conjunto en inferencia combina predicciones de múltiples modelos o versiones del modelo para mejorar la precisión.
- El escalado específico de entrada ajusta el comportamiento del modelo en función de las entradas en el momento de la prueba para reducir el cálculo innecesario y, al mismo tiempo, conservar la adaptabilidad cuando se necesita más cálculo.
- La cuantificación en la inferencia scale back la precisión para acelerar el procesamiento.
- La adaptación activa del tiempo de prueba permite el ajuste del modelo en respuesta a las entradas de datos.
- El procesamiento por lotes eficiente agrupa las entradas para maximizar el rendimiento y minimizar la sobrecarga de cálculo.
Como lo expresó Huang, la escala en el tiempo de prueba es: “Cuando se utiliza la IA, la IA ahora tiene la capacidad de aplicar una asignación de recursos diferente. En lugar de mejorar sus parámetros, ahora se centra en decidir cuánto cálculo utilizar para producir las respuestas que quiere producir”.
Independientemente, dijo, ya sea después del entrenamiento o en el momento de la prueba, «la cantidad de computación que necesitamos, por supuesto, es increíble… La inteligencia, por supuesto, es el activo más valioso que tenemos, y se puede aplicar». para resolver muchos problemas muy desafiantes. Y así, (las) leyes de escalamiento… (están) impulsando una enorme demanda de computación NVIDIA”.
La evolución de las leyes de escalamiento de la IA (desde el trío elementary identificado por OpenAI hasta los conceptos más matizados de escalamiento posterior al entrenamiento y en el momento de las pruebas defendidos por NVIDIA) subraya la complejidad y el dinamismo de la IA moderna. Estas leyes no sólo guían a los investigadores y profesionales en la construcción de mejores modelos, sino que también impulsan el diseño de la infraestructura de IA necesaria para sostener el crecimiento de la IA.
Las implicaciones son claras: a medida que los sistemas de IA escalan, también debe hacerlo la infraestructura de IA que los respalda. Desde la disponibilidad de recursos informáticos y potencia hasta los avances en las técnicas de optimización, el futuro de la IA dependerá de equilibrar la innovación con la sostenibilidad. Como señaló acertadamente Huang, “la inteligencia es el activo más valioso” y las leyes de escalamiento seguirán siendo la hoja de ruta para aprovecharla de manera eficiente. La cuestión no es sólo qué tan grandes podemos construir modelos, sino con qué inteligencia podemos implementarlos y adaptarlos para resolver los desafíos más apremiantes del mundo.
[ad_2]