6 C
Madrid
miércoles, febrero 26, 2025

Dentro de la nueva caja de IA de escritorio de Nvidia, ‘Challenge DIGITS’


En el evento CES de 2025, Nvidia anunció una nueva computadora de escritorio de $ 3000 desarrollada en colaboración con MediaTek, que funciona con una nueva CPU Grace reducida basada en Arm y un superchip de GPU Blackwell. El nuevo sistema se llama “proyecto DIGITS” (no debe confundirse con Nvidia The Deep Studying GPU Coaching System: DÍGITOS). La plataforma ofrece una serie de nuevas capacidades para los mercados de IA y HPC.

Challenge DIGITS presenta el nuevo superchip Nvidia GB10 Grace Blackwell con 20 núcleos Arm y está diseñado para ofrecer un “petaflop” (con precisión FP4) de rendimiento informático GPU-AI para crear prototipos, ajustar y ejecutar grandes modelos de IA. (Obligatorio explicador de punto flotante puede ser útil aquí.)

Desde el lanzamiento de la línea de tarjetas de video G8x (2006), Nvidia ha hecho un buen trabajo al proporcionar bibliotecas y herramientas CUDA disponibles en toda la línea de GPU. La capacidad de utilizar una tarjeta de video de cliente de bajo costo para el desarrollo de CUDA ha ayudado a crear un ecosistema vibrante de aplicaciones. Debido al costo y la escasez de GPU de alto rendimiento, el proyecto DIGITS debería permitir un mayor desarrollo de software program basado en LLM. Al igual que una GPU de bajo costo, la capacidad de ejecutar, configurar y ajustar modelos de transformadores abiertos (por ejemplo, llama) en una computadora de escritorio debería resultar atractiva para los desarrolladores. Por ejemplo, al ofrecer 128 GB de memoria, el sistema DIGITS ayudará a superar la limitación de 24 GB en muchas tarjetas de video de consumo de menor costo.

Especificaciones escasas

El nuevo GB10 Superchip cuenta con una GPU Nvidia Blackwell con núcleos CUDA de última generación y Tensor Cores de quinta generación, conectados a través de la interconexión de chip a chip NVLink-C2C a una CPU de alto rendimiento comparable a Nvidia Grace, que incluye 20 núcleos Arm de bajo consumo (diez núcleos de CPU Arm Cortex-X925 y diez Cortex-A725. Aunque no había especificaciones disponibles, se supone que el lado GPU del GB10 ofrece menos rendimiento que el Gracia-Blackwell GB200. Para ser claro; El GB10 no está desmontado ni recortado con láser. GB200. El Superchip GB200 tiene 72 núcleos Arm Neoverse V2 combinados con dos GPU B200 Tensor Core.

Figura 2: Sistema DIGITS del proyecto Nvidia en el escritorio con vista ampliada. (Fuente: Nvidia)

La característica definitoria del sistema DIGITS son los 128 GB (LPDDR5x) de memoria unificada y coherente entre CPU y GPU. Este tamaño de memoria rompe la “barrera de la memoria de la GPU” cuando se ejecutan modelos de IA o HPC en GPU; por ejemplo, los precios de mercado actuales para la Nvidia A100 de 80 GB varían entre $ 18 000 y $ 20 000. Con una memoria coherente y unificada, también se eliminan las transferencias PCIe entre CPU y GPU. La representación en la imagen siguiente indica que la cantidad de memoria es fija y el usuario no puede ampliarla. El diagrama también indica que las conexiones de crimson ConnectX (¿Ethernet?), Wifi, Bluetooth y USB están disponibles.

El sistema también proporciona hasta 4 TB de almacenamiento NVMe. En términos de potencia, Nvidia menciona una toma de corriente estándar. No hay requisitos de energía específicos, pero el tamaño y el diseño pueden dar algunas pistas. En primer lugar, al igual que los sistemas Mac mini, el tamaño pequeño (ver Figura 2) indica que la cantidad de calor generado no debe ser tan alta. En segundo lugar, según las imágenes de la sala de exposición de CES, no existen rejillas de ventilación ni recortes. La parte delantera y trasera de la carcasa parecen tener un materials comparable a una esponja que podría proporcionar flujo de aire y servir como filtros para todo el sistema. Dado que el diseño térmico indica potencia y la potencia indica rendimiento, el sistema DIGITS probablemente no sea un grito ajustado para obtener el máximo rendimiento (y el uso de energía), sino más bien un sistema de escritorio de IA fresco, silencioso y competente con una arquitectura de memoria optimizada.

Como se mencionó, el sistema es increíblemente pequeño. La siguiente imagen ofrece una perspectiva de un teclado y un monitor (no se muestran cables. Según nuestra experiencia, algunos de estos pequeño Los sistemas pueden caerse del escritorio debido al peso del cable).

IA en el escritorio

Nvidia informa que los desarrolladores pueden ejecutar grandes modelos de lenguaje con hasta 200 mil millones de parámetros para potenciar la innovación en IA. Además, utilizando la crimson Nvidia ConnectX, se pueden vincular dos supercomputadoras de IA del Proyecto DIGITS para ejecutar modelos de hasta 405 mil millones de parámetros. Con Challenge DIGITS, los usuarios pueden desarrollar y ejecutar inferencias en modelos utilizando sus propio sistema de escritorio y luego implemente sin problemas los modelos en la nube acelerada o en la infraestructura del centro de datos.

El director ejecutivo de Nvidia, Jensen Huang, durante un discurso de apertura en Taipei el 5 de junio de 2024 (jamesonwu1972/Shutterstock)

“La IA será la corriente principal en todas las aplicaciones de todas las industrias. Con Challenge DIGITS, el Superchip Grace Blackwell llega a millones de desarrolladores”, dijo Jensen Huang, fundador y director ejecutivo de Nvidia. «Colocar una supercomputadora de IA en los escritorios de cada científico de datos, investigador de IA y estudiante les permite participar y dar forma a la period de la IA».

Estos sistemas no están destinados a la formación, sino que están diseñados para ejecutar cuantificado LLM localmente (scale back el tamaño de precisión de los pesos del modelo). El número de rendimiento de petaFLOP citado de Nvidia es para pesos de precisión del FP4 (cuatro bits o 16 números posibles)

Muchos modelos pueden funcionar adecuadamente a este nivel.pero la cuantificación se puede aumentar a FP8, FP16 o superior para probablemente mejores resultados dependiendo del tamaño del modelo y de la memoria disponible. Por ejemplo, el uso de pesas de precisión del FP8 para un modelo Llama-3-70B requiere un byte por parámetro o aproximadamente 70 GB de memoria. Reducir a la mitad la precisión a FP4 la reducirá a 35 GB de memoria, pero aumentar a FP32 requerirá 140 GB, que es más de lo que ofrece el sistema DIGITS.

¿Alguien quiere un clúster HPC?

Lo que tal vez no sea ampliamente conocido es que el DIGITS no es el primer sistema Nvidia de escritorio. En 2024, GPTshop.ai presentó un sistema de escritorio basado en GH200. HPCwire proporcionó cobertura que incluían pruebas comparativas de HPC. A diferencia del proyecto DIGITS, los sistemas GPTshop brindan todo el peso del Superchip Grace-Hopper GH200 y del Superchip Grace-Blackwell GB200 en un estuche de escritorio. El mayor rendimiento también conlleva un mayor coste.

Usar los sistemas DIGITS Challenge para HPC de escritorio podría ser un enfoque interesante. Además de ejecutar modelos de IA más grandes, la memoria world CPU-GPU integrada puede resultar muy beneficiosa para las aplicaciones HPC. Considere un reciente Historia de HPCwire sobre la aplicación CFD que se ejecuta únicamente en dos procesadores Intel Xeon 6 Granite Rapids (sin GPU). Según el autor Dr. Moritz Lehmann, el issue que permitió la simulación fue la cantidad de memoria que pudo utilizar para su simulación.

De manera comparablemuchas aplicaciones HPC han tenido que encontrar formas de sortear los pequeños dominios de memoria de las tarjetas de vídeo comunes conectadas a PCIe. El uso de varias tarjetas o MPI ayuda a distribuir la aplicación, pero el issue más favorable en HPC es siempre más memoria.

Por supuesto, se necesitan puntos de referencia para determinar la idoneidad del Proyecto DIGITS para HPC de escritorio, pero existe otra posibilidad: «construir un clúster Beowulf de estos». A menudo considerada una broma, esta frase puede ser un poco más seria en relación con el proyecto DIGITS. Por supuesto, los clústeres se construyen con servidores y (múltiples) tarjetas GPU conectadas a PCEe. Sin embargo, una CPU-GPU de memoria world totalmente integrada, pequeña, de potencia moderada y totalmente integrada podría constituir un componente básico del clúster más equilibrado y atractivo. Y aquí está la ventaja: ya ejecutan Linux y tienen redes ConnectX integradas.

Artículos relacionados:

Nvidia promociona un menor ‘tiempo para el primer entrenamiento’ con DGX Cloud en AWS

Nvidia presenta la nueva GPU Blackwell para modelos de IA con billones de parámetros

NVIDIA es cada vez más la salsa secreta en las implementaciones de IA, pero aún necesitas experiencia

Nota del editor: esta historia apareció por primera vez en cable HPC.

Related Articles

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

Stay Connected

0SeguidoresSeguir
0SuscriptoresSuscribirte
- Advertisement -spot_img

Latest Articles