Image default
AIFeaturedLanzamientosNoticiasProcesadores

AMD presenta y lanza sus nuevos Ryzen AI 300 para laptops y Copilot+ PC

El día de hoy AMD lanza de manera oficial «Strix Point», su 3ra generación de procesadores Ryzen con Inteligencia Artificial, ahora conocidos como Ryzen AI 300.

Esta nueva familia de procesadores móviles, viene de la mano de 3 tecnologías claves, una arquitectura ZEN 5, gráficos RDNA3.5 y una NPU basada en XDNA 2.

Comencemos a revisar estos 3 pilares fundamentales por la arquitectura ZEN 5.

ZEN 5 es un nuevo diseño de arquitectura en AMD, pensado en la nueva era de procesamiento, con un enfoque en más instrucciones por ciclo, que resultan en un 16% de incremento de IPC, agrandando las unidades de ejecución y dispatch, además de aumentar al doble el ancho de banda de la cache en datos, todo ello para obtener mayor rendimiento y un aceleramiento en el procesado de la IA.

Para mejorar el IPC, lo que hicieron fue trabajar sobre las etapas de Fetch y Branch Prediction, de esa forma se mejoró la latencia en la cache de instrucciones, además del ancho de banda, teniendo menos cache-miss y aumentando el rendimiento final.

Otro de los puntos de mejora dentro de la arquitectura ZEN5, es en las unidades de Dispatch y Execution, donde ambas se incrementaron, siendo ahora 8-wide, y pasando a 6 unidades de lógica aritmetica (ALU), con 3 multiplos, las unidades de generación de direcciones (AGU) también aumentaron a 4.

ZEN 5 ahora cuenta con soporte para AVX-512 con los 512bits completos para su disposición, de esta forma incrementa a 6 los pipelines FADD, de esta manera se aumentan las instrucciones de punto flotante a procesar. Esto es netamente para mejorar la ejecución de tareas e instrucciones para IA.

Finalmente, en lo que conscierne a la arquitectura, se aumentó la caché L1D a 48KB 12-way, con 4 ciclos de carga, de esta forma se duplica el ancho de banda máximo hacia la cache L1 y la FPU, finalmenta la L2 cache, pasa a ser 16-way manteniendo su tamaño de 1MB.

Con todas estas modificaciones y mejoras, AMD promete que el incremento en el IPC de ZEN5 versus ZEN4 es de un 16% en promedio, pero en lo que se refiere a rendimiento en tareas de procesado matemático, este incremento supera el 30%.

Al momento de hacer un desgloce, de donde proviene todo el incremento, AMD indica que gran parte viene de las mejoras en la etapa de Execution y Retire donde ahora es 8-wide, con 6 ALU y 3 de ellos MUL, además de 4 AGUs.

AMD RDNA 3.5

El siguiente pilar de mejoras en estos nuevos procesadoers, viene de la mano de una nueva gráfica integrada basada en la arquitectura RDNA3.5, la cual es una optimización de RDNA3. Esta optimización está pensada netamente en exprimir al máximo el rendimiento sin aumentar el consumo, dado que esta siendo integrada en procesadores para equipos portátiles.

Para ello, duplicaron la frecuencia de sampleo de texturas para las más utilizadas, junto con ello, también duplicaron las frecuencias de interpolación y comparación para las operaciones más utilizadas en los shaders. Con estos cambios, mejoraron la cantidad de instrucciones y operaciones por ciclo, brindando mas rendimiento, sin generar mayor tiempo de ejecución. Finalmente, se mejoró la forma de acceder a la memoria, minimizando la cantidad de veces que se accede a ella, además de mejorar las técnicas de compresión de la data que va a ella, con esto hay un incremento en el rendimiento en el acceso y uso de la memoria del sistema.

XDNA 2

Finalmente el 3er pilar fundamental en esta nueva familia de procesadores es la NPU, y en esta ocasión tenemos la evolución de XDNA que fue presentada el 2023, comprendidas en Ryzen AI, su arquitectura de librerías y la NPU dedicada.

En la medida que las cargas de trabajo para tareas de AI va creciendo, se hace mas necesario la utilización de unidades de cómputo dedicadas, es por ello que hemos pasado de utilizar la CPU, a utilizar la GPU para ciertas tareas, pero hay otras en las cuales, una NPU es la necesaria si queremos tener cierto nivel de eficiencia a la hora de realizar dichas tareas.

Dependiendo del tipo de carga, la frecuencia de utilización y el tamaño del modelo a utilizar, que cada vez van incrementandose, estos cada vez mas se van integrando como parte fundamental de los diversos sistemas operativos, para ello, el contar con una NPU mejora hasta en un 35x el rendimiento en ejecución de tareas de IA comparadas a realizarlo en el CPU, en lo que a rendimiento/watt se refiere.

A diferencia de una arquitectura basada en una jerarquia fija de computo y caché, a la hora de utilizar la memoria, XDNA utiliza una jerarquía flexible tanto en el cómputo, como en la jerarqúa de la memoria. AMD llama a sus unidades de cómputo AI Engine (AIE), que no son mas que Arrays Sistólicos que implementaron luego de la compra de Xilinx.

Un array sistólico es una matriz de unidades de procesamiento, a veces núcleos completos, con la particularidad de que “bombean” los datos y las instrucciones hacia las unidades colindantes, por los que están conectados a los registros. En la definición más básica son los que se encuentran en la periferia de la matriz, aunque es posible, en algunos diseños, que cada una de las unidades tengan su propia memoria local.

Al poseer una estructura matricial de arreglo, esto le permite que el flujo de datos pueda ser en cualquier dirección, lo que le brinda la flexibilidad necesaria a la hora de la ejecución de las instrucciones. Además cada nodo se interconecta ejecutando instrucciones Multicast, de esa forma los demás AIEs ya poseen la información de manera previa, para su ejecución, reduciendo el uso de ancho de banda de memoria, además de evitar cache-miss a la hora que la instrucción le llegue al AIE.

Otro beneficio de esta arquitectura, es que pueden disponer de todo el bloque, o de una parte de ellos a la ejecución de ciertas tareas, beneficiando el rendimiento multitarea, y garantizando un óptimo rendimiento.

Esto lo pudieron llevar a cabo, incrementando la cantidad de AIE Tiles a 32, teniendo en cuenta que cada AIE Tile consiste en: AI Engine y un Local Memory Module. Cada AI Engine es un procesador de palabra de instrucción muy larga (VLIW) que contiene una unidad escalar, una unidad vectorial, dos unidades de carga y una unidad de almacenamiento. La principal potencia de cálculo la proporciona la unidad vectorial.

En esta versión, se duplicó la cantidad de MAC por cada Tile, yu se aumentó en un 60% la memoria on-chip, además de desarrollar un nuevo tipo de datos llamado Block FP16.

Este nuevo tipo de dato otorga un rendimiento similar al que se tendría con INT8, pero con la precisión que se tiene al operar con un FP16, además todo esto sin la necesidad de realizar cuantificación (La cuantificación es una técnica para reducir los costos computacionales y de memoria, al ejecutar la inferencia al representar los pesos y activaciones con tipos de datos de baja precisión como un entero de 8 bits (int8) en lugar del habitual punto flotante de 32 bits (float32)).

El objetivo de BLockFP16 es reducir la cantidad de trabajo computacional requerido

El objetivo del BlockFP16 es reducir la cantidad de trabajo computacional requerido; en este caso, se utilizan matemáticas de 8 bits sin incurrir en todos los inconvenientes de abandonar las matemáticas de 16 bits, es decir, peores resultados debido a la precisión reducida. Las NPU de la generación actual ya pueden realizar procesamiento nativo de 8 bits (y de 16 bits, de hecho), pero esto requiere que los desarrolladores optimicen (y cuanticen) su software para el procesamiento de 8 bits o aprovechen la velocidad de permanecer en 16 bits.

Dicho todo esto, desde una perspectiva técnica, Block FP16 (también conocido como Microscaling) no es una técnica nueva en sí misma. Pero AMD será el primer proveedor de NPU para PC que lo admita, y el próximo Lunar Lake de Intel se unirá a ellos. Entonces, si bien esta es una característica nueva en AMD, no será una característica única.

En cuanto a cómo funciona Block FP16, el propio material de AMD sobre el tema es de nivel relativamente alto, pero sabemos por otras fuentes que es esencialmente una forma de cálculo de punto fijo de 8 bits con un exponente adicional. Específicamente, el BlockFP16 usa un exponente compartido para todos los valores, en lugar de que cada valor de coma flotante tenga su propio exponente. Por ejemplo, en lugar de que un número FP16 tenga un bit de signo, un exponente de 5 bits y un significado de 10 bits, tiene un exponente de 8 bits que se comparte con todos los números y luego un significado de 8 bits.

Básicamente, esto permite que el procesador haga trampa procesando los significados únicos como números INT8 (o de punto fijo de 8 bits), omitiendo todo el trabajo en el exponente compartido. Es por eso que el rendimiento de Block FP16 coincide en gran medida con el rendimiento de INT8: es fundamentalmente matemática de 8 bits. Pero al tener un exponente compartido, los autores de software pueden mover la ventana del rango de números enteros para el cálculo a un rango específico, uno que normalmente estaría fuera del rango ofrecido por el insignificante exponente de un verdadero número de FP8.

La mayoría de las aplicaciones de IA requieren una precisión de 16 bits, y Block FP16 aborda este requisito brindando simultáneamente alto rendimiento y alta precisión al mercado móvil, al menos desde el punto de vista de la IA. Esto hace que Block FP16 sea un componente muy importante para impulsar la tecnología de inteligencia artificial, y es algo en lo que AMD está presionando con fuerza.

Ryzen AI Software

Obviamente que nada de esto sería posible sin la ayuda del software, para ello AMD mantiene su filosofía de Open Source/Open Standards, como por ejemplo PyTorch, Hugging Face, LLAMA.cpp, etc. Participando en practicamente todo el pipeline de ejecución, unificando todo en una capa unificada llamada Ryzen AI.

Esta capa de librerías y utilidades, permiten a los desarrolladores de software sacarle el máximo provecho a las diversas tecnologías y mejoras en la arquitectura que los procesadores Ryzen AI 300 poseen, en este caso utilizando ONNX Runtime para las tareas de IA, independiente de si son para ser ejecutadas en el CPU, GPU o en la NPU, para cada una de ellas, hay un set de Execution Providers exclusivo.

Rendimiento Ryzen AI 300

Solo mostraremos esto como un ejemplo de lo que estos procesadores son capaces de entregar, considerar que esta es información de AMD, y no necesariamente representen un comportamiento o rendimiento real.

Estos son los números oficiales que AMD nos muestra, de lo que es capaz su procesador Ryzen AI 9 HX370 el tope de línea.

Launch Partners, Copilot+ PC

Obviamente todo lanzamiento de procesadores móviles necesita el apoyo de los partners, que integren dichos procesadores a su portafolio de productos, en esta oportunidad AMD nos presentó algunos de los partners que tendrán computadores con estos nuevos procesadores Ryzen AI 300.

Con esta nueva generación de procesadores, AMD pretende llegar a tener una oferta de equipos superior a los 300 modelos, practicamente duplicando lo que actualmente se tiene.

Asus con su Zenbook S16

Nuevamente Asus con la TUF A14

MSI con su equipo Prestige

Otro laptop de Asus, ahora con su Zephyrus G16

MSI vuelve a hacerse presente con su Stealth A16

HP se hace participe con su Omnibook Ultra 14

 

Posts relacionados

Review AMD Ryzen 7 9800X3D [Zen5 – AM5]

Mario Rübke

Estudiantes latinoamericanos ganan el festival global de inteligencia artificial de Intel

Mario Rübke

AMD mejora el rendimiento en Llama.cpp y LMStudio con sus procesadores Ryzen AI 300

Mario Rübke