Image default
EmpresasNoticiasProcesadoresTarjetas de VideoTecnología

Intel anuncia los cambios arquitectónicos más importantes en una generación para CPU, GPU e IPU

En el Intel Architechture Day 2021, Raja Koduri y los arquitectos de Intel brindaron información detallada sobre 2 nuevas arquitecturas x86 de núcleo eficiente; la primera arquitectura híbrida de rendimiento de Intel, con nombre código “Alder Lake”, y el programador de carga de trabajo inteligente llamada Intel Thread Director; “Sapphire Rapids”, el procesador escalable Intel Xeon de próxima generación para el centro de datos; unidades de procesamiento de infraestructura; y las próximas arquitecturas gráficas, incluida la microarquitectura Xe HPG y Xe HPC y los sistemas en chip (SoC, por sus siglas en inglés) Alchemist y Ponte Vecchio.

Estas nuevas arquitecturas impulsarán los siguientes productos de alto rendimiento y establecerán las bases para la próxima era de innovación de Intel destinada a satisfacer la creciente demanda mundial de potencia computacional.

Núcleo eficiente

La nueva microarquitectura de núcleo eficiente de Intel, cuyo nombre en código era «Gracemont«, está diseñada para la eficiencia del rendimiento, lo que permite un rendimiento escalable de múltiples hilos para la multitarea moderna. Se trata de la microarquitectura x86 más eficiente de Intel, con un agresivo objetivo de área de silicio para que las cargas de trabajo multinúcleo puedan escalarse con el número de núcleos. También ofrece una amplia gama de frecuencias. La microarquitectura y el esfuerzo de diseño centrado permiten que núcleo eficiente funcione a bajo voltaje para reducir el consumo general de energía, al tiempo que crea el margen de maniobra para operar a frecuencias más altas. Esto permite a núcleo eficiente aumentar el rendimiento para cargas de trabajo más exigentes.

El núcleo eficiente utiliza una variedad de avances técnicos para priorizar las cargas de trabajo sin desperdiciar la potencia de procesamiento y para mejorar directamente el rendimiento con funciones de mejora de instrucción por ciclo (IPC), que incluyen:

  • Caché de destino de 5,000 ramas de entrada que da como resultado una predicción de rama más precisa
  • Caché de instrucciones de 64 kilobytes para mantener cerca las instrucciones útiles sin gastar energía del subsistema de memoria
  • El primer decodificador de longitud de instrucciones bajo demanda de Intel que genera información previa a la decodificación
  • Decodificador desordenado agrupado de Intel que permite decodificar hasta 6 instrucciones por ciclo mientras se mantiene la eficiencia energética
  • Funciones de seguridad sólidas que son compatibles con la tecnología de aplicación de flujo de control de Intel y la protección de redireccionamiento de la tecnología de virtualización de Intel
  • La implementación de la AVX ISA, junto con nuevas extensiones para soportar operaciones de inteligencia artificial (AI) de números enteros.

cuatro núcleos eficientes ofrecen un 80% más de rendimiento al consumir menos energía que dos núcleos Skylake

En comparación con el núcleo de CPU Skylake, la microarquitectura de unidad de procesamiento central (CPU) más prolífica de Intel, en el rendimiento de un solo hilo, el núcleo eficiente logra un 40% más de rendimiento con la misma energía y ofrece el mismo rendimiento consumiendo menos del 40% de la energía. En cuanto al comportamiento de rendimiento, cuatro núcleos eficientes ofrecen un 80% más de rendimiento al consumir menos energía que dos núcleos Skylake ejecutando cuatro hilos o el mismo comportamiento de rendimiento consumiendo un 80% menos de energía.

Núcleo de rendimiento

La nueva microarquitectura de los núcleos de rendimiento de Intel, cuyo nombre código era “Golden Cove”, está diseñada para ser más rápida y supera los límites de la baja latencia y el rendimiento de las aplicaciones de un solo hilo. Las cargas de trabajo crecen a través de la huella de código y exigen más capacidades de ejecución. Los conjuntos de datos también crecen de manera masiva junto con los requisitos de ancho de banda de datos. La nueva microarquitectura de núcleos de rendimiento de Intel proporciona un aumento significativo del rendimiento de propósito general y un mejor soporte para las aplicaciones de la huella de código.

El núcleo de rendimiento presenta una arquitectura más amplia, profunda e inteligente:

  • Más amplia: con seis decodificadores (más de los cuatro anteriores), caché de 8µop (más de los seis anteriores), seis asignaciones (más de las cinco anteriores) y 12 puertos de ejecución (más de los 10 anteriores)
  • Más profunda: Archivos de registro físico más grandes y búfer de reordenamiento más profundo con 512 entradas
  • Más inteligente: Mejor precisión de predicción de rama, latencia eficaz reducida de nivel 1, optimizaciones de ancho de banda predictivas de escritura completa en nivel 2.

SoC para cliente de Alder Lake

La arquitectura para cliente de próxima generación de Intel, cuyo nombre código es “Alder Lake”, es la primera arquitectura híbrida de rendimiento de Intel, que por primera vez integra dos tipos de núcleos: un núcleo de rendimiento y un núcleo eficiente, para lograr un rendimiento importante en todos los tipos de carga de trabajo. Alder Lake se basa en el proceso Intel 7 y es compatible con la memoria más reciente y las E/S más rápida.

Alder Lake ofrecerá un rendimiento increíble que se adapta para ser compatibles con todos los segmentos de clientes, desde laptops ultraportátiles hasta computadoras de escritorio comerciales y para entusiastas, aprovechando una arquitectura SoC única y altamente escalable con tres puntos clave de diseño:

  • Una computadora de escritorio de máximo rendimiento, con dos chips y socket, con un desempeño de liderazgo, eficiencia energética, memoria y E/S
  • Un paquete móvil de matriz de rejilla de bolas (BGA, por sus siglas en inglés) de alto rendimiento que agrega imágenes, gráficos Xe más grandes y conectividad Thunderbolt 4
  • Un paquete delgado, de baja potencia y alta densidad con E/S y uso de energía optimizadas.

Intel Thread Director

Para que los núcleos de rendimiento y los núcleos eficientes funcionen a la perfección con el sistema operativo, Intel desarrolló una tecnología de programación mejorada llamada Intel Thread Director. Integrado directamente en el hardware, Thread Director brinda telemetría de bajo nivel del estado del núcleo y la combinación de instrucciones del hilo, lo que permite que el sistema operativo coloque el hilo correcto en el núcleo correcto en el momento adecuado. Thread Director es dinámico y adaptable, ya que ajusta las decisiones de programación a las necesidades de cómputo en tiempo real en lugar de un enfoque sencillo y estático basado en reglas.

Tradicionalmente, el sistema operativo tomaba decisiones basadas en estadísticas limitadas disponibles, como tareas en primer plano y en segundo plano. Thread Director agrega una nueva dimensión al:

  • Usar telemetría de hardware para dirigir los hilos que requieren un mayor rendimiento para el

núcleo de rendimiento adecuado en el momento

  • Monitorear la combinación de instrucciones, el estado del núcleo y otra telemetría de microarquitectura relevante a un nivel granular, lo que ayuda al sistema operativo a tomar decisiones de programación más inteligentes
  • Optimizar Intel Thread Director para obtener el mejor rendimiento para Windows 11 mediante la colaboración con Microsoft
  • Ampliar la interfaz de programación de aplicaciones (API, por sus siglas en inglés) PowerThrottling, que permite a los desarrolladores especificar explícitamente atributos de calidad de servicio para sus hilos
  • Aplicar una nueva clasificación EcoQoS que informa al programador si el hilo prefiere la eficiencia energética (dichos hilos se programan en núcleo eficiente)

Microarquitectura X e HPG y SoCs Alchemist

Xe HPG es una nueva microarquitectura de gráficos discretos diseñada para escalar al rendimiento de clase entusiasta para cargas de trabajo de juegos y de creación. La microarquitectura Xe HPG impulsa la familia de SoC Alchemist y los primeros productos relacionados saldrán al mercado en el primer trimestre de 2022 bajo la marca Intel Arc. La microarquitectura Xe HPG presenta un nuevo núcleo Xe, un elemento escalable, programable y enfocado en la computación.

La hoja de ruta de gráficos de cliente incluye los SoCs Alchemist (anteriormente conocido como DG2) Battlemage, Celestial y Druid. Durante la presentación en Intel Architecture Day, Intel brindó detalles de la microarquitectura y compartió demostraciones ejecutadas en un SoCs Alchemist de preproducción, donde se mostró un juego real, una prueba de estado de Unreal Engine 5 y una nueva tecnología de súper muestreo basada en aprendizaje automático llamada XeSS.

Los SoCs Alchemist, basados en la microarquitectura Xe HPG, están diseñados para ofrecer una gran escalabilidad y eficiencia informática con características arquitectónicas clave:

  • Hasta ocho rebanadas de representación con función fija diseñada para DirectX 12 Ultimate
  • Nuevos núcleos Xe con 16 motores vectoriales y 16 motores de matriz (conocidos como XMX – Xe Matrix eXtensions), caché y memoria local compartida
  • Nuevas unidades de Ray Tracing compatibles con DirectX Raytracing (DXR) y Vulkan Ray Tracing
  • Elevación de frecuencia de 1.5x y mejora de rendimiento/vatio de 1.5x en comparación con la microarquitectura Xe LP a través de una combinación de arquitectura, diseño lógico, diseño de circuitos, tecnología de procesos y optimizaciones de software
  • Fabricado en el nodo de proceso N6 de TSMC

Un aspecto fundamental de los esfuerzos gráficos de Intel es un enfoque centrado en el software:

  • La arquitectura Xe está diseñada en estrecha colaboración con los desarrolladores para alinearla con las normas de la industria
  • La primera GPU para Gaming de alto rendimiento de Intel prioriza el rendimiento y la calidad a través de un diseño de controlador que abarca productos gráficos integrados y discretos en una base de código unificada
  • Intel concluyó la modificación de la arquitectura de los componentes del controlador de gráficos centrales, específicamente el administrador de memoria y el compilador, lo que resulta en un rendimiento mejorado para los títulos vinculados a la CPU en un 15% (y hasta en un 80%) y tiempos de carga de juegos mejorados hasta un 25%.

XeSS

XeSS aprovecha la aceleración XMX AI incorporada de Alchemist para ofrecer una nueva tecnología de mejora que habilita imágenes de alto rendimiento y alta fidelidad. Utiliza el Deep Learning para sintetizar imágenes que están muy cerca de la calidad del renderizado nativo de alta resolución. Con XeSS, los juegos que solo se podrían reproducir con configuraciones de menor calidad o resoluciones más bajas pueden ejecutarse sin problemas con configuraciones y resoluciones de mayor calidad.

  • XeSS funciona al reconstruir detalles de subpíxeles a partir de píxeles contiguos y marcos anteriores compensados por movimiento
  • La reconstrucción se realiza mediante una red de inteligencia artificial entrenada para ofrecer un alto rendimiento y una gran calidad, con un aumento de rendimiento de hasta 2x1
  • XeSS ofrece súper muestreo basado en IA en un amplio conjunto de hardware, incluidos gráficos integrados, al aprovechar el conjunto de instrucciones DP4a
  • Muchos de los desarrolladores de juegos pioneros trabajan con XeSS, y el SDK para obtener la versión inicial de XMX estará disponible para los ISV este mes, aunque la versión DP4a estará disponible hasta finales de este año

Xe HPC y Ponte Vecchio

Ponte Vecchio, basado en la microarquitectura Xe HPC, ofrece operaciones de punto flotante por segundo (FLOP, por sus siglas en inglés) líderes en la industria y densidad de cómputo para acelerar las cargas de trabajo de IA, HPC y análisis avanzado. Intel reveló información de bloques de IP de la microarquitectura Xe HPC, incluidos 8 motores vectoriales y matriciales (conocidos como XMX – Xe Matrix eXtensions) por cada núcleo Xe; información de rebanadas y apilamiento; e información de mosaicos, incluidos los nodos de proceso para los mosaicos de cómputo, de base y de enlace Xe.

Intel mostró que el primer silicio Ponte Vecchio está demostrando un rendimiento de liderazgo, estableciendo un récord en la industria tanto en el rendimiento de inferencia como en el de entrenamiento en un popular benchmark de IA. El rendimiento del silicio A0 de proporciona un rendimiento de FP32 de más de 45 TFLOPS, más de 5 TBps de ancho de banda de la estructura de memoria y más de 2 TBps de ancho de banda de conectividad. Intel también compartió una demostración que muestra el rendimiento de inferencia de ResNet de más de 43,000 imágenes por segundo y de más de 3,400 imágenes por segundo con el entrenamiento de ResNet, ambos en camino de ofrecer el liderazgo en rendimiento.

Ponte Vecchio se compone de varios diseños complejos que se manifiestan en mosaicos

Ponte Vecchio se compone de varios diseños complejos que se manifiestan en mosaicos, que luego se ensamblan a través del mosaico de puente integrado de interconexión de múltiples matrices (EMIB, por sus siglas en inglés) que permite una conexión de baja potencia y alta velocidad entre mosaicos. Estos se juntan en un paquete Foveros que crea el apilamiento 3D de silicio activo para obtener potencia y densidad de interconexión. Una interconexión MDFI de alta velocidad permite escalar de 1 a 2 pilas.

El mosaico de cómputo es un paquete denso de núcleos Xe y es el elemento central de Ponte Vecchio.

  • Un mosaico tiene 8 núcleos Xe con 4 MB de caché de nivel 1, nuestra clave para brindar computación eficiente en el consumo de energía
  • Creado con base en la tecnología de proceso más avanzada de TSMC, N5
  • Intel ha abierto el camino con la configuración de la infraestructura de diseño, y flujos de herramientas y la metodología para poder probar y verificar mosaicos para este nodo
  • El mosaico tiene un bump pitch de 36 micrones extremadamente ajustado para apilamiento 3D con Foveros

El mosaico de base es el tejido conectivo de Ponte Vecchio. Es una matriz grande construida en Intel 7 y optimizada para la tecnología Foveros.

  • El mosaico de base es donde todas las E/S complejas y los componentes de alto ancho de banda se unen con la infraestructura SOC: PCIe Gen5, memoria HBM2e, enlaces MDFI para conectar puentes de mosaico a mosaico y del EMIB
  • La conexión 3D de ancho de banda súper alto y con alta interconexión 2D y baja latencia hace que esta sea una máquina de conectividad infinita
  • El equipo de desarrollo de tecnología de Intel trabajó para cumplir con los requisitos de ancho de banda, tono de impacto e integridad de la señal

El mosaico de enlace Xe ofrece la conectividad entre GPU que admiten 8 enlaces por mosaico.

  • Es un elemento esencial para la ampliación de HPC e IA
  • Se enfoca en los SerDes más rápidos que son compatibles con Intel: hasta 90G
  • Este mosaico se agregó para habilitar la solución de ampliación para la supercomputadora de exaescala Aurora

Ponte Vecchio está en funcionamiento, se encuentra en fase de validación y hemos comenzado a realizar un muestreo limitado a los clientes. Ponte Vecchio saldrá a la venta en 2022 para los mercados de HPC e IA.

Posts relacionados

Estudiantes latinoamericanos ganan el festival global de inteligencia artificial de Intel

Mario Rübke

AMD mejora el rendimiento en Llama.cpp y LMStudio con sus procesadores Ryzen AI 300

Mario Rübke

lenovo presentó en Chile sus nuevos laptops Thinkpad basados en Intel Core Ultra «Meteor Lake»

Mario Rübke