NVIDIA Tesla P100, el primer acelerador con GPU de 16nm FinFET basada Pascal y HBM2

El Director Ejecutivo de NVIDIA, Jen-Hsun Huang ha anunciado en la GDC 2016, la primera GPU de la compañía basada en la nueva arquitectura “Pascal” de 16nm, sucesora de la actual arquitectura Maxwell y también el primer producto en hacer uso de memorias HBM de segunda generación (HMB2).

En efecto, en el marco de la GDC 2016, NVIDIA ha sorprendido a los asistentes, anunciado el nuevo acelerador para computación de alto rendimiento (HPC) Tesla P100, el primer producto basado en la nueva arquitectura de 11° generación “Pascal”, la cual está enfocada a potenciar la nueva generación de súper computadores para fines científicos como curas para el cáncer, entendimiento de los cambios climáticos y la creación de máquinas inteligentes.

Tesla P100, también se potencia por una GPU fabricada con un avanzado proceso de manufactura de 16nm (TSMC) con tecnología de transistores FinFET, siendo también el primer producto de NVIDIA que utiliza dicho proceso, tomando en cuenta que las actuales GPU de NVIDIA basadas en Maxwell utilizan un tradicional proceso de manufactura de 28nm.

El nuevo Tesla P100 según NVIDIA es el “acelerador más avanzado jamás creado” por la compañía, con una potencia sin precedentes dentro de los productos para el mercado HPC de NVIDIA, lo anterior gracias a la eficiente y potente arquitectura Pascal, que hace su debut con este producto. Esto toma remarcada importancia, pues será la base para la próxima generación de tarjetas gráficas que NVIDIA lance al mercado de consumo, aunque por ahora el anuncio está enfocado netamente en el mercado HPC.

Tesla P100, también es el primero producto en su tipo en el mercado en hacer uso de la segunda generación de memorias HBM o HBM2 (High Bandwidth Memory 2), con tecnología CoWoS® (Chip-on Wafer-on-Substrate) de NVIDIA, unificando en un solo chips GPU y memorias, ofreciendo también un ancho de banda sin precedentes para el subsistema de memorias, con nada menos que 750 GB/s de ancho de banda con memorias operando a 1.4 Gbps mediante un bus de datos de 4096-bits. Estas memorias pueden alcanzar hasta 1 TB/s de ancho de banda si operan a 2 Gbps.

Recordemos que AMD lanzo sus Radeon Fury series, que fueron las primeras en utilizar este tipo de memorias, pero en su primera generación o HBM1, NVIDIA pasa directo a memorias HBM2, lo cual le permite además ofrecer chips de memorias de mayor capacidad, de hecho Tesla P100 cuenta con 16GB de memoria.

Respecto al apartado de datos técnicos, el acelerador Tesla P100 utiliza una GPU GP100, el cual posee la escalofriante cantidad de 16.500 millones de transistores, comparado con el GM200 que llega a los 8.000 millones de transistores.

La arquitectura interna del GP100 está conformada por 3840 CUDA Cores, organizados en seis GPC (Graphics Processing Clusters) cada uno de estos GPC contiene 10 Streaming Multiprocessors (SM), y dentro de cada SM hay 64 CUDA Cores, organizados en 2 particiones de 32 CUDA Cores (Cada partición posee sus propias unidades de textura y comparten un cache L1 para texturas y 64KB de memoria compartida).

Con lo anterior, el GP100 llega a los 3840 CUDA Cores, esto le da al GPU GP100 una potencia de cálculos extremadamente alta comparado con los chips anteriores. Pero aún queda potencia oculta, ya que NVIDIA tiene deshabilitada algunas unidades de cómputo, pues se supone que la versión completa del GP100 incorpora 4096 CUDA Cores.

En lo que se refiera al cálculos en operaciones de punto flotante (Floating Points Operations), que es la medida en que se estima la potencia de un chip para el mercado HPC, el GP100 que opera a una increíble velocidad de 1318 MHz (base) y 1480 MHz (Boost), puede también alcanzar cifras inéditas en cálculos de media, simple y doble precisión. Es así como este GPU puede llegar a alcanzar hasta 5.3 TFLOPS en cálculos de doble precisión (FP64), y alcanza la barrera de los 10 TFLOPS en cálculos de simple precisión (FP32), mientras en caculos de media precisión FP16 puede llegar a alcanzar nada menos que 21 TFLOPS, gracias también a nuevos algoritmos e instrucciones para maximizar el rendimiento punta de la GPU. Estas cifras superan al Tesla K80 que alcanza los 2.91 TFLOPS en cálculos de doble precisión.

Otros datos técnicos de Tesla P100 es que soporta la tecnología de interconexión NVIDIA NVLink, con cuatro controladores NVLinks, que permiten interconectar el Tesla P100 con otras GPUs para maximizar la escalabilidad de los sub-sistemas de cómputo o nodos basados en estas GPUs.

La tecnología NVLink puede entregar un ancho de banda bidireccional para interconexión de hasta 160 GB/s y en un solo nodo se pueden interconectar hasta ocho aceleradores Tesla P100. IBM ha implementado la tecnología NVLink en sus CPUs POWER8 para una intercomunicación rápida entre CPU-a-GPU.