Nvidia запускает архитектуру графических процессоров Blackwell
По утверждению Nvidia, архитектура Blackwell следующего поколения обеспечит четырехкратный прирост производительности по сравнению с нынешней линейкой Hopper.
Nvidia начала конференцию GTC 2024 с официального запуска Blackwell, архитектуры графических процессоров следующего поколения, которая должна состояться в конце года.
Blackwell в некоторой степени использует дизайн чиплета. По словам Яна Бака, вице-президента HPC компании Nvidia, в то время как в разработках AMD используется несколько чипсетов, в Blackwell используются два очень больших кристалла, которые объединены в один графический процессор с высокоскоростным соединением, работающим со скоростью 10 терабайт в секунду.
Nvidia поставит три новых графические процессоров Blackwell для центров обработки данных и искусственного интеллекта: B100, B200 и GB200. B100 оснащен одним процессором, B200 — двумя соединенными между собой графическими процессорами, а GB200 — двумя графическими процессорами и процессором Grace.
Бак говорит, что GB200 обеспечит производительность, которая в семь раз превышает производительность Hopper GH200. По словам Бака, он обеспечивает в четыре раза большую производительность обучения искусственного интеллекта, в 30 раз лучшую производительность вывода в целом и в 25 раз лучшую энергоэффективность. «Это расширит масштаб центров обработки данных искусственного интеллекта до более чем 100 000 графических процессоров», — сказал он на пресс-конференции перед объявлением.
Blackwell имеет 192 ГБ памяти HBM 3E с пропускной способностью более 8 ТБ/с и 1,8 ТБ вторичного канала. Blackwell также поддерживает трансформаторный движок компании второго поколения, который отслеживает точность и динамический диапазон каждого слоя каждого тензора и всей нейронной сети в процессе вычислений.
Производительность FP4 AI у Blackwell составляет 20 петафлопс на одном графическом процессоре. FP4, с четырьмя битами точности с плавающей запятой на операцию, является новым для процессора Blackwell. У Hopper был FP8. Чем короче строка с плавающей запятой, тем быстрее она может быть выполнена. Вот почему по мере увеличения строк с плавающей запятой — FP8, FP16, FP32 и FP64 — производительность снижается вдвое с каждым шагом. Hopper имеет производительность FP8 AI 4 Пфлопс, что вдвое меньше производительности Blackwell.