Google похвасталась самым быстрым ИИ-суперкомпьютером на базе TPU v4

 

Но с такой формулировкой согласятся не все, потому что результаты опубликованного сегодня рейтинга ML Perf 0.7 можно интерпретировать слегка по-разному. Например, NVIDIA говорит о самом быстром суперкомпьютере — на базе A100, конечно — среди коммерчески доступных решений. Тогда как Google использовала в тестах не анонсированные официально тензорные ускорители TPU v4.

Когда речь идёт о системах машинного интеллекта, обычно подразумевается либо использование уже натренированных нейросетей, либо процесс тренировки новой сети. Последний требует на порядки больше вычислительных возможностей и подразумевает использование мощных многоядерных систем. Для оценки производительности зачастую и применяется набор тестов MLPerf.  Что касается полного списка участников MLPerf 0.7 c подробными результатами, то он есть на сайте проекта MLPerf.

Разработкой собственных ускорителей машинного обучения Google занимается давно: ещё в 2017 году мы описывали одну из первых моделей TPU, способную быстро перемножать матрицы размером 256 × 256. Ещё недавно третья версия TPU установила ряд рекордов именно в области «натаскивания» нейросетей. Основой системы-рекордсменки тогда стал модуль Cloud TPU Pod, каждый из таких модулей содержал более 1000 чипов Google TPU и развивал свыше 100 Пфлопс.

Результаты, опубликованные Google. Серые столбики — быстрейшие соперники, не относящиеся к Google

Результаты, опубликованные Google. Серые столбики — быстрейшие соперники, не относящиеся к Google

Главным конкурентом Google в этой области можно назвать NVIDIA, которая также уделяет весьма серьёзное внимание развитию ИИ-ускорителей. Даже решения на базе V100 легко конкурировали с Google TPU v3, а новейшие A100 на базе архитектуры Ampere продемонстрировали в MLPerf Training ещё более высокий уровень производительности.

Google TPU v3 и v4 против NVIDIA и Huawei. Источник: ExtremeTech

Google TPU v3 и v4 против NVIDIA и Huawei. Источник: ExtremeTech

Однако Google сдаваться не собирается и подразделение Google Research опубликовало результаты нового тестирования MLPerf Training 0.7, основой которого стали ещё не анонсированные официально тензорные сопроцессоры TPU v4. Повергнуть в прах A100 во всех тестах не удалось, но соперничество вышло вполне достойное: в некоторых сценариях быстрее всё же оказалась NVIDIA, но в других вперёд вышла разработка Google.

NVIDIA, в свою очередь, сообщает о 16 рекордах при использовании новейших DGX A100 и отдельно отмечает, что её продукты доступны для приобретения (и запуска любых тестов ML Perf или реальных нагрузок), тогда как результаты конкурентов зачастую или неполны, или получены на оборудовании, имеющем экспериментальный характер или которое невозможно приобрести прямо сейчас.

Новая тест-платформа Google TPU содержит в четыре раза больше ИИ-сопроцессоров, их число достигает 4096

Новая тест-платформа Google TPU содержит в четыре раза больше ИИ-сопроцессоров, их число достигает 4096

Для тестирования использовались реализации ИИ-моделей на TensorFlow, JAX, PyTorch, XLA и Lingvo. Четыре из восьми моделей удалось «натаскать» менее чем за 30 секунд, что является весьма впечатляющим результатом. Для сравнения, в 2015 на современном тому времени «железе» аналогичный процесс обучения занял бы более трёх недель. В целом TPU v4 обещает быть в 2,7 раза быстрее TPU v3, но все точки над i расставит официальный анонс четвёртой итерации сопроцессора Google.

Более подробная информация о тестировании MLPerf 0.7 содержится в официальном блоге Google Cloud. Там же можно найти и детали о системах на базе TPU, но эта информация пока ограничена третьей версией чипа. Пока известно, что четвёртое поколение TPU более чем в два раза быстрее на операциях перемножения матриц, может похвастаться более быстрой подсистемой памяти и имеет усовершенствованную систему интерконнекта.

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER. | Можете написать лучше? Мы всегда рады новым авторам.

Источник:

Постоянный URL: https://servernews.ru/1016976
Поделиться:  

Комментарии

Система Orphus