Материалы по тегу: trainium

07.12.2021 [00:36], Алексей Степин

ИИ-ускорители AWS Trainium: 55 млрд транзисторов, 3 ГГц, 512 Гбайт HBM и 840 Тфлопс в FP32

GPU давно применяются для ускорений вычислений и в последние годы обросли поддержкой специфических форматов данных, характерных для алгоритмов машинного обучения, попутно практически лишившись собственно графических блоков. Но в ближайшем будущем их по многим параметрам могут превзойти специализированные ИИ-процессоры, к числу которых относится и новая разработка AWS, чип Trainium.

На мероприятии AWS Re:Invent компания рассказала о прогрессе в области машинного обучения на примере своих инстансов P3dn (Nvidia V100) и P4 (Nvidia A100). Первый вариант дебютировал в 2018 году, когда модель BERT-Large была примером сложности, и благодаря 256 Гбайт памяти и сети класса 100GbE он продемонстрировал впечатляющие результаты. Однако каждый год сложность моделей машинного обучения растёт почти на порядок, а рост возможностей ИИ-ускорителей от этих темпов явно отстаёт.

 Рост сложности моделей машинного обучения будет лишь расти

Сложность моделей машинного обучения будет расти всё быстрее

Когда в прошлом году был представлен вариант P4d, его вычислительная мощность выросла в четыре раза, а объём памяти и вовсе на четверть, в то время как знаменитая модель GPT-3 превзошла по сложности BERT-Large в 500 раз. А теперь и 175 млрд параметров последней — уже ничто по сравнению с 10 трлн в новых моделях. Приходится наращивать и объём локальной памяти (у Trainium имеется 512 Гбайт HBM с суммарной пропускной способностью 13,1 Тбайт/с), и активнее использовать распределённое обучение.

Для последнего подхода узким местом стала сетевая подсистема, и при разработке стека Elastic Fabric Adapter (EFA) компания это учла, наделив новые инстансы Trn1 подключением со скоростью 800 Гбит/с (вдвое больше, чем у P4d) и с ультранизкими задержками, причём доступен и более оптимизированный вариант Trn1n, у которого пропускная способность вдвое выше и достигает 1,6 Тбит/с. Для связи между самими чипами внутри инстанса используется интерконнект NeuroLink со скоростью 768 Гбайт/с.

 Прогресс подсистем сети и памяти в ИИ-инстансах AWS

Прогресс подсистем сети и памяти в ИИ-инстансах AWS

Но дело не только в возможности обучить GPT-3 менее чем за две недели: важно и количество используемых для этого ресурсов. В случае P3d это потребовало бы 600 инстансов, работающих одновременно, и даже переход к архитектуре Ampere снизил бы это количество до 200. А вот обучение на базе чипов Trainium требует всего 130 инстансов Trn1. Благодаря оптимизациям, затраты на «общение» у новых инстансов составляют всего 7% против 14% у Ampere и целых 49% у Volta.

 Меньше инстансов, выше эффективность при равном времени обучения — вот что даст Trainium

Меньше инстансов, выше эффективность при равном времени обучения — вот что даст Trainium

Trainium опирается на систолический массив (Google использовала тот же подход для своих TPU), т.е. состоит из множества очень тесно связанных вычислительных блоков, которые независимо обрабатывают получаемые от соседей данные и передают результат следующему соседу. Этот подход, в частности, избавляет от многочисленных обращений к регистрам и памяти, что характерно для «классических» GPU, но лишает подобные ускорители гибкости.

В Trainium, по словам AWS, гибкость сохранена — ускоритель имеет 16 полностью программируемых (на С/С++) обработчиков. Есть и у него и другие оптимизации. Например, аппаратное ускорение стохастического округления, которое на сверхбольших моделях становится слишком «дорогим» из-за накладных расходов, хотя и позволяет повысить эффективность обучения со смешанной точностью. Всё это позволяет получить до 3,4 Пфлопс на вычислениях малой точности и до 840 Тфлопс в FP32-расчётах.

AWS постаралась сделать переход к Trainium максимально безболезненным для разработчиков, поскольку SDK AWS Neuron поддерживает популярные фреймворки машинного обучения. Впрочем, насильно загонять заказчиков на инстансы Trn1 компания не собирается и будет и далее предоставлять на выбор другие ускорители поскольку переход, например, с экосистемы CUDA может быть затруднён. Однако в вопросах машинного обучения для собственных нужд Amazon теперь полностью независима — у неё есть и современный CPU Graviton3, и инфереренс-ускоритель Inferentia.

Постоянный URL: http://servernews.ru/1055294
01.12.2021 [00:44], Игорь Осколков

Amazon анонсировала серверные Arm-процессоры Graviton3 и ИИ-чипы Trainium

AWS, облачное подразделение Amazon, анонсировало EC2-инстансы C7g на базе Graviton3, третьего поколения Arm-процессоров собственной разработки, а также инстансы Trn1, использующие ИИ-ускорители Trainium, созданные силами AWS специально для задач машинного обучения.

Впрочем, оба анонса носят предварительный характер. Так, для Graviton3 не уточняется ни поколения архитектуры Arm, ни число ядер, ни частоты. Зато утверждается, что новинки по сравнению с инстансами на базе Graviton2 имеют на четверть более высокую производительность и вдвое быстрее в вычислениях с плавающей запятой и при работе с криптографией. При этом они потребляет на 60 % меньше энергии.

Упомянуты и некоторые архитектурные изменения. Так, поддержка bfloat16 позволяет втрое ускорить выполнение ИИ-задач (речь, вероятно, всё же об инференсе), а переход на DDR5 — на 50 % повысить пропускную способность памяти. У каждого vCPU есть выделенный кеш, а дополнительную безопасность обеспечивает аппаратная защита стека. Кроме того, в новых инстансах по умолчанию используется принудительное шифрование памяти, есть поддержка шифрованных EBS-томов, а скорость EFA-подключения достигает 30 Гбит/с.

EC2 C7g, по словам AWS, подойдут для HPC, EDA, аналитики, игровых и рекламных платформ, медиакодирования и т.д. Для них доступны дистрибутивы Amazon Linux 2, RHEL, SUSE и Ubuntu, а также целый ряд уже адаптированного ПО. Пока что C7g доступны в рамках закрытого тестирования по заявкам, но их уже успели оценить Epic Games, Formula 1 Management, Honeycomb.io и Twitter.

Сами процессоры Graviton3, как и его предшественники, вряд ли будут продаваться «на сторону» и за пределами основной инфраструктуру AWS попадут разве что в Outposts. Тем не менее, для самой Amazon это — наряду с внедрением Nitro — важный шаг к независимости от сторонних поставщиков и повышению производительности собственных сервисов. На базе Graviton2 сейчас предлагается всего 12 типов инстансов, однако AWS довольно активно и успешно переводит все остальные сервисы и услуги на собственные CPU.

EC2-инстансы Trn1, в целом, направлены на достижение тех же целей. Они базируются на ускорителях Trainium, это второй чип собственной разработки Amazon, созданный специально для задач машинного обучения. Чип оснащён 32 Гбайт HBM2e, а его производительность составляет до 210 Топс. Инстансы Trn1 объединяют до 16 таких ускорителей, связанных интерконнектом NeuronLink (768 Гбайт/с), имеют EFA-подключение со скоростью до 800 Гбит/c (вдвое выше, чем у нынешних GPU-инстансов) и предлагают до 8 Тбайт NVMe SSD.

AWS позволяет формировать кластеры из десятков тысяч Trainium, объединённых сетью петабитного класса и подключённых посредством Amazon FSx к петабайтному Lustre-хранилищу. Всё это позволяет быстро обучать гигантские модели. Для работы предлагается фирменный набор инструментов Neuron SDK (тот же, что и для AWS Inferentia), но есть и поддержка популярных фреймворков вроде Tensorflow или PyTorch. Trn1 пока что находятся в предварительном доступе по запросу.

Постоянный URL: http://servernews.ru/1054873
Система Orphus