Материалы по тегу: nervana

01.02.2020 [11:19], Геннадий Детинич

Intel «убила» разработку ИИ-чипа Nervana NNP-T, инженеры увольняются

Сегодня приметой времени стали разработки ускорителей для машинного обучения и искусственного интеллекта. Для инженеров и компаний это фронтир, где каждый шаг вперёд может означать успех или гибель.

Компания Intel тоже петляет по неизведанному пути, запуская одни проекты и убеждаясь в никчёмности других.

Образец ускорителя Intel NNP-T (вариант OAM)

Образец ускорителя Intel NNP-T (вариант OAM)

В своё время в компании Intel сделали ставку на ИИ-чипы компании Nervana. Этот израильский разработчик был поглощён Intel в 2016 году за $350 млн. В составе Intel инженеры Nervana создали, в частности, два актуальных решения: ускоритель для тренировки моделей NNP-T (кодовое имя Spring Crest) и ускоритель запуска обученных моделей NNP-I (кодовое имя Spring Hill). Образцы этих решений компания показала чуть больше месяца назад на конференции SC19 и якобы даже начала поставки этих решений клиентам.

Сегодня наши коллеги с сайта The Register сообщили, что Intel приняла решение прекратить дальнейшую разработку ускорителей NNP-T. Инференс NNP-I компания продолжит выпускать, совершенствовать и поставлять клиентам. Это решение представители Intel подтвердили источнику, который разместил официальный ответ компании у себя на страничке.

Система на базе PCIe-варианта NNP-T

Система на базе PCIe-варианта NNP-T

В Intel заявили, что «внесли стратегическое обновление» в планы разработки ИИ-ускорителей после поглощения в декабре прошлого года другой израильской компании ― Habana Labs, за которую отдали $2 млрд. В активе Habana есть успешно распространяемые ею ИИ-ускорители Goya и Gaudi, которые уже получили высокую оценку среди клиентов этой израильской компании. Похоже, испытания Nervana NNP-T в сравнении с платформами Habana выявили недостаточную конкурентоспособность прежних решений.

Система Habana Labs

Система Habana Labs

По данным источников, сотрудники Intel из бывшей компании Nervana уже начали увольняться и рассылать резюме по другим компаниям. Это, кстати, не единственный серьёзный проект, который Intel закрыла в прошлом году. Аналогичная судьба постигла ускорители Xeon Phi. Поставки этих решений и разработка новых моделей были остановлены.

Постоянный URL: http://servernews.ru/1002751
09.12.2019 [20:30], Алексей Степин

Intel начала поставки ИИ-ускорителей Nervana NNP

Образцы ускорителей Intel Nervana и готовых систем на их основе были продемонстрированы на выставке, сопутствующей конференции SC19.

Официальный анонс Intel состоялся ещё на мероприятии AI Summit в начале ноября, а совсем недавно стало известно о начале поставок первых партий этих ИИ-ускорителей заказчикам, в число которых входит компания Supermicro. Также появились точные данные об их технических характеристиках.

Образец ускорителя Intel NNP-T (вариант OAM)

Образец ускорителя Intel NNP-T (вариант OAM)

Начнём с мощных ускорителей Nervana на базе тензорного процессора NNP-T, известного под кодовым именем Spring Crest. Это 24-ядерный чип с производительностью около 120 Тераопс, способный работать с форматами BFloat16 или FP32/16/8. Он производится с использованием 16-нм техпроцесса и интегрирован с четырьмя сборками HBM2 общим объёмом 32 Гбайт.

Архитектура Intel NNP-T

Архитектура Intel NNP-T

В серию пока входит две модели ‒ NNP-T 1300 и NNP-T 1400, они выполнены в форм-факторах PCIe x16 4.0 и Open Accelerator Module (OAM). Поскольку формат PCIe ограничен в габаритах, он имеет менее мощную систему охлаждения. Поэтому в нём активно только 22 тензорных ядра из 24, а тактовая частота снижена до 950 МГц. Но даже с применением таких мер теплопакет составляет внушительные 300 Ватт.

Доступные на сегодня модели ускорителей на базе NNP-T

Доступные на сегодня модели ускорителей на базе NNP-T

Модель NNP-T 1400 благодаря формату OAM имеет более внушительный радиатор и здесь процессор работает в полную силу. Активны все ядра, а тактовая частота составляет 1100 МГц при теплопакете 375 Ватт. Объём памяти HBM2 у обеих версий одинаков и составляет 32 Гбайт. Также оба ускорителя имеют 16 линий интерфейса ICL (inter-chip link) для соединения с другими ускорителями в системе.

Система на базе PCIe-варианта NNP-T. Видны соединительные мостики ICL

Система на базе PCIe-варианта NNP-T. Видны соединительные мостики ICL

Масташбируемость у NNP-T высока, до 1024 процессоров, однако младшая модель ограничена меньшим числом и может использовать только кольцевую топологию ICL. А вот NNP-T 1400 могут быть сконфигурированы и в более сложные сети, например, «все соединены со всеми» или «гибридный куб». Компания Supermicro сообщила, что оба варианта систем на базе NNP-T уже готовы к массовому производству и их поставки начнутся в ближайшее время. Вероятнее всего, речь идёт о начале 2020 года.

Intel NNP-I, вариант M.2

Intel NNP-I, вариант M.2

Не забыла Intel и о решениях на базе процессора NNP-I (Spring Hill). Этот чип имеет совсем другую архитектуру и производится с испольованием 10-нм технологических норм. Его производительность варьируется в широких пределах, от 50 Тераопс у модели NNP-I 1100 до 170 Тераопс у NNP-I 1300. Соответственно, отличаются и теплопакеты: 12 и 75 Ватт. Стоит также напомнить, что в составе кристалла NNP-I имеются два ядра Sunny Cove с архитектурой x86. Их наличие существенно упростит разработку ПО под эти ускорители.

Доступные модели ускорителей на базе NNP-I

Доступные модели ускорителей на базе NNP-I

Младшая модель выполнена в популярном форм-факторе M.2 и использует 4 линии PCI Express 3.0. Старшая являет собой обычную плату расширения PCI Express x8 3.0. Благодаря большим размерам платы, на ней размещается сразу два 12-ядерных процессора NNP-I. На SC19 была показана версия в «линеечном» формате EDSFF, однако она пока не анонсирована официально.

Новый форм-фактор позволит разместить до 32 ускорителей в корпусе высотой 1U. Удельная производительность такой платформы очень высока: в сравнении с 4U-платформой на базе 20 ускорителей NVIDIA T4s решение Supermicro/Intel оказалось быстрее до 3,75 раз. Информации о сроках доступности NNP-I в формате EDSFF пока нет; остальные модели, как и было сказано в начале, уже поставляются заказчикам.

Постоянный URL: http://servernews.ru/999368
23.11.2019 [18:18], Алексей Степин

SC19: Inspur показала первые ускорители Intel Nervana NNP-T в формате Open Accelerator Module

Нашим читателям уже знакомо имя Inspur ‒ ранее она анонсировала на саммите OCP Regional Summit платформу для ускорителей в новом формате Open Accelerator Module (OAM).

Эти довольно компактные «кубики», похожие на SXM2, избавлены от недостатков, свойственных обычным ускорителям в формате PCI Express, легко монтируются и обладают развитой системой охлаждения. На выставку SC19 компания привезла уже готовые образцы таких ускорителей и платформ для них. 

Продемонстрированные ранее платформы других разработчиков, решивших использовать ускорители Intel Nervana NNP-T, реализованы с использованием PCIe-версии NNP-T, а вот Inspur стала первой, кто продемонстрировал и сам модуль OAM NNP-T, и платформу на его основе. В ней поддерживаются модули как с привычным напряжением питания 12 вольт, так и более прогрессивные, имеющие 54-вольтовую шину питания.

Система Inspur MX1 выполнена в достаточно компактном корпусе высотой 2U, но благодаря форм-фактору OAM, разработчику удалось разместить в системе сразу 8 ускорителей NNP-T. А поскольку основой платформы являются процессоры AMD EPYC 7002, поддерживается шина PCI Express 4.0 с более высокой скоростью передачи данных, нежели могут предложить решения на базе Xeon Scalable. Заявлено 112 Гбайт/с в двунаправленных соединениях «точка-точка».

Обслуживание новой платформы организовано удобно: достаточно выдвинуть отсек с ускорителями и заменить неисправный модуль, либо добавить в систему новый, в том случае, если изначальная конфигурация включала в себя меньшее их количество. По бокам от основного модуля видны 4 посадочных места половинной высоты. Они предназначены для установки высокоскоростных адаптеров InfiniBand или Ethernet.

Целиком отказываться от традиционных плат расширения компания не стала и показала также классические ускорители Intel Nervana L-1000: всё-таки инфраструктура OAM ещё весьма молода, а слоты PCI Express имеются практически в любом сервере, лишь бы хватило места и мощности системы охлаждения.

Другая новая система Inspur, NF5468M5, выглядит гораздо более громоздкой, нежели описанная выше версия с поддержкой OAM, но она относится к другому классу и возможности её шире: здесь поддерживается установка 16 новых тензорных ускорителей NVIDIA T4 и до 8 классических NVLink-модулей Tesla V100.

Система поистине универсальна, позволяет переключать топологию ускорителей буквально на лету и предназначена для широкого круга задач, от машинного обучения до применения в медицине и финансовых структурах. Емкость набортной подсистемы хранения данных составляет 384 Тбайт ‒ вполне неплохо для столь универсальной платформы.

Широко на выставке были представлены и другие новые платформы Inspur, например, NF5280M5 может похвастаться четырьмя ускорителями V100 PСIe в корпусе высотой всего 2U.  Система NF5488M5 вообще является первым в индустрии стандартным сервером, использующем коммутаторы NVIDIA NVSwitch и поддерживающим не только текущее поколение NVIDIA Volta, но и следующее (SXM3).

Для сравнения, NVIDIA DGX-1 при том же числе ускорителей использует менее производительную топологию соединений P2P, а DGX-2, хотя и несёт на борту 16 ускорителей и использует NVSwitch, но весьма громоздка и не слишком дружелюбна к подсистемам питания серверных, поскольку потребляет под нагрузкой 10 киловатт. В это же время NF5488M5 может потреблять менее 5 киловатт, обладая всеми преимуществами NVSwitch.

Имеется в арсенале компании и сервер AGX-5. Он базируется на партнёрском дизайне NVIDIA HGX-2. В корпусе высотой 8U расположены 2 процессора Xeon Scalable второго поколения и 16 ускорителей Tesla V100 с топологией NVSwitch. Поддерживаются модули SXM3 (Volta Next).

Более компактная Inspur AGX-2 также предназначена для создания систем класса HPC. При высоте всего 2U в системе размещается 8 ускорителей NVIDIA Tesla P100 или P40, но имеется и возможность расширения до 16 ускорителей за счет дополнительной «ускорительной полки» (JBOG). Система обладает поддержкой NVLink 2.0 и имеет 4 порта InfiniBand EDR со скоростью 100 Гбит/с.

Inspur уделяет внимание и другим процессорным архитектурам. Так, 4U-сервер FP5466G2 использует в качестве процессоров IBM POWER9 (Sforza) с частотой 2,75 ГГц. Максимальное количество ядер составляет всего 22 на процессор, но с учётом поддержки SMT4, система может предложить 176 тредов. Имеется 8 слотов PCI Express 4.0. Дисковая система вмещает до 40 накопителей формата 3,5″ ‒ 24 во фронтальных отсеках горячей замены и 16 в задних отсеках, причём, в последнем случае 4 отсека из 16 могут поддерживать NVMe.

Модель FP5280G2 имеет меньшую высоту, но использует те же процессоры POWER9. Количество слотов PCIe 4.0 аналогично более крупному собрату. А вот подсистема накопителей модульная: сервер можно сконфигурировать как 12 × 3,5″, так и как 24 × 2,5″. Возможна установка четырёх накопителей NVIDIA Tesla V100.

На базе POWER9 представлен также модульный сервер гетерогенных вычислений FP5468G2. Его модуль ускорителей может содержать как 16 однослотовых PCIe-плат NVIDIA T4, так и 8 блоков Tesla V100 с интерфейсом NVLink. Дисковые полки поддерживают до 24 накопителей формата 3,5″, 6 отсеков при этом могут содержать SSD с разъёмом U.2 NVMe.

Экспозиция Inspur вообще очень богата на различного рода экзотические решения. Так, помимо серверов с архитектурой POWER9, компания показала уникальный ускоритель F37X. Выглядит он как обычная двухслотовая карта расширения PCIe половинной длины, но под радиатором здесь установлена высокопроизводительная ПЛИС Xilinx Virtex UltraScale+ с более чем 2,8 миллионами ячеек системной логики и 9024 модулями DSP.

Это не просто ПЛИС, впервые в мире микросхеме самой матрицы сопутствует и 8 Гбайт памяти HBM2 с пропускной способностью 460 Гбайт/с. Новинка может обеспечить 28,1 тераопс (триллионов операций в секунду) на вычислениях формата INT8, потребляя при этом менее 75 ватт. Имеется также два порта 100GbE (QSFP28+). Спектр применения такого ускорителя весьма широк, от транскодирования видео до секвенирования генома.

Ускоритель Insupr F10A компактнее своего собрата F37X, а братьями их можно назвать постольку, поскольку эта новинка также использует ПЛИС, правда, другую ‒ Intel Arria 10 GX1150. Это 1,5 миллиона логических ячеек и свыше 427 тысяч модулей адаптивной логики, а также два порта 10GbE SFP+.  Объём оперативной памяти изменяемый, стандартная комплектация включает в себя 16 Гбайт DDR4 SODIMM. При потреблении всего 45 ватт данный ускоритель развивает примерно 1,37 терафлопс (FP32) и может работать даже в режиме пассивного охлаждения.

Постоянный URL: http://servernews.ru/998320
21.11.2019 [23:41], Алексей Степин

SC19: ИИ-ускорители Intel Nervana NNP-T в новых платформах SuperMicro

Мимо выставки, проходящей параллельно с конференцией SC19, не могла пройти такой крупный производитель и поставщик серверных аппаратных комплектующих и готовых платформ, как SuperMicro.

Это имя знакомо, наверное, всем, кто хоть как-то связан с серверным оборудованием. И на выставке новинки SuperMicro представлены весьма богато. Среди них есть весьма интересные наработки в популярной нынче сфере машинного обучения

К таким наработкам относится новая платформа на базе Nervana NNP-T, созданная в тесном сотрудничестве с корпорацией Intel. Как правило, в кластерах машинного обучения применяются графические ускорители NVIDIA, но в последнее время стали набирать популярность решения на базе специализированных чипов и FPGA. 

Основой новой кластерной платформы служат ускорители Intel Nervana. Они существуют в двух версиях, NNP-I (Spring Hill) и NNP-T (Spring Crest). Чип NNP-T представляет собой 16-нм 24-ядерный тензорный процессор, интегрированный с модулями памяти HBM2 объёмом 32 Гбайт.

Архитектура Intel NNP-T

Архитектура Intel NNP-T

Его производительность составляет примерно 120 Тераопс (триллионов операций в секунду) на частоте 1,1 ГГц, уровень энергопотребления варьируется в пределах 150 ‒ 250 Ватт. Каждое тензорное ядро имеет два блока перемножения матриц 32×32, форматы вычислений ‒ BFloat16 либо FP32/16/8. Также каждое ядро имеет небольшой объём собственной сверхбыстрой памяти, 2,5 Мбайт, 60 Мбайт на кристалл. Интерфейс у Spring Crest PCIe 4.0 x16, либо универсальный SerDes (16 линков x8).

Ускорители Intel NNP-T могут быть не только в формате PCI Express

Основой кластера SuperMicro для NNP-T является корпус высотой 4U, в котором можно разместить до восьми ускорителей Spring Crest. В качестве основных системных процессоров выбраны Xeon Scalable второго поколения; выбор не вполне понятный, поскольку они поддерживают только PCI Express 3.0, тогда как карты NNP-T могут работать и с PCI Express 4.0. Объём системной памяти одного узла ‒ до 6 Тбайт, не считая набортной HBM2 у ускорителей.

Таких узлов в кластере может быть до 128 (масштабируемость NNP-T ‒ до 1024 процессоров), что в пределе может дать свыше 15 Петаопс производительности. Демонстрируемая платформа позиционируется как иде