Материалы по тегу: nervana

01.02.2020 [11:19], Геннадий Детинич

Intel «убила» разработку ИИ-чипа Nervana NNP-T, инженеры увольняются

Сегодня приметой времени стали разработки ускорителей для машинного обучения и искусственного интеллекта. Для инженеров и компаний это фронтир, где каждый шаг вперёд может означать успех или гибель.

Компания Intel тоже петляет по неизведанному пути, запуская одни проекты и убеждаясь в никчёмности других.

Образец ускорителя Intel NNP-T (вариант OAM)

Образец ускорителя Intel NNP-T (вариант OAM)

В своё время в компании Intel сделали ставку на ИИ-чипы компании Nervana. Этот израильский разработчик был поглощён Intel в 2016 году за $350 млн. В составе Intel инженеры Nervana создали, в частности, два актуальных решения: ускоритель для тренировки моделей NNP-T (кодовое имя Spring Crest) и ускоритель запуска обученных моделей NNP-I (кодовое имя Spring Hill). Образцы этих решений компания показала чуть больше месяца назад на конференции SC19 и якобы даже начала поставки этих решений клиентам.

Сегодня наши коллеги с сайта The Register сообщили, что Intel приняла решение прекратить дальнейшую разработку ускорителей NNP-T. Инференс NNP-I компания продолжит выпускать, совершенствовать и поставлять клиентам. Это решение представители Intel подтвердили источнику, который разместил официальный ответ компании у себя на страничке.

Система на базе PCIe-варианта NNP-T

Система на базе PCIe-варианта NNP-T

В Intel заявили, что «внесли стратегическое обновление» в планы разработки ИИ-ускорителей после поглощения в декабре прошлого года другой израильской компании ― Habana Labs, за которую отдали $2 млрд. В активе Habana есть успешно распространяемые ею ИИ-ускорители Goya и Gaudi, которые уже получили высокую оценку среди клиентов этой израильской компании. Похоже, испытания Nervana NNP-T в сравнении с платформами Habana выявили недостаточную конкурентоспособность прежних решений.

Система Habana Labs

Система Habana Labs

По данным источников, сотрудники Intel из бывшей компании Nervana уже начали увольняться и рассылать резюме по другим компаниям. Это, кстати, не единственный серьёзный проект, который Intel закрыла в прошлом году. Аналогичная судьба постигла ускорители Xeon Phi. Поставки этих решений и разработка новых моделей были остановлены.

Постоянный URL: http://servernews.ru/1002751
09.12.2019 [20:30], Алексей Степин

Intel начала поставки ИИ-ускорителей Nervana NNP

Образцы ускорителей Intel Nervana и готовых систем на их основе были продемонстрированы на выставке, сопутствующей конференции SC19.

Официальный анонс Intel состоялся ещё на мероприятии AI Summit в начале ноября, а совсем недавно стало известно о начале поставок первых партий этих ИИ-ускорителей заказчикам, в число которых входит компания Supermicro. Также появились точные данные об их технических характеристиках.

Образец ускорителя Intel NNP-T (вариант OAM)

Образец ускорителя Intel NNP-T (вариант OAM)

Начнём с мощных ускорителей Nervana на базе тензорного процессора NNP-T, известного под кодовым именем Spring Crest. Это 24-ядерный чип с производительностью около 120 Тераопс, способный работать с форматами BFloat16 или FP32/16/8. Он производится с использованием 16-нм техпроцесса и интегрирован с четырьмя сборками HBM2 общим объёмом 32 Гбайт.

Архитектура Intel NNP-T

Архитектура Intel NNP-T

В серию пока входит две модели ‒ NNP-T 1300 и NNP-T 1400, они выполнены в форм-факторах PCIe x16 4.0 и Open Accelerator Module (OAM). Поскольку формат PCIe ограничен в габаритах, он имеет менее мощную систему охлаждения. Поэтому в нём активно только 22 тензорных ядра из 24, а тактовая частота снижена до 950 МГц. Но даже с применением таких мер теплопакет составляет внушительные 300 Ватт.

Доступные на сегодня модели ускорителей на базе NNP-T

Доступные на сегодня модели ускорителей на базе NNP-T

Модель NNP-T 1400 благодаря формату OAM имеет более внушительный радиатор и здесь процессор работает в полную силу. Активны все ядра, а тактовая частота составляет 1100 МГц при теплопакете 375 Ватт. Объём памяти HBM2 у обеих версий одинаков и составляет 32 Гбайт. Также оба ускорителя имеют 16 линий интерфейса ICL (inter-chip link) для соединения с другими ускорителями в системе.

Система на базе PCIe-варианта NNP-T. Видны соединительные мостики ICL

Система на базе PCIe-варианта NNP-T. Видны соединительные мостики ICL

Масташбируемость у NNP-T высока, до 1024 процессоров, однако младшая модель ограничена меньшим числом и может использовать только кольцевую топологию ICL. А вот NNP-T 1400 могут быть сконфигурированы и в более сложные сети, например, «все соединены со всеми» или «гибридный куб». Компания Supermicro сообщила, что оба варианта систем на базе NNP-T уже готовы к массовому производству и их поставки начнутся в ближайшее время. Вероятнее всего, речь идёт о начале 2020 года.

Intel NNP-I, вариант M.2

Intel NNP-I, вариант M.2

Не забыла Intel и о решениях на базе процессора NNP-I (Spring Hill). Этот чип имеет совсем другую архитектуру и производится с испольованием 10-нм технологических норм. Его производительность варьируется в широких пределах, от 50 Тераопс у модели NNP-I 1100 до 170 Тераопс у NNP-I 1300. Соответственно, отличаются и теплопакеты: 12 и 75 Ватт. Стоит также напомнить, что в составе кристалла NNP-I имеются два ядра Sunny Cove с архитектурой x86. Их наличие существенно упростит разработку ПО под эти ускорители.

Доступные модели ускорителей на базе NNP-I

Доступные модели ускорителей на базе NNP-I

Младшая модель выполнена в популярном форм-факторе M.2 и использует 4 линии PCI Express 3.0. Старшая являет собой обычную плату расширения PCI Express x8 3.0. Благодаря большим размерам платы, на ней размещается сразу два 12-ядерных процессора NNP-I. На SC19 была показана версия в «линеечном» формате EDSFF, однако она пока не анонсирована официально.

Новый форм-фактор позволит разместить до 32 ускорителей в корпусе высотой 1U. Удельная производительность такой платформы очень высока: в сравнении с 4U-платформой на базе 20 ускорителей NVIDIA T4s решение Supermicro/Intel оказалось быстрее до 3,75 раз. Информации о сроках доступности NNP-I в формате EDSFF пока нет; остальные модели, как и было сказано в начале, уже поставляются заказчикам.

Постоянный URL: http://servernews.ru/999368
23.11.2019 [18:18], Алексей Степин

SC19: Inspur показала первые ускорители Intel Nervana NNP-T в формате Open Accelerator Module

Нашим читателям уже знакомо имя Inspur ‒ ранее она анонсировала на саммите OCP Regional Summit платформу для ускорителей в новом формате Open Accelerator Module (OAM).

Эти довольно компактные «кубики», похожие на SXM2, избавлены от недостатков, свойственных обычным ускорителям в формате PCI Express, легко монтируются и обладают развитой системой охлаждения. На выставку SC19 компания привезла уже готовые образцы таких ускорителей и платформ для них. 

Продемонстрированные ранее платформы других разработчиков, решивших использовать ускорители Intel Nervana NNP-T, реализованы с использованием PCIe-версии NNP-T, а вот Inspur стала первой, кто продемонстрировал и сам модуль OAM NNP-T, и платформу на его основе. В ней поддерживаются модули как с привычным напряжением питания 12 вольт, так и более прогрессивные, имеющие 54-вольтовую шину питания.

Система Inspur MX1 выполнена в достаточно компактном корпусе высотой 2U, но благодаря форм-фактору OAM, разработчику удалось разместить в системе сразу 8 ускорителей NNP-T. А поскольку основой платформы являются процессоры AMD EPYC 7002, поддерживается шина PCI Express 4.0 с более высокой скоростью передачи данных, нежели могут предложить решения на базе Xeon Scalable. Заявлено 112 Гбайт/с в двунаправленных соединениях «точка-точка».

Обслуживание новой платформы организовано удобно: достаточно выдвинуть отсек с ускорителями и заменить неисправный модуль, либо добавить в систему новый, в том случае, если изначальная конфигурация включала в себя меньшее их количество. По бокам от основного модуля видны 4 посадочных места половинной высоты. Они предназначены для установки высокоскоростных адаптеров InfiniBand или Ethernet.

Целиком отказываться от традиционных плат расширения компания не стала и показала также классические ускорители Intel Nervana L-1000: всё-таки инфраструктура OAM ещё весьма молода, а слоты PCI Express имеются практически в любом сервере, лишь бы хватило места и мощности системы охлаждения.

Другая новая система Inspur, NF5468M5, выглядит гораздо более громоздкой, нежели описанная выше версия с поддержкой OAM, но она относится к другому классу и возможности её шире: здесь поддерживается установка 16 новых тензорных ускорителей NVIDIA T4 и до 8 классических NVLink-модулей Tesla V100.

Система поистине универсальна, позволяет переключать топологию ускорителей буквально на лету и предназначена для широкого круга задач, от машинного обучения до применения в медицине и финансовых структурах. Емкость набортной подсистемы хранения данных составляет 384 Тбайт ‒ вполне неплохо для столь универсальной платформы.

Широко на выставке были представлены и другие новые платформы Inspur, например, NF5280M5 может похвастаться четырьмя ускорителями V100 PСIe в корпусе высотой всего 2U.  Система NF5488M5 вообще является первым в индустрии стандартным сервером, использующем коммутаторы NVIDIA NVSwitch и поддерживающим не только текущее поколение NVIDIA Volta, но и следующее (SXM3).

Для сравнения, NVIDIA DGX-1 при том же числе ускорителей использует менее производительную топологию соединений P2P, а DGX-2, хотя и несёт на борту 16 ускорителей и использует NVSwitch, но весьма громоздка и не слишком дружелюбна к подсистемам питания серверных, поскольку потребляет под нагрузкой 10 киловатт. В это же время NF5488M5 может потреблять менее 5 киловатт, обладая всеми преимуществами NVSwitch.

Имеется в арсенале компании и сервер AGX-5. Он базируется на партнёрском дизайне NVIDIA HGX-2. В корпусе высотой 8U расположены 2 процессора Xeon Scalable второго поколения и 16 ускорителей Tesla V100 с топологией NVSwitch. Поддерживаются модули SXM3 (Volta Next).

Более компактная Inspur AGX-2 также предназначена для создания систем класса HPC. При высоте всего 2U в системе размещается 8 ускорителей NVIDIA Tesla P100 или P40, но имеется и возможность расширения до 16 ускорителей за счет дополнительной «ускорительной полки» (JBOG). Система обладает поддержкой NVLink 2.0 и имеет 4 порта InfiniBand EDR со скоростью 100 Гбит/с.

Inspur уделяет внимание и другим процессорным архитектурам. Так, 4U-сервер FP5466G2 использует в качестве процессоров IBM POWER9 (Sforza) с частотой 2,75 ГГц. Максимальное количество ядер составляет всего 22 на процессор, но с учётом поддержки SMT4, система может предложить 176 тредов. Имеется 8 слотов PCI Express 4.0. Дисковая система вмещает до 40 накопителей формата 3,5″ ‒ 24 во фронтальных отсеках горячей замены и 16 в задних отсеках, причём, в последнем случае 4 отсека из 16 могут поддерживать NVMe.

Модель FP5280G2 имеет меньшую высоту, но использует те же процессоры POWER9. Количество слотов PCIe 4.0 аналогично более крупному собрату. А вот подсистема накопителей модульная: сервер можно сконфигурировать как 12 × 3,5″, так и как 24 × 2,5″. Возможна установка четырёх накопителей NVIDIA Tesla V100.

На базе POWER9 представлен также модульный сервер гетерогенных вычислений FP5468G2. Его модуль ускорителей может содержать как 16 однослотовых PCIe-плат NVIDIA T4, так и 8 блоков Tesla V100 с интерфейсом NVLink. Дисковые полки поддерживают до 24 накопителей формата 3,5″, 6 отсеков при этом могут содержать SSD с разъёмом U.2 NVMe.

Экспозиция Inspur вообще очень богата на различного рода экзотические решения. Так, помимо серверов с архитектурой POWER9, компания показала уникальный ускоритель F37X. Выглядит он как обычная двухслотовая карта расширения PCIe половинной длины, но под радиатором здесь установлена высокопроизводительная ПЛИС Xilinx Virtex UltraScale+ с более чем 2,8 миллионами ячеек системной логики и 9024 модулями DSP.

Это не просто ПЛИС, впервые в мире микросхеме самой матрицы сопутствует и 8 Гбайт памяти HBM2 с пропускной способностью 460 Гбайт/с. Новинка может обеспечить 28,1 тераопс (триллионов операций в секунду) на вычислениях формата INT8, потребляя при этом менее 75 ватт. Имеется также два порта 100GbE (QSFP28+). Спектр применения такого ускорителя весьма широк, от транскодирования видео до секвенирования генома.

Ускоритель Insupr F10A компактнее своего собрата F37X, а братьями их можно назвать постольку, поскольку эта новинка также использует ПЛИС, правда, другую ‒ Intel Arria 10 GX1150. Это 1,5 миллиона логических ячеек и свыше 427 тысяч модулей адаптивной логики, а также два порта 10GbE SFP+.  Объём оперативной памяти изменяемый, стандартная комплектация включает в себя 16 Гбайт DDR4 SODIMM. При потреблении всего 45 ватт данный ускоритель развивает примерно 1,37 терафлопс (FP32) и может работать даже в режиме пассивного охлаждения.

Постоянный URL: http://servernews.ru/998320
21.11.2019 [23:41], Алексей Степин

SC19: ИИ-ускорители Intel Nervana NNP-T в новых платформах SuperMicro

Мимо выставки, проходящей параллельно с конференцией SC19, не могла пройти такой крупный производитель и поставщик серверных аппаратных комплектующих и готовых платформ, как SuperMicro.

Это имя знакомо, наверное, всем, кто хоть как-то связан с серверным оборудованием. И на выставке новинки SuperMicro представлены весьма богато. Среди них есть весьма интересные наработки в популярной нынче сфере машинного обучения

К таким наработкам относится новая платформа на базе Nervana NNP-T, созданная в тесном сотрудничестве с корпорацией Intel. Как правило, в кластерах машинного обучения применяются графические ускорители NVIDIA, но в последнее время стали набирать популярность решения на базе специализированных чипов и FPGA. 

Основой новой кластерной платформы служат ускорители Intel Nervana. Они существуют в двух версиях, NNP-I (Spring Hill) и NNP-T (Spring Crest). Чип NNP-T представляет собой 16-нм 24-ядерный тензорный процессор, интегрированный с модулями памяти HBM2 объёмом 32 Гбайт.

Архитектура Intel NNP-T

Архитектура Intel NNP-T

Его производительность составляет примерно 120 Тераопс (триллионов операций в секунду) на частоте 1,1 ГГц, уровень энергопотребления варьируется в пределах 150 ‒ 250 Ватт. Каждое тензорное ядро имеет два блока перемножения матриц 32×32, форматы вычислений ‒ BFloat16 либо FP32/16/8. Также каждое ядро имеет небольшой объём собственной сверхбыстрой памяти, 2,5 Мбайт, 60 Мбайт на кристалл. Интерфейс у Spring Crest PCIe 4.0 x16, либо универсальный SerDes (16 линков x8).

Ускорители Intel NNP-T могут быть не только в формате PCI Express

Основой кластера SuperMicro для NNP-T является корпус высотой 4U, в котором можно разместить до восьми ускорителей Spring Crest. В качестве основных системных процессоров выбраны Xeon Scalable второго поколения; выбор не вполне понятный, поскольку они поддерживают только PCI Express 3.0, тогда как карты NNP-T могут работать и с PCI Express 4.0. Объём системной памяти одного узла ‒ до 6 Тбайт, не считая набортной HBM2 у ускорителей.

Таких узлов в кластере может быть до 128 (масштабируемость NNP-T ‒ до 1024 процессоров), что в пределе может дать свыше 15 Петаопс производительности. Демонстрируемая платформа позиционируется как идеальное решение для обучения нейросетей машинного зрения и распознавания речи, медицинской аналитики (реконструкция томограмм и т.п.), оснащения автономных транспортных средств, а также для исследований в нефтегазовой отрасли.

Разумеется, SuperMicro не ограничилась одной новой платформой, а представила также и ряд более классических новинок. К примеру, одной из таких новинок является сервер AS-4124GS-TNR. Он использует процессоры AMD EPYC второго поколения, 11 слотов расширения PCI Express 4.0 позволяют устанавливать до 8 полноразмерных ускорителей, таких, как NVIDIA Tesla или Quadro.

В этой системе поддерживаются новейшая версия Tesla

Полностью поддерживаются новейшие ускорители Tesla V100S с повышенной производительностью и HBM2. Заказчик может выбирать конфигурацию дисковой подсистемы, набираемой модулями по 16 дисков SATA либо 4 накопителя NVMe. 32 разъёма DDR4 DIMM позволяют установить до 8 Тбайт оперативной памяти. За питание этого монстра отвечает связка блоков питания 2 + 2 мощностью 2000 Ватт каждый.

Компания показала и новые сверхплотные лезвийные системы серии A+. Они также получили поддержку EPYC 7002, каждое из четырёх лезвий в шасси может нести по два 64-ядерных процессора AMD и по 4 Тбайт оперативной памяти. Установка однослотовых плат PCIe поддерживается, но для сетевых карт применяется компактный форм-фактор SIOM. Питается такой мини-кластер от блока питания мощностью 2200 Ватт. Каждое из четырёх лезвий имеет собственный шестидисковый отсек формата 2,5 в передней части корпуса системы.

Представляет интерес также новые системы хранения данных, к примеру, гибридная SYS-1029U-TN12RV. Она весьма компактна, занимает всего 1U в высоту, но в ней нашлось место для пары Xeon Scalable. Если это процессоры второго поколения, объём модулей Optane DC может достигать 6 Тбайт, а основное хранилище состоит из 12 двухдюймовых отсеков с поддержкой NVMe.

Похожими возможностями обладает SYS-1029P-N32R, но в ней количество накопителей с разъёмом U.2 достигает 32. Здесь интересна конструкция дисковых отсеков ‒ они выдвигаются подобно вычислительным лезвиям, накопители устанавливаются с боковых сторон.

А вот система SSG-1029P-NES32R представляет собой пример решения на базе накопителей «линеечного» формата EDSFF Short. На ухищрения по размещению накопителей здесь идти не пришлось, «линеечный» формат позволяет устанавливать рядом сразу 32 накопителя с поддержкой NVMe.

Линеечный форм-фактор твердотельных накопителей имеет свои преимущества

Также демонстрировалась и более крупная система SYS-8049U-E1CR4T. В ней уже четыре процессорных разъёма LGA 3647, а дисковая подсистема реализована 24 отсеками с горячей заменой формата 3,5″. Поддерживаются стандарты SAS и SATA, аппаратный RAID, опционально ‒ NVMe.

Классичекская платформа: четыре Xeon Scalable, 24 «больших» диска и сертификация SAP HANA

Наконец, SuperMicro показала новые суперсерверы серии SuperBlade. Модель SBE-820C-622 позволяет устанавливать до 20 двухпроцессорных узлов Xeon Scalable, либо 10 четырёхпроцессорных узлов. Поддерживаются смешанные конфигурации, до 15 узлов. Один из отсеков занимает коммутатор класса 100Gb (InfiniBand или Intel OmniPath).

Дополнительно можно установить до двух коммутаторов 10GbE. Конфигурация питания зависит от типа и количества установленных процессорных модулей, в максимальной конфигурации это 8 блоков мощностью по 2200 Ватт. Любопытна также модульная конструкция самих лезвий ‒ передний отсек может содержать либо 3 корзины для накопителей формата 2,5″, 2 корзины с поддержкой NVMe, либо полноценное место для установки однослотовой платы расширения PCI Express. Таким образом, описываемая система обладает большой гибкостью и может быть сконфигурирована в точности с нуждами заказчика. 

Постоянный URL: http://servernews.ru/998175
25.02.2017 [11:30], Валерий Косихин

Intel предлагает полный стек ПО для машинного обучения искусственного интеллекта

На прошедшем недавно в Мюнхене мероприятии Intel AI Day компания обнародовала подробное описание своих программных продуктов, связанных с машинным обучением и искусственным интеллектом в целом. Портфолио ПО Intel образовано двумя сферами, одна из которых представляет накопление данных путем машинного обучения, а другая — доступ к данными и их обработку.

На низком уровне стека Intel предлагает проприетарный набор математических библиотек MKL (Math Kernel Library), в который входят вычислительные примитивы для глубинного обучения. Функции библиотек оптимизированы под собственную аппаратуру Intel — процессоры Xeon и укорители Xeon Phi, в частности, с использованием 512-битных расширений AVX. Стандартные API на языках C и Fortran позволяют легко интегрировать Intel MKL в готовые приложения.

С другой стороны, существует библиотека с открытым исходным кодом Intel MKL-DNN (Math Kernel Library for Deep Neural Networks), предназначенная специально для глубинного обучения, в которую разработчики могут включать сторонние функции, отсутствующие в Intel MKL. Другая библиотека Intel DAAL (Data Analytics Acceleration Library) состоит из аналитических функций, совместимых с популярным статистическим ПО и платформами обработки данных — Hadoop, Spark, R и пр.

Все библиотеки рассчитаны на работу с популярными фреймворками глубинного обучения, среди которых есть версии Caffe и Theano, оптимизированные для чипов Xeon. Помимо прочего, Intel внедрила в эти платформы возможности эффективного распределения нагрузки между множественными узлами в кластере. Фреймворк глубинного обучения Neon, разработанный фирмой Nervana (создателем кремния Lake Crest и Knights Crest), также перешел в распоряжение Intel и в будущем будет дополнен ПО Nervana Graph Complier — прослойкой для масштабирования и оптимизации в задачах тренировки нейросетей. Intel также владеет собственным вариантом Python — Neon работает именно на этом языке.

Существует и отдельная библиотека для коммуникации между узлами (Intel Deep Learning Multi-node Scaling Library), а в будущем компания собирается выпустить полный API для масштабирования глубинного обучения (Machine Learning Scaling Library — MLSL).

Наконец, Intel выпустила собственную среду для обучения и внедрения глубинных нейросетей в виде Intel Deep Learning SDK. Пакет включает графический интерфейс, с помощью которого исследователь или администратор сможет установить оптимизированные для архитектуры Intel фреймворки глубинного обучения, запустить и наблюдать за процессом тренировки сети. Кроме того, есть инструмент командной строки для импорта готовых моделей, созданных в различных фреймворках, и runtime-библиотека для применения нейросети (inference). SDK совместим с операционными системами Linux и macOS, однако inference поддерживается только в Linux.

Другой подход к искусственному интеллекту воплощает Natural Intelligence Platform, разработанная компанией Saffron, которая также теперь входит в состав Intel. В основе NIP лежит база данных, построенная по принципам, сходным с человеческой ассоциативной памятью. В привычных реляционных СУБД данные хранятся в виде таблиц «строка-колонка». В системе Saffron основным форматом представления данных является матрица, принадлежащая каждой отдельной сущности. Если речь идет о базе заказов предприятия, то сущностями могут быть компания, регион, контактное лицо, номер заказа и пр.

В матрице, в свою очередь, отражены отношения между другими сущностями: например, в матрице страны это отношения между номером заказа и контактным лицом. При этом матрица компании содержит отношения между страной и номером заказа, а в целом подобные матрицы исчерпывают все возможные комбинации сущностей. Благодаря такой структуре Saffron позволяет разворачивать легко масштабируемые и гибкие базы, в которых изначально заложены функции анализа данных и принятия решений. А в качестве сырого материала могут выступать как данные, собранные вручную, так и полученные методом машинного обучения.

Постоянный URL: http://servernews.ru/948008
Система Orphus