Материалы по тегу: sc19

30.11.2019 [12:56], Геннадий Детинич

Seagate отдала права на торговую марку Lustre открытому сообществу

Как сообщает insideHPC, с компанией Seagate достигнуто соглашение, согласно которому она возвращает права на торговую марку Lustre открытому сообществу в лице организаций OpenSFS и EOFS.

Lustre — это высокопараллельная распределённая файловая система. Она оказалась крайне удобной для организации крупномасштабных кластерных вычислений и занимает высокие места в рейтинге IO500.

Система родилась в 1999 году как университетский проект и вышла в виде первого релиза в 2003 году стараниями компании Cluster File Systems, которую основали разработчики Lustre. В 2007 году Cluster File Systems (и права на Lustre) покупает Sun Microsystems. В апреле 2010 году компанию Sun Microsystems поглотила Oracle, а уже в декабре того же года Oracle объявила о прекращении развития Lustre.

Развитием этой системы занялись созданные тогда же организации OpenSFS и EOFS, ориентированные на разработчиков с поддержкой открытого кода (Oracle разрешила распространение Lustre под лицензией GPL).

Пример архитектуры Lustre

Пример архитектуры Lustre

К компании Seagate домен и одноимённая торговая марка Lustre попала в декабре 2013 года. В этот время она поглотила компанию Xyratex, владеющую правами на Lustre. Компания Xyratex, в свою очередь, приобрела оригинальную торговую марку Lustre, логотип, веб-сайт и связанную интеллектуальную собственность у Oracle в феврале 2013 года.

Переговоры с Seagate между OpenSFS и EOFS о возврате торговой марки Lustre и сайта открытому сообществу были завершены менее месяца назад. На конференции SC 2019 представители OpenSFS заявили, что Seagate согласилась передать права на торговую марку и логотип сообществу разработчиков Lustre.

Постоянный URL: http://servernews.ru/998805
29.11.2019 [18:45], Игорь Осколков

SC19: HPC-решения Lenovo ThinkSystem — от Тфлопс до Пфлопс один шаг

Подход Lenovo к HPC-решениям отличается от, так сказать, «классического». В основу положены унификация и масштабируемость. Под первым подразумевается не только снижение числа различающихся шасси и узлов с целью повышения совместимости, но и принципиальное использование исключительно стандартных 19” стоек. В отличие от решений, например, Cray или Atos, которые используют собственные широкие узлы и стойки, серверы Lenovo позволяют обновить парк машин без изменений уже имеющейся инфраструктуры ЦОД. Причём речь не только о питании, охлаждении и сети — даже планировка и лифтовое оснащение дата-центра могут оказаться непригодными для транспортировки и инсталляции нестандартных решений.

Узел Lenovo ThinkSystem SD650

Узел Lenovo ThinkSystem SD650

К тому же у Lenovo имеются версии одних и тех же машин как с прямым водяным Direct Water Cooling (DWC), так и с привычным воздушным охлаждением. Кроме того, несколько лет назад Lenovo ещё больше упростила процесс установки, предоставляя заказчикам готовые, собранные и протестированные решения, которые на месте собираются как конструктор Lego с минимальными усилиями со стороны персонала ЦОД. Унификация ведёт и к лёгкой масштабируемости — компания не делает принципиальных различий между системами в пару петафлопс и в пару сотен петафлопс. Если надо комплекс в половину стойки, поставят его. Если надо два десятка стоек — тоже не проблема.

Собственно говоря, на выставке нам удалось пообщаться с Риком Купманом (Rick Koopman), отвечающим в Lenovo за решения для HPC и гиперскейла в регионе EMEA. Нетрудно догадаться, что в компанию он пришёл из IBM. Он же провёл небольшую экскурсию по стенду и ответил на несколько вопросов о работе и планах компании. Но начнём мы со стенда.

Шасси для ThinkSystem SD650

Шасси для ThinkSystem SD650

Пожалуй, ключевым решением для HPC являются машины серии ThinkSystem SD650 для шасси NeXtScale n1200 высотой 6U, которое позволяет разместить 12 узлов и предоставляет 6 общих блоков питания и 10 кулеров. Каждый узел имеет два процессора Intel Xeon Scalable (Skylake или Cascade Lake), 12 слотов памяти (DDR4 с Intel Optane DCPMM), разъёмы ML2 (Mezzanine LOM) и PCIe x16 для 100Gb-адаптеров EDR InfiniBand или Intel Omni Path, дисковую корзину для 2,5” SSD 2 × 7-мм SATA или 1 × 15-мм NVMe + пары M.2 с аппаратным RAID1, а также два 1GbE-порта для служебных нужд.

Отличительной чертой данного решения является прямое жидкостное охлаждение DWC Lenovo Neptune, а точнее говоря, её строение. Компания отдельно подчёркивает, что, во-первых, абсолютно все компоненты охлаждаются именно жидкостью DWC, а во-вторых, конкретно для CPU, которые в это цепочке стоят первыми, используются отдельные потоки. То есть на входе поток делится пополам и идёт сразу через два узла, и в каждом из них снова разделяется надвое и омывает оба процессора одновременно. Это, с одной стороны, позволяет использовать самые горячие модели CPU (с TDP до 240 Вт), причём поддерживать их работу на турбо-частотах гораздо дольше. С другой стороны, такой подход гарантирует единообразие работы обоих CPU и предсказуемость, что крайне важно в HPC-среде.

Узел Lenovo ThinkSystem SD350

Узел Lenovo ThinkSystem SD350

Таким образом, КПД теплоотвода достигает 90%, что позволяет использовать на входе горячую воду (буквально, до 50 °C) и достигать разницы температур на входе и выходе в 25 °C, что, в свою очередь, даёт возможность использования фрикулинга и сухих градирен, а не чиллеров. А это очевидная экономия на электроэнергии. Lenovo говорит о сокращении энергопотребления на 30-40% при попутном росте производительности в сравнении с обычным воздушным охлаждением. При этом для Lenovo Neptune это не предел — будущие шасси будут иметь уже девять, а не шесть блоков питания. Они тоже получат жидкостное охлаждение как и грядущие ускорители NVIDIA в форм-факторе SXM3 с TDP на уровне 300 Вт, для которых эти БП и понадобятся.

Thermal Transfer Module

Thermal Transfer Module

Впрочем, о гибридных и воздушных системах охлаждения Lenovo тоже не забывает и старается сделать их более эффективными. В частности, машины ThinkSystem SD530 для шасси D2, которые находятся где-то посередине между классическими HPC-системами и просто высокоплотными решениями, ту же задачу по поддержке равных температур у обоих CPU внутри узла решают иным путём. Первый CPU, стоящий на пути воздушного потока, имеет обычный радиатор, а второй, за ним, может оснащаться Т-образным радиатором Thermal Transfer Module с тепловыми трубками, который за счёт такой формы имеет большую площадь оребрения и захватывает более холодный поток, проходящий мимо первого процессора. Это позволяет даже для воздушной СО использовать CPU с TDP до 205 Вт.

Сама же SD530 является привычной модульной 2U-системой для четырёх узлов с общим для всех блоком, содержащем кулеры, два БП, 16 слотов PCIe и сетевые интерфейсы. Узлы могут быть высотой 1U и содержать два процессора Intel Xeon Scalable + 16 слотов памяти + адаптер для пары M.2. Или же 2U — всё то же самое + два полноразмерных PCIe-ускорителя. Стоит ждать и вариантов с ускорителями формата SXM3. Все типы узлов поддерживают установку 2,5” накопителей: 6 × SAS/SATA или 4 × NVMe на каждый узел.

Шасси Lenovo ThinkSystem SR670

Шасси Lenovo ThinkSystem SR670

Для задач, активно использующих ускорители в формате PCIe-карт, у Lenovo есть отдельное 2U-решение — ThinkSystem SR670. Платформа базируется на двух CPU Intel Xeon Scalable, имеет 24 разъёма для модулей памяти, предлагает 8 посадочных мест для 2,5” SATA-накопителей и пару слотов M.2. Отличительная черта конструкции шасси — 3 корзины с разъёмами PCIe. Одна предназначена для установки сетевых адаптеров, она имеет 2 слота x16 и 1 слот x4. Две другие, съёмные, имеют по четыре слота каждая. В каждую из них можно установить либо два полноразмерных ускорителя с шиной x16, либо четыре четыре однослотовых ускорителя с шиной x8.

Корзины ускорителей ThinkSystem SR670

Корзины ускорителей ThinkSystem SR670

Помимо аппаратной части не менее важна и программная. Совместно с суперкомпьютерным центром университета Барселоны Lenovo уже некоторое время занимается проектом EAR — Energy Aware Runtime. EAR позволяет оценить реальную эффективность приложений, выявить зависимость производительности от частоты и, как следствие, энергопотребления кластера, суперкомпьютера или ЦОД в целом. После оценки EAR автоматически управляет работой системы в целом и позволяет добиться не только повышения энергоэффективности, но и предсказуемости времени вычислений. Ведь порой бывает так, что за 1% прироста скорости работы приходится «заплатить» ростом частоты и тепловыделения CPU на десятки процентов, что далеко не всегда оправданно.

Впрочем, все эти решения были представлены в последние год-полтора, а вот из действительно свежих продуктов, которые как раз отвечают современным тенденциям, на SC19 Lenovo показала edge-сервер ThinkSystem SE350 для пограничных или, как их ещё называют, периферийных вычислений. Такие машины ставятся в буквальном смысле на границе сети и (пред-) обрабатывают данные с датчиков интернета вещей, умных устройств, промышленного оборудования, интеллектуальных систем видеонаблюдения и так далее. В общем, в тех случаях, когда потоки данных разумнее препарировать на месте, или когда иного выбора просто нет.

Lenovo ThinkSystem SE350

Lenovo ThinkSystem SE350

К таким системам предъявляются особые требования, которые не всегда легко исполнить одновременно: высокая производительность, компактность, автономность, малое энергопотребление, повышенная надёжность, готовность работать в неблагоприятных условиях. С приходом 5G подобные системы станут крайне востребованными в сочетании с ИИ в больших ЦОД, и ближайшее будущее как раз за ними, считает Рик Купман. В качестве примера подобного удачного решения он привёл опыт компании, занимающейся ветроустановками, которая смогла за счёт объединения прогнозов погоды из внешнего источника и данных с множества датчиков турбин по всему миру резко повысить эффективность и надёжность работы последних, получив возможность интеллектуально управлять ими и заранее предсказывать поломки.

Что касается SE350, то это узкий 1U-сервер на базе Intel Xeon D-2100 — до 16 ядер и до 256 Гбайт RAM. Дисковая подсистема поддерживает установку двух накопителей M.2 2280 и до десяти M.2 22110. Шасси позволяет установить низкопрофильную карту вроде NVIDIA T4 или другой ускоритель на базе FPGA/ASIC/GPU. Сетевых интерфейсов на выбор великое множество: доступны проводные порты 1/10GbE в различных сочетаниях (в том числе с коммутатором), адаптеры Wi-Fi/Bluetooth и модемы 3G/4G, а в будущем и 5G. Питается сервер от внешнего источника DC 48 В. Возможна установка как отдельной машины, так и шкафа на 2-4 узла вкупе с БП. Устройство рассчитано на работу в диапазоне от 0 до 55 °C, есть варианты исполнения с пылевлагозащитой. Кроме того, предусмотрены различные программные и аппаратные системы защиты данных и оборудования.

По словам представителя Lenovo, у нас в стране основными HPC-заказчиками являются ведущие научно-исследовательские и образовательные институты и университеты, крупнейшие государственные и частные компании. Любопытно, что в целом растёт интерес к GPU-решениям. Дело не только в возросшей роли машинного обучения, но и в активном портировании имеющихся приложений с CPU на GPU.

Постоянный URL: http://servernews.ru/998448
28.11.2019 [13:03], Алексей Степин

SC19: открытый стандарт OpenCAPI продолжает борьбу с PCI Express

Консорциум OpenCAPI был основан в октябре 2016 года, в него вошли такие известные компании как AMD, IBM, Google, Mellanox и ряд других игроков на рынке HPC. Целью организации является продвижение открытой альтернативы PCI Express.

В отличие от разработанных ранее стандартов CAPI, OpenCAPI не требует инфраструктуры PCIe и базируется на технологиях IBM Bluelink (25 Гбит/с на линию) и NVIDIA NVLink 2.0. Стандарт использован в системах на базе процессоров IBM POWER9. Эти процессоры имеют 48 линий OpenCAPI.

В 2017 году мы выдвинули предположение о том, что OpenCAPI будет активно развиваться на фоне стагнации PCI Express 3.0 и даже сможет серьёзно потеснить PCIe. Хотя это предположение не оправдалось, а внедрение новой, четвёртой версии PCIe, напротив, активизировалось, разработчики OpenCAPI продолжают демонстрировать новые решения на базе данного стандарта.

На выставке SC19 был продемонстрирован ряд решений, использующих наработки консорциума. В частности, была показана любопытная система хранения данных IBM Power S924. В нём используются 8, 10 или 12-ядерные процессоры POWER9 с частотой до 3,3 ГГц и поддержкой SMT4. Помимо классической оперативной памяти объёмом до 4 Тбайт система поддерживает модули SCM Memory (ближайший аналог Intel Optane).

Эти модули используют шину OpenCAPI x4, обладают пропускной способностью 80 Гбайт/с, а общий объём такой энергонезависимой памяти может достигать 12 Тбайт. Каждая карта SCM HMS имеет ёмкость 1,5 или 3 Тбайт, некоторый объём DRAM-кеша и устанавливается в слот PCIe, но использует его возможности только для питания ‒ данные передаются через отдельный разъём OpenCAPI x4.

Своё решение показал крупный тайваньский производитель Wistron. Он продемонстрировал компактный сервер на базе процессоров POWER9, поддерживающий подключение 24 NVMe-накопителей. Эта система с поддержкой OpenCAPI позиционируется в качестве основы для систем машинного обучения, аналитики больших объёмов данных и решений класса Big Data в целом.

Сама шина может быть реализована не только с помощью классических слотов, аналогичных PCIe по электромеханическому конструктиву, но и с помощью разъёма SlimSAS, имеющего 8 линий по 25 Гбит/с и позволяющего компоновать системы подобно тому, как это реализовано в серверах с ускорителями NVIDIA в формате SXM2.

Разработчики показали различные решения на базе OpenCAPI. Так, в числе прочих, был продемонстрирован адаптер OpenCAPI Gateway на базе ПЛИС Xilinx Zynq UltraScale+, предназначенный для разработки ускорителей с поддержкой нового стандарта передачи данных.

Разработки Mellanox, входящей в консорциум, были представлены «умной» сетевой картой Innova-2. Она базируется на связке чипов ConnectX-5 и Xilinx Kintex UItraScale+ и располагает двумя портами с поддержкой различных скоростей Ethernet или InfiniBand ‒ от 25 до 100 Гбит/с. Карта поддерживает как PCI Express 4.0 x8, так и OpenCAPI x8.

Компания Alpha Data показала похожее решение, но на базе чипа Xilinx Virtex UltraScale+, имеющего собственные сборки HBM2 и не требующего установки на плату микросхем DRAM. Адаптер ADM-PCIE-9H7 предлагает уже четыре порта QSFP28 и обслуживается двумя интерфейсами OpenCAPI x8. Новинка обладает существенным энергопотреблением и требует подключения шестиконтактного разъёма питания PCIe. Есть у Alpha Data и менее мощные решения.

Можно заключить, что стандарт OpenCAPI не умер. На его основе активно разрабатываются новые решения, включая уникальные системы на базе архитектур, отличных от x86. Но перспективы этой шины теперь выглядят куда менее радужными, нежели в 2017 году, и на то есть ряд причин.

Будут ли разъёмы OpenCAPI пустовать?

С появлением на рынке процессоров AMD EPYC 7002 стандарт PCI Express 4.0 стал активно продвигаться в жизнь. В отличие от OpenCAPI, он использует существующую электромеханическую инфраструктуру и располагает обратной совместимостью с предыдущими стандартами PCIe, что является весьма серьёзным преимущество в мире ИТ.

Постоянный URL: http://servernews.ru/998600
27.11.2019 [09:48], Алексей Степин

SC19: ASRock Rack активно осваивает экосистему AMD Rome

ASRock Rack ‒ имя столь же говорящее, что и SuperMicro. Этот производитель оборудования известен всем, кто хоть в какой-то мере интересуется новинками рынка серверов и рабочих станций. На выставке, которая сопутствовала завершившейся недавно конференции SC19, ASRock Rack продемонстрировала богатую экспозицию новых решений.

Очень серьёзное внимание компания уделила разработке и выпуску решений на базе процессоров AMD EPYC 7002 Rome.

4U8G-F/ROME: версия с 12 отсеками формата 3,5

Передняя панель  4U8G-F/ROME: версия с 12 отсеками формата 3,5

Открывает экспозицию новая платформа HPC под названием 4U8G-F/ROME. Это универсальный сервер супервычислений высотой 4U, поддерживающий новые процессоры AMD EPYC. Пожалуй, это одно из самых богатых на слоты PCI Express решений на рынке ‒ их в системе целых 20, причём поддерживается протокол версии 4.0 с удвоенной относительно PCIe 3.0 производительностью.

Вид на материнскую плату. Видны съёмные модули дисковой корзины

Все слоты имеют форм-фактор x16, что теоретически допускает установку 20 ускорителей с однослотосой системой охлаждения, но для этого потребовалось бы 320 линий PCIe; столько не может обеспечить даже машина с двумя процессорами AMD EPYC. Система явно умеет распределять линии PCIe в зависимости от конфигурации.

Ускорительный модуль хорошо продувается. 32 малых разъёма ‒ PCI Express x4 4.0 для соединения с материнской платой<

Ускорительный модуль хорошо продувается. 32 малых разъёма ‒ PCI Express x4 4.0 для соединения с материнской платой

Основной и главный вариант предполагает наличие в системе 4U8G-F/ROME восьми любых полноразмерных ускорителей с двухслотовой системой охлаждения. Это могут быть NVIDIA Tesla V100, Quadro, или, к примеру, набирающие популярность решения на базе оригинальных процессоров вроде Intel Nervana или Graphcore C2.

Данный модуль допускает установку до 20 плат расширения

Данный модуль допускает установку до 20 плат расширения

Платформа очень удобна в обслуживании: для установки или замены плат ускорителей предусмотрена откидная крышка, на которой расположен также распределитель питания для таких плат (8-контактные разъёмы). Модули принудительного охлаждения съёмные и легко заменяемые на лету.

Откидная крышка позволяет легко заменять ускорители

На снимках хорошо видно 32 малых разъёма. Это коннекторы PCIe x4, обеспечивающие соединение подсистемы ускорителей с основной процессорной платой. Сама же плата при необходимости может быть заменена на другую, с меньшим числом слотов или вообще с разъёмами нового типа, например, PCIe OAM (Open Accelerator Module).

Все блоки системы охлаждения являются съёмными

Все блоки системы охлаждения являются съёмными

Уже из вышесказанного понятно, что степень модульности у 4U8G-F/ROME очень высока. Легкозаменяемыми являются буквально все компоненты. Так, дисковая часть, представленная в выставочном экземпляре 12 отсеками «горячей замены» формата 3,5″ может быть заменена на другую, с большим числом менее габаритных накопителей формата 2,5″, а то и на модуль с поддержкой «линеечных» накопителей EDSFF.

4U8G-F/ROME: четыре блока питания и пять съёмных модулей охлаждения ускорителей

Задняя панель  4U8G-F/ROME: четыре блока питания и пять съёмных модулей охлаждения ускорителей

Модуль питания содержит четыре компактных блока с горячим резервированием, он также легко модернизируется: все элементы являются съемными и снабжены удобными ручками для облегчения замены. Таким образом, платформа ASRock Rack 4U8G-F/ROME может быть не только легко сконфигурирована для нужной задачи изначально, но и переконфигурирована потом, когда, к примеру, возникнет необходимость использования ускорителей с другой архитектурой.

1U2G-EPYC/2T бьёт рекорды компактности

1U2G-EPYC/2T бьёт рекорды компактности

Другой экспонат, платформа 1U2G-EPYC/2T, является прекрасным примером того, как можно увеличить плотность размещения вычислительных мощностей за счёт появления на рынке 64-ядерных процессоров EPYC 7002. Такое пока может предложить только AMD, и ASRock Rack прекрасно воспользовалась этой возможностью. Новое решение соответствует спецификациям NVIDIA NGC-Ready for Edge.

1U2G-EPYC/2T крупным планом

1U2G-EPYC/2T крупным планом

Сервер получился очень компактным, высотой всего 1U, но при этом он может быть оснащён 64-ядерным центральным процессором, дополненным двумя ускорителями тензорных вычислений NVIDIA T4. Эти платы имеют теплопакет всего 70 ватт каждая, так что проблем с охлаждением не возникает. В передней части системы имеется ещё два слота PCI Express ‒ их можно использовать для установки высокоскоростных сетевых адаптеров.

1U4G-ROME

1U4G-ROME

Есть в арсенале ASRock Rack и более мощный сервер подобного типа, 1U4G-ROME. Он также использует системную плату с единственным разъёмом AMD SP3 (LGA4094). Но как нетрудно понять из модельного номера, количество ускорителей здесь увеличено с двух до четырёх.

2U4N-F. Выдвинут узел на базе Xeon Scalable

2U4N-F. Выдвинут узел на базе Xeon Scalable

Также компания демонстрировала весьма любопытную модульную платформу 2U4N-F. В корпусе высотой 2U устанавливается два вычислительных узла, причём, предлагаются варианты как оснащенные одним AMD EPYC 7002 (2U4N-F/ROME-M3), так и двумя Intel Xeon Scalable (2U4N-F/C621-M3). В первом случае количество слотов DIMM на систему равно 16 (2×8), во втором ‒ 32 (4×8). Поддерживаются объёмы DDR4-2933 до 4 Тбайт.

Узлы 2U4N-F. AMD EPYC 7002 (сверху) и Xeon Scalable

Узлы 2U4N-F. AMD EPYC 7002 (сверху) и Xeon Scalable

В версии Intel каждый узел предоставляет в распоряжение заказчика два слота PCIe 3.0 x16, а вариант с процессором AMD оснащён разъёмами x16 и x24; к сожалению, в анонсе говорится только о версии 3.0, хотя другие системы ASRock Rack активно используют и новый стандарт PCIe 4.0. Каждый узел в обоих вариантах имеет собственную дисковую корзину на четыре накопителя формата 2,5″ с возможностью горячей замены.

EPC621D4I-2M: шедевр миниатюризации

EPC621D4I-2M: шедевр миниатюризации

ASRock Rack, как известно, активно экспериментирует с компактными форм-факторами. Ей удалось даже практически невозможное ‒ разместить процессорный разъём LGA3647 на плате формата mini-ITX. Плата EPC621D4I-2M может претендовать на звание «шедевра инженерного искусства».

К сожалению, огромные размеры разъёма вынудили разработчиков ограничить подсистему памяти четырьмя разъёмами DDR4 SO-DIMM, так что шестиканальный режим на этой плате задействовать нельзя. Решится ли компания на подобный подвиг для AMD SP3?

WC621D8A-2T (слева) и WC422D8A-2T: для рабочих станций

WC621D8A-2T (слева) и WC422D8A-2T: для рабочих станций

Привезла на выставку ASRock Rack и другие системные платы, например, WC621D8A-2T и WC422D8A-2T. Они выполнены в формате CEB и ATX и предназначены для построения рабочих станций на базе процессоров Intel Xeon W-3200 (до 205 ватт) и Skylake-W LGA2066, соответственно. О принадлежности к миру рабочих станций говорит наличие интегрированной звуковой подсистемы.

ROMED8-2T: «Рим» для рабочей станции. Поддерживается PCIe 4.0 

ROMED8-2T: «Рим» для рабочей станции. Поддерживается PCIe 4.0 

Разумеется, не был забыт и разъём SP3 ‒ плата ROMED8-2T выполнена в наиболее распространённом сегодня форм-факторе ATX, поддерживает установку процессоров AMD EPYC 7002 и поддерживает стандарт PCI Express 4.0. Интегрированного звука здесь нет, но имеется сетевой адаптер класса 10GbE Intel X550-AT2 с двумя портами RJ-45.

К плате можно подключить 8 накопителей SATA и 2 накопителя U.2; последние ‒ посредством портов OCuLink.

Ещё «Римляне»: EPYCD8-2T (слева) и ROMED8QM-2T

Эта модель ‒ не единственная ATX-плата с поддержкой процессоров AMD. На выставке демонстрировались и модели EPYCD8-2T и ROMED8QM-2T. Обе платы поддерживают EPYC 7002 «Rome», но первая модель ограничена в конфигурации PCI Express версией 3.0. Вторая плата поддерживает PCIe 4.0, но она предназначена для низкопрофильных систем, собираемых в стандартных корпусах.

Компактные сетевые адаптеры ASRock Rack

Компактные сетевые адаптеры ASRock Rack

Всё чаще в компактных серверных системах применяются сетевые и дисковые адаптеры в формате мезонина, поскольку они существенно компактнее классических PCIe-плат. Из новинок ASRock Rack на эту тему можно отметить сетевые карты M710DA4 (Intel XL710-AM2, 40 Гбит/с, два четыре порта SFP+) и M550R-2E (Intel X550, 2 порта 10Gbase-T).

Фрагмент рекламной брошюры ASRock Rack

Фрагмент каталога продукции. Платы такого типа очень популярны в России

Этим экспозиция ASRock Rack не ограничивается: на выставке присутствовали и другие решения компании, такие, как двухпроцессорные платы для Xeon Scalable, высокоинтегрированные решения с процессорами Xeon-D и другие. Но охватить все продукты компании вниманием в одной краткой заметке было бы невозможно.

Постоянный URL: http://servernews.ru/998328
26.11.2019 [21:46], Алексей Степин

SC19: в лидеры IO500 выбились WekaIO Matrix и Intel DAOS

Сверхвычисления требуют не только сверхбольших объёмов данных, но и соответствующую им производительность. Поэтому разработчики параллельных файловых систем для рынка HPC активно конкурируют между собой.

Молодой израильской компании WekaIO удалось побить рекорд, ранее принадлежавший разработке Intel, и занять первое место в списке IO500. Серьёзное достижение для компании, впервые заявившей о себе в 2013 году.

По итогам последнего сравнительного тестирования, опубликованным на конференции SC19, разработанная WekaIO файловая система смогла пусть и незначительно, но опередить Intel DAOS. Тройку лидеров замкнул китайский суперокомпьютер Tianhe-2E, использующий широко известную систему Lustre.

Intel DAOS (Distributed Asynchronous Object Storage) долго оставалась непобедимой за счет использования накопителей Optane ‒ как в форме модулей NVDIMM, так и в варианте с интерфейсом NVMe. Самым медленным звеном в этой системе были обычные SSD на базе NAND. Программная часть DAOS использует полностью открытый код и опирается на библиотеки Intel PMDK и SPDK, которые позволяют напрямую работать c «железом» в обход стандартных интерфейсов ОС и ядра.

Спецификации WekaFS

Спецификации WekaFS

Файловая система WekaIO Matrix, напротив, является исключительно программным решением, не зависящим от использования специфических аппаратных компонентов и, тем самым, обеспечивающим полную свободу выбора для разработчиков HPC-систем.

Система, созданная WekaIO, полностью отвечает спецификациям POSIX и поддерживает все необходимые для решений такого класса технологии. Благодаря массивной параллелизации и оптимизации кода, WekaFS может обеспечить устоявшуюся скорость передачи данных на уровне свыше 10 Гбайт/с.

Следует, однако, отметить, что победа над Intel DAOS не является абсолютной: WekaIO удалось выиграть у DAOS на случайных операциях, но в производительности на линейных скоростях разработка Intel всё же сохранила первенство. Кроме того, нельзя не отметить, что бенчмарк ещё относительно молод и он может получать заметные корректировки кода.

Сама инициатива IO500 является детищем сообщества энтузиастов высокопроизводительных систем ввода-вывода. Сообщество, получившее звание «Виртуального Института I/O-исследований» отслеживает разработку систем хранения данных крупного и сверхкрупного классов. Оно сравнивает их производительность и старается предоставить миру ИТ объективную и независимую информацию о подобного рода системах.

Постоянный URL: http://servernews.ru/998520
26.11.2019 [15:00], Алексей Степин

NVIDIA анонсировала новые ускорители Tesla V100s

Корпорация NVIDIA объявила о пополнении семейства ускорителей на базе архитектуры Volta. Теперь в нём появилась новая модель Tesla V100s. Она доступна только в форм-факторе PCI Express, о версии SXM2 пока ничего неизвестно. 

Внешне V100s ничем не отличаются от V100 в том же форм-факторе

Внешне V100s ничем не отличаются от V100 в том же форм-факторе

В новой версии ускорителя NVIDIA удалось добиться производительности 8,2 Тфлопс в режимe FP64 и 130 Тфлопс для тензорных процессоров. Точные значения тактовых частот ГП, к сожалению, не приводятся.

На некоторых стендах SC19 имелось скромное упоминание о новинке

На некоторых стендах SC19 имелось скромное упоминание о новинке

На борту Tesla V100s установлены новые сборки HBM2 с более высокой тактовой частотй (1106 против 876 МГц), что позволило поднять пропускную способность памяти с 900 до 1134 Гбайт/с. Теплопакет удалось сохранить прежним, на уровне 250 Ватт.

Технические характеристики ускорителей NVIDIA Tesla V100

Таким образом, Tesla V100s стал быстрейшим ускорителем NVIDIA с архитектурой Volta. Единственное, в чём он уступает версии V100 в исполнении SXM2 ‒ в технологии межсоединений. Пропускная способность PCI Express x16 3.0 ограничена 32 Гбайт/с, в то время как конструктив SXM2 за счёт применения шины NVLink позволяет добиться показателя на порядок выше, 300 Гбайт/с. Возможно, версия V100s в этом исполнении появится позже. Стоимость Tesla V100s объявлена пока не была.

Постоянный URL: http://servernews.ru/998493
25.11.2019 [16:29], Андрей Созинов

SC19: TMGcore OTTO — автономный роботизированный микро-ЦОД с иммерсионной СЖО

Компания TMGcore представила в рамках прошедшей конференции SC19 свою весьма необычную систему OTTO.

Новинка является модульной платформой для создания автономных ЦОД, которая характеризуется высокой плотностью размещения аппаратного обеспечения, использует двухфазную иммерсионную систему жидкостного охлаждения, а также обладает роботизированной системой замены серверов.

Версия OTTO на 600 кВт

Версия OTTO на 600 кВт

Первое, что отмечает производитель в системе OTTO — это высокая плотность размещения аппаратного обеспечения. Система состоит из довольно компактных серверов, которые размещены в резервуаре с охлаждающей жидкость. Собственно, использование двухфазной иммерсионной системы жидкостного охлаждения и позволяет размещать «железо» с максимальной плотностью.

Версия OTTO на 60 кВт

Версия OTTO на 60 кВт

Всего OTTO будет доступна в трёх вариантах, рассчитанных на 60, 120 и 600 кВт. Системы состоят из одного или нескольких резервуаров для размещения серверов. Один такой резервуар имеет 12 слотов высотой 1U, в десяти из которых располагаются сервера, а ещё в двух — блоки питания. Также каждый резервуар снабжён шиной питания с рабочей мощностью 60 кВт. Отметим, что площадь, занимаемая самой большой 600-кВт системой OTTO составляет всего 14,9 м2.

В состав системы OTTO могут входить как эталонные серверы HydroBlades от самой TMGcore, так и решения от других производителей, прошедшие сертификацию «OTTO Ready». В последнем случае серверы должны использовать корпуса и компоновку, которые позволяют использовать их в иммерсионной системе охлаждения. Например, таким сервером является Dell EMC PowerEdge C4140.

В рамках конференции SC19 был продемонстрирован и фирменный сервер OTTOblade G1611. При высоте всего 1U он включает два процессора Intel Xeon Scalable, до 16 графических процессоров NVIDIA V100, до 1,5 Тбайт оперативной памяти и два 10- или 100-гигабитных интерфейса Ethernet либо одиночный InfiniBand 100G. Такой сервер обладает производительность в 2000 Тфлопс при вычислениях на тензорных ядрах.

Мощность описанной абзацем выше машины составляет 6 кВт, то есть в системе OTTO может работать от 10 до 100 таких машин. И охладить столь компактную и мощную систему способна только двухфазная погружная система жидкостного охлаждения. Он состоит из резервуара, заполненного охлаждающей жидкостью от 3M и Solvay, и теплообменника для конденсации испарившейся жидкости.

Для замены неисправных серверов система OTTO оснащена роботизированной рукой, которая способна производить замены в полностью автоматическом режиме. В корпусе OTTO имеется специальный отсек с резервными серверами, а также отсек для неисправных систем. Такой подход позволяет производить замену серверов без остановки всей системы, и позволяет избежать контакта человека с СЖО во время работы.

Изначально TMGcore специализировалась на системах для майнинга с иммерсионным охлаждением, а после перенесла свои разработки на обычные системы. Поэтому, в частности, описанный выше OTTOblade G1611 с натяжкой можно отнести к HPC-решениям, так как у него довольно слабый интерконнект, не слишком хорошо подходящий для решения классических задач. Впрочем, если рассматривать OTTO как именно автономный или пограничный (edge) микро-ЦОД, то решение имеет право на жизнь.

Постоянный URL: http://servernews.ru/998356
25.11.2019 [10:11], Алексей Степин

SC19: NEC «подружила» векторые ускорители SX-Aurora с EPYC Rome и освоила Xeon Platinum 9200

Японские инженеры из корпорации NEC продолжают идти собственным, уникальным путём уже на протяжении целого ряда лет. Речь идёт о развитии «векторных процессоров».

Компания признала выгоду от использования гибридных архитектур, но отказываться от платформы Aurora не собирается.

Как и было нами предсказано в 2018 году, NEC обратила внимание на процессоры AMD EPYC. Вполне закономерный шаг с учётом появления на рынке второго поколения этих процессоров, особенно с количеством ядер более 32. Новый сервер NEC A412-8 комбинирует в себе преимущества процессоров AMD и ускорителей SX-Aurora.

Система получилась компактной: при высоте 2U она, помимо центрального процессора AMD, несёт на борту и 8 ускорителей SX-Aurora. И если бурно развивающиеся ныне ускорители на базе GPU, ПЛИС или специализированных архитектур обычно достаточно узко специализированы, то в случае с SX-Aurora говорится о производительности порядка 2,15 ‒ 2,45 Тфлопс на любых сложных FP64-вычислениях.

Этому способствует наличие на упаковке каждого векторного процессора NEC некоторого объёма памяти HBM2 (24 или 48 Гбайт) c ПСП, достигающей 1,2 Тбайт/с. При потреблении порядка 225 ватт на чип, не считая ЦП, добиться такой плотности размещения обычным способом, скорее всего, не удалось бы, но новая платформа использует жидкостную систему охлаждения для всех своих элементов, кроме модулей памяти центрального процессора.

NEC SX-Aurora: 8 вычислительных ядер, 6 сборок HBM2

NEC SX-Aurora: 8 вычислительных ядер, 6 сборок HBM2

Ускорители SX-Aurora производятся в трёх вариантах: с классической системой охлаждения и с интегрированным водоблоком, обеспечивающим отвод тепла от кристалла и сопутствующих ему сборок HBM2.

NEC использует довольно консервативный техпроцесс ‒ 16 нм, что, вкупе с универсальностью процессора, объясняет довольно высокий уровень тепловыделения данных ускорителей; впрочем, существует версия SX-Aurora с полностью пассивным радиатором, полагающаяся только на систему охлаждения сервера, в котором она установлена.

Свою самобытность японская компания проявила и при выпуске нового компактного лезвийного сервера с четырьмя узлами. Если основная масса производителей не очень-то спешит использовать процессоры Intel Xeon 9200 (Cascade Lake AP), то NEC выбрала именно эти процессоры для данного проекта.

Каждое лезвие несёт в себе двухпроцессорную плату Intel S9200WK с двумя впаянными процессорами Xeon Platinum 9200. Существуют разные варианты, старший ‒ 56-ядерный монстр с максимальным тепловыделением 400 ватт и 12 каналами доступа к памяти DDR4. Шасси очень компактное, высотой всего 2U, поэтому вся система изначально спроектирована с использованием жидкостного охлаждения.

Каждый из вычислительных модулей имеет также две корзины для установки ускорителей PCIe x16, и, скорее всего, туда будут устанавливаться соответствующие версии ускорителей SX-Aurora. Комплекс из восьми Xeon Platinum 9282 и восьми векторных процессоров NEC может дать великолепное сочетание производительности, компактности и архитектурной гибкости. Впрочем, в прототипе, показанном на выставке, корзины расширения были пусты.

Также компания привезла и системы, уже показанные ею в 2018 году, в частности, сервер A311-8 высотой 4U с восемью установленными ускорителями SX-Aurora в версии с воздушным охлаждением. Он использует шасси SuperMicro с системной платой X11DPG-O.

Хотя эта конфигурация и поддерживает Xeon Scalable 2 поколения, она проигрывает возможному варианту с Xeon 9200 и по количеству ядер и по габаритам. Отметим, что существуют также и более компактные версии A300-4 и A300-2 с четырьмя и двумя векторными ускорителями, соответственно.

Позаботилась компания и о разработчиках программного обеспечения для своих платформ. Рабочая станция A100-1 пусть и имеет в своём составе всего 1 ускоритель SX-Aurora, но, теоретически, ничто не мешает установить и второй, благо, конструктив и модель используемой системной платы это позволяют. В базовой комплектации установлен всего один процессор Xeon Gold 6100, но ничто не мешает заменить его двумя Xeon Scalable второго поколения.

NEC SX-Aurora A500-64: 8-хост-серверов, 64 векторных процессора

NEC SX-Aurora A500-64: 8-хост-серверов, 64 векторных процессора

Подход NEC интересен именно своей универсальностью в плане вычислений: разработанные компанией ускорители работают с популярным форматом FP64. Это позволяет, как утверждается, использовать для данной платформы накопленный десятилетиями массив научно-технического ПО на языках C, C++ и Фортран. 

Постоянный URL: http://servernews.ru/998354
24.11.2019 [12:21], Алексей Разин

На SC19 замечен ЦОД-вариант NVIDIA GeForce RTX 2080 Ti с пассивным охлаждением

В своё время популярность видеокарт GeForce GTX 1080 Ti среди создателей центров обработки данных была так высока, что NVIDIA пришлось ограничить распространение этой потребительской видеокарты в таких системах через пользовательское соглашение на использование CUDA.

По словам представителей ресурса ServeTheHome, видеокарты GeForce RTX 2080 Ti не менее популярны в данной среде, и многие создатели центров обработки данных закупают их «штабелями» для ускорения вычислений.

Источник изображения: ServeTheHome

Источник изображения: ServeTheHome

Первоисточнику удалось обнаружить на SC19 вариант (или макет) этой видеокарты с системой пассивного охлаждения. Особых опознавательных знаков на образце не было, за исключением неприметного ярлыка с набором символов «PG150», которые в «гражданской» иерархии всегда соответствовали видеокарте GeForce RTX 2080 Ti.

Источник изображения: ServeTheHome

Источник изображения: ServeTheHome

Естественно, речь не идёт о полностью пассивном варианте охлаждения. Все ускорители вычислений в серверных стойках охлаждаются подобным образом: сами платы расширения оснащаются достаточно крупными радиаторами, а воздух через них прогоняет штатная система охлаждения сервера.

Соотношение цены и производительности GeForce RTX 2080 Ti на фоне профильных решений класса Tesla продолжает привлекать клиентов в серверном сегменте. Сама NVIDIA в подобной «деградации» не особо заинтересована, но GeForce RTX 2080 Ti вполне может перекочевать в серверный сегмент и под новым именем.

Постоянный URL: http://servernews.ru/998339
23.11.2019 [20:20], Андрей Созинов

SC19: Western Digital показала U.2-ускорители ИИ на базе FPGA Xilinx

В рамках конференции SC19 компания Western Digital показала свои ускорители машинного обучения (Machine Learning Accelerator) на базе ПЛИС Xilinx Zynq UltraScale+.

Ключевой особенностью данных ускорителей является то, что они выполнены в нестандартном для таких устройств форм-факторе U.2, который характерен для твердотельных накопителей.

В ускорителях Western Digital используются гибридные программируемые матрицы Xilinx Zynq UltraScale+ ZU7EV. Помимо 504 000 логических элементов данные чипы содержат в себе четыре процессорных ядра Cortex-A53 с частотой 1,5 ГГц и два вспомогательных ядра Cortex-R5 с частотой 600 МГц. Для подключения используется либо стандартный разъём U.2, либо адаптер PCIe x4. Энергопотребление ускорителя составляет всего 20 Вт.

Производитель позиционирует FPGA-ускорители формата U.2 в качестве альтернативы ускорителям на графических процессорах в задачах, связанных с искусственным интеллектом и машинным обучением. Отмечается, что новинки обеспечивают такой же уровень точности при машинном обучении, и также способны работать с числами INT8 и INT16.

Ускорители способны работать с нейросетями на базе TensorFlow, Caffe, Caffe2 и MXNET. Причём какие-либо изменения в коде и повторная тренировка сетей, уже обученных на GPU, не требуются. Производительность, по словам WD, составляет 239 кд/с в Resnet50 и 561 кд/с в Googlenet.

Помимо довольно необычных ускорителей машинного обучения, компания Western Digital продемонстрировала в рамках SC19 различные твердотельные накопители и жёсткие диски высокой ёмкости для промышленного использования. В частности, были показаны «расширители» оперативной памяти Ultrastar DC ME200 Memory Extension Drive, вместительные твердотельные накопители Ultrastar DC SN640 и DC SN340, а также жёсткие диски Ultrastar DC HC550 и DC HC650 объёмом до 20 Тбайт.

Постоянный URL: http://servernews.ru/998323
Система Orphus