Материалы по тегу: кластеры

21.12.2017 [18:50], Алексей Степин

POWER9 идёт в народ: описание сервера IBM AC922

Инициатива OpenPOWER, как мы уже рассказывали читателям, приносит свои плоды, особенно вместе с проектом OpenCAPI. Итоговая платформа получается более универсальной и сбалансированной, нежели Intel Purley или AMD EPYC. Хотя бы потому, что имеет поддержку PCI Express 4.0 и умеет работать с интерфейсами CAPI и NVLink, а это настоящая находка при проектировании кластерных систем, основанных на использовании дополнительных ускорителей, будь то NVIDIA Volta или платы на базе FPGA. Всё это собрано в едином узле или сервере под названием IBM Winterspoon. Система отличается от другого варианта под названием Cumulus использованием процессоров POWER9 с менее развитым SMT (как известно, POWER9 существует в вариантах SMT4 и SMT8; столь развитой многопоточностью не может похвастаться ни один процессор x86). В Winterspoon использована версия SMT4.

Новинка уже поставляется на рынок с модельным номером AC922. AC в этом случае означает гибридную систему на базе ЦП и ГП, цифра 9 указывает на модель процессора, а две двойки означают два процессорных разъёма и высоту корпуса 2U. IBM очень активно рекламирует платформу POWER9 для задач искусственного интеллекта и машинного обучения, однако AC922 является универсальной системой, подходящей для любого рода задач. Серия процессоров POWER9 Nimbus может насчитывать от 16 до 24 ядер, серверы AC922 поставляются с 22-ядерными чипами, частоты которых мы не знаем. Но речь об опытных поставках. Коммерческие версии получают либо 16-ядерные процессоры с частотной формулой 2,6/3,09 ГГц, либо 20-ядерные с формулой 2,0/2,87 ГГц. Оба варианта удерживаются в рамках теплопакета 190 ватт, так что место для роста ещё есть: к примеру, Intel Xeon SP-8180M имеет теплопакет целых 205 ватт. Стоят процессоры достаточно дорого: 16-ядерный вариант POWER9 обойдётся в $3000, а 20-ядерный будет стоить $4000. Впрочем, на фоне ускорителей Volta это недорого — те оцениваются в $11500 за модуль.

Узел AC922 имеет 16 слотов для установки регистровых модулей DDR4 с коррекцией ошибок. Память, в отличие от POWER8, не использует специального чипа-буфера и подключается к интегрированному в ЦП контроллеру напрямую, что понижает задержки. Поддерживаются модули DDR4-2667 ёмкостью до 64 Гбайт, что позволяет оснащать систему 1 Тбайт оперативной памяти. Обещается поддержка и модулей объёмом 128 Гбайт, что даст AC922 уже 2 Тбайт памяти. Совокупная ПСП при заполнении всех слотов достигает 306 Гбайт/с. Серверы специально ориентированы на использование ускорителей серии NVIDIA Volta в формате SXM2, которые на сегодня можно считать одними из самых мощных. Поддерживается конфигурация либо с четырьмя, либо с шестью модулями Volta G100, причём последняя требует жидкостного охлаждения. Проблем с пропускной способностью нет: четыре линии NVLink 2.0 ускорители используют для общения между собой, а ещё четыре — для общения с процессором; во всех случаях скорость составляет 100 Гбайт/с.

Для суперкомпьютера Summit, о котором мы писали ранее, выбран более мощный вариант с СЖО. Было бы обидно при такой плотности упаковки вычислительных мощностей терять два модуля Volta на узел. Но есть преимущества и у версии с четырьмя ГП: здесь каждый ускоритель имеет канал общения с соседями и процессором шириной уже 150 Гбайт/с, а в некоторых задачах это может оказаться важнее. Подход к подсистеме ввода-вывода у систем AC922 минималистский: каждая имеет два сетевых порта InfiniBand со скоростью 100 Гбит/с, контроллеры которых напрямую подключены к ЦП посредством PCIe x8 4.0. Каждый разъём имеет также слот x16, совместимый с CAPI. Он предназначен для установки специализированных ускорителей или кеширующих модулей, таких, как Intel Optane или решений на базе ReRAM. Имеется дополнительный интерфейс PCIe x4 4.0. Коммутатор PLX Technologies PEX 8733 соединяет всю систему с ЦП и ГП с контроллером подсистемы хранения данных, так что ускорители Volta могут получать данные с SSD, минуя ЦП. AC922 располагает также четырьмя традиционными портами 10GbE, а контроллеры USB, базовый хаб и средства дистанционного управления подключены к первому процессору в системе посредством шины PCIe x1 всё той же версии 4.0.

Локальная система хранения данных представлена двумя двухдюймовыми корзинами SATA, причём, опционально можно использовать и традиционные жесткие диски со скоростью вращения шпинделя 7200 об/мин. Среди опций имеются платы NVMe объёмом 1,6 Тбайт ($3100), а к концу года появится версия объёмом 3,2 Тбайт. Их роль, по словам представителя проекта, в основном, кеширующая, чтобы узлам не приходилось лишний раз нагружать сеть. На данный момент IBM AC922 сертифицирован для использования совместно с Red Hat Enterprise Linux 7.4 (версия little endian for POWER), а во втором квартале появятся специализированные серверные версии Ubuntu. Возможность использования SUSE Linux Enterprise Server пока рассматривается, но остаётся под вопросом, что странно, учитывая популярность именно этой ОС в секторе HPC и платформ SAP HANA. Что касается цен на готовые системы, то предыдущий узел на базе POWER8 под кодовым названием Minksy стоил порядка $65 тысяч, и IBM говорит о сохранении порядка цен. Так что примерно за ту же сумму можно будет получить вдвое больше процессорной мощности и в 2‒6 раз больше мощности ускорителей на базе ГП.

POWER9 это не только серверный сегмент, но в потенциале и неплохие рабочие станции

POWER9 это не только серверный сегмент, но в потенциале и неплохие рабочие станции

У энтузиастов может возникнуть вопрос: а совместимы ли эти процессоры POWER9 с платой Talos II? Увы, ответа на этот вопрос мы пока дать не можем, но теоретически новые чипы IBM используют одинаковый форм-фактор и тип разъёма. Но вот кулеры 16-ядерным POWER9, не говоря уж о более мощных моделях с 20, 22 или 24 ядрами, явно понадобятся более солидные, если пользователь такой рабочей станции хочет сберечь свой слух.

Постоянный URL: http://servernews.ru/963247
07.12.2017 [18:44], Алексей Степин

Новый кластер NVIDIA Saturn V: некоторые подробности

Крупнейшие разработчики и производители микропроцессоров не очень-то любят рассказывать о своих проектах суперкомпьютеров, и информацию о таких проектах буквально приходится выцеживать по крупицам. Оригинальный узловой сервер NVIDIA DGX-1, являющийся основой кластера Saturn V, был представлен ещё на конференции SC16. Вся система состояла из 124 серверов DGX-1P, в каждом из которых было установлено по два 20-ядерных процессора Broadwell-EP с частотой 2,2 ГГц и по 8 ускорителей на базе Pascal P100 в форм-факторе SXM2, позволявшим пользоваться интерфейсом NVLink 1.0. На сегодня, однако, в руках NVIDIA есть куда более подходящий ускоритель - Tesla V100, чьи тензорные ядра делают его отличным решением для задач машинного обучения.

С четырьмя узлами DGX-1P, каждый из которых, к слову, мог потреблять до 3200 ватт, система смогла достичь пиковой производительности 4,9 петафлопса на вычислениях двойной точности. Тест матричной математики Linpack Fortran показал 67,5 % эффективности (3,31 петафлопса), что обеспечило системе 28 место в списке Top 500 на ноябрь 2016 года. Стоимость Saturn V составила $13 миллионов. Если бы процессоры Xeon имели интерфейс NVLink, производительность была бы выше, но они такового не имеют, вот почему NVIDIA вкладывает усилия в создание нового узлового сервера на базе процессоров POWER9. Назовём такую модель DGP-1V: в этом названии зашифровано сочетание POWER9 и ускорителей Volta. Новая версия NVLink 2.0 и когерентность кешей ЦП и ГП должна существенно увеличить эффективность такого сервера.

От малого к большому: иерархия узлов Saturn V

От малого к большому: иерархия узлов Saturn V

Новый Saturn V в максимальной конфигурации будет насчитывать до 660 узлов, оснащённых ускорителями Tesla V100; впрочем, их количество на узел останется прежним — по восемь ускорителей на корпус. Всего в системе будет 5280 процессоров Volta, что даст ей 80 петафлопс пиковой производительности на одинарной точности и 40 петафлопс — на двойной. Но что самое важное, в задачах машинного обучения, где часто используется смесь FP16 и FP32, теоретическая эффективная производительность нового Saturn V может достичь 660 петафлопс. Пока NVIDIA протестировала лишь 33-узловую конфигурацию, показавшую 1,82 петафлопса и эффективность на уровне 58,8 %, но удельная производительность составила 15,1 Гфлопс/ватт против 9,46 Гфлопс/ватт у системы предыдущего поколения.

Среднее звено

Среднее звено

Дешёвой новая система не будет: стоимость одного узла в полном оснащении оценивается в $149 тысяч (против $129 тысяч у DGX-1P), и суперкомпьютер Saturn V в новом своём воплощении может обойтись в $100‒$110 миллионов, причём эта цена не включает программное обеспечение для машинного обучения и внешние файловые системы Lustre или GPFS. Но заявка у «зелёных» серьёзная: в районе следующего года NVIDIA надеется смонтировать полную 660-узловую версию Saturn V и достичь показателя 22,3 петафлопса в тестах Linpack, что выведет новый суперкомпьютер на третье место в списке Top 500. Особенно большие надежды возлагаются на задачи машинного обучения: DGX-1P мог обеспечивать в этих сценариях 170 терафлопс, а вот условный DGP-1V за счёт наличия тензорных ядер — уже 960 терафлопс или в 5,6 раз больше.

Высший уровень

Высший уровень

Что касается сетевой конфигурации, то основой межузловых соединений станет стандарт InfiniBand EDR со скоростью 100 Гбит/с на кабель. Доступ к основной сети и хранилищам данных обеспечит сеть Ethernet на скорости 10 Гбит/с (несколько странно, что не использован более новый стандарт 25G), а для целей управления и телеметрии хватит и обычного канала Gigabit Ethernet. На среднем уровне коммутацию IB будут выполнять устройства Mellanox Director с 216 портами, а на высшем — ещё более мощные коммутаторы той же серии с 324 портами. Узким местом система межузловых соединений, скорее всего, не станет —  у Mellanox наработан огромный опыт в этой области, и есть полный спектр решений, покрывающих все потребности NVIDIA в проектировании сетевой подсистемы нового Saturn V.

Постоянный URL: http://servernews.ru/962577
22.11.2017 [23:35], Алексей Степин

Cavium празднует ещё одну победу ARM в серверном сегменте

Архитектура x86 с нами давно. Когда-то её уделом были лишь персональные компьютеры, но в последние годы подавляющее большинство серверных систем и прочих решений класса HPC строятся именно на базе процессоров Intel или AMD. Времена господства таких архитектур, как DEC Alpha или MIPS давно позади, хотя, к примеру, IBM POWER всё ещё сопротивляется активному натиску со стороны Intel Xeon и AMD Opteron/EPYC: в свежем рейтинге TOP500 всего 24 машины из 500 используют отличную от x86 архитектуру.

Но по ряду причин x86 даже с 64-битными расширениями не является оптимальной и особенно в том случае, когда речь заходит о соотношении производительности и энергопотребления. Последнее автоматически тянет за собой и повышенное тепловыделение, что в условиях увеличения плотности размещения узлов в ЦОД и суперкомпьютерах представляет собой серьёзную проблему. У x86 есть и ещё один конкурент — это архитектура ARM, которую долгое время никто всерьёз в качестве серверной не воспринимал.

Широко известный слайд, демонстрирующий эволюцию архитектур суперкомпьютеров

Широко известный слайд, демонстрирующий эволюцию архитектур суперкомпьютеров

Однако ARM это не просто рабочая лошадка в секторе планшетов и смартфонов. Всё зависит от реализации, и некоторые варианты процессоров на базе этой архитектуры обладают весьма серьёзными возможностями. К числу таких чипов относится Cavium ThunderX2. Этот новый чип на базе ARMv8-A был продемонстрирован разработчиками ещё на ISC 2017. Характеристики его выглядят вполне солидно: здесь и 54 ядра с частотой 3 ГГц, и поддержка двухсокетных конфигураций, и шестиканальный контроллер памяти, и 24 порта SATA (и, вероятно, SAS).

Блок-схема ThunderX2

Блок-схема ThunderX2

Нельзя забывать и про встроенную поддержку Ethernet 25G, наличие 32 Мбайт общего кеша L2, интегрированные аппаратные средства шифрования и контроллер PCI Express 3.0. При этом теплопакет, по данным Cavium, не превышает 95 ватт. К сожалению, у нас пока нет возможности проверить это утверждение. Но можно представить себе, какой величины достиг бы этот показатель в случае 54-ядерного Xeon, даже в варианте Skylake. Проникновение ARM в сегмент HPC, впрочем, быстрым назвать нельзя, хотя Cavium вполне заслуженно хвалится своими успехами на этом поприще.

Процессоры Cavium используют пусть и свой, но вполне привычный разъём типа LGA

Процессоры Cavium используют пусть и свой, но вполне привычный разъём типа LGA

Одна из национальных лабораторий Министерства энергетики США — Аргоннская национальная лаборатория — объявила, что планирует установку нового кластера производства Hewlett Packard Enterprise, а основой этого кластера станут именно процессоры Cavium ThunderX2. Надо полагать, что в такой организации, как Министерство энергетики, хорошо понимают всю важность экономичности суперкомпьютеров. Кластер под названием Comanche Wave будет состоять из 32 узлов. В числе прочего его задачей будет оценка применимости ARM в сфере супервычислений и разработка соответствующего программного обеспечения, включая ARM-версию компилятора LLVM.

Потенциальный конкурент Xeon и EPYC: взгляд вблизи

Потенциальный конкурент Xeon и EPYC: взгляд вблизи

Именно Аргоннская лаборатория активно поддерживает альтернативные процессорные архитектуры и славится своими разработками для платформ PowerPC и IBM Blue Gene/Q, так что выбор места установки нового кластера не вызывает удивления. Интересно отметить, что Cavium, по сути, смогла перехватить кусок пирога буквально под носом у Intel, которой не удалось заключить контракт на установку суперкомпьютера Aurora на базе процессоров Xeon Phi Knights Hill. Лишь в 2021 году «синие» повторят попытку с процессорами x86, которые будут доступны к тому моменту. Впрочем, не факт, что это будет именно x86.

Постоянный URL: http://servernews.ru/961897
16.11.2017 [19:00], Алексей Степин

77 % новых кластерных систем и суперкомпьютеров используют InfiniBand

Как мы уже неоднократно отмечали, одной из важнейших частей любого суперкомпьютера или кластера является система межузловых соединений. Именно от неё зависит то, насколько эффективно будут распараллеливаться ресурсы, ведь медленная сеть легко может свести на нет все преимущества самых мощных процессоров и ускорителей. Сегодня Ethernet претендует на эту роль весьма активно благодаря развитию новых стандартов и достижению скоростей уровня 200 Гбит/с. Но другая технология, исторически раньше укоренившаяся в суперкомпьютерной отрасли, InfiniBand, похоже, не собирается сдавать позиции.

Mellanox Innova-2: новейшее достижение компании в области Ethernet

Mellanox Innova-2: новейшее достижение компании в области Ethernet

Говорим InfiniBand, подразумеваем Mellanox. Именно эта компания является самым активным разработчиком соответствующих устройств на рынке InfiniBand. Такое название, как ConnectX, знакомо любому, кто когда-либо интересовался тематикой высокоскоростных межсерверных соединений. Компания опубликовала последнюю статистику, согласно которой, 77 % всех суперкомпьютеров, вошедших в список TOP500 последними, в период с июня по ноябрь текущего года, используют именно InfiniBand. Таких систем в шесть раз больше, нежели применяющих сети собственной разработки и в 15 раз больше, нежели платформ, объединённых стандартом Ethernet.

А вот новейшие модели адаптеров InfiniBand используют уже новый чипсет ConnectX-6

А вот последние модели адаптеров InfiniBand используют уже новый чипсет ConnectX-6

Всего на долю InfiniBand приходится 60 % всех систем в списке, из этих 60 % две системы входят в пятёрку наиболее производительных суперкомпьютеров в мире. Как считают представители Mellanox, это закономерно, поскольку InfiniBand обладает рядом преимуществ перед Ethernet. Как минимум, данный протокол с самого начала разрабатывался, как предназначенный именно для использования в системах класса HPC, поэтому его создатели сконцентрировались на достижении не только высокой пропускной способности, но и минимизации задержек. Впрочем, Mellanox не отказывается от Ethernet. Напротив, на выставке-конференции SC17 она представила ряд интересных решений, включая новейшие «умные» ускорители на базе связки чипов ConnectX-5 и Xilinx Kintex UltraScale.

Постоянный URL: http://servernews.ru/961639
26.09.2017 [06:53], Алексей Степин

Производительность суперкомпьютера Tianhe-2 будет доведена до 95 петафлопс

Согласно спискам Top500 по состоянию на июнь 2017 года первым в мире по вычислительной мощности по-прежнему остаётся китайский суперкомпьютер Sunway TaihuLight с пиковой производительностью свыше 93 петафлопс. Мы уже рассказывали читателям о его составляющих, в частности, довольно уникальных по архитектуре процессорах.

Но у чемпиона появился опаснейший соперник, правда, родом тоже из КНР. Это суперкомпьютер Tianhe-2, занимавший до недавнего времени вторую строку в рейтинге Top500 с показателем пиковой производительности почти 34 петафлопса. Затем он был разогнан до 55 петафлопс, а теперь пришло время дать бой лидеру.

Tianhe-2: до и после

Tianhe-2: до и после

В последнем варианте Tianhe-2 базировался на связках Intel Xeon и Xeon Phi, таких узлов у него было 16 тысяч. В качестве межблочной связи использовался стандарт 10 Гбит/с с задержкой 1,57 микросекунды, объём оперативной памяти составлял 1,4 петабайт, объём хранимых данных — 12,4 петабайт. Максимальная скорость работы с «дисковой» подсистемой могла достигать 512 Гбайт/с.

Свежая кровь: сопроцессор Matrix-2000

Свежая кровь: сопроцессор Matrix-2000

В настоящее время Tianhe-2 подвергается самой серьёзной модернизации за всю свою рабочую карьеру. Новая система будет называться Tianhe-2A, а место ускорителей Xeon Phi в ней займут сопроцессоры Matrix-2000 с уникальной архитектурой, разработанной китайскими специалистами. Чип этот являет собой разновидность DSP, оптимизированную, однако, с прицелом на вычисления общего характера. Декларируется поддержка OpenMP/OpenCL.

Общий план системы и межузловых соединений

Общий план системы и межузловых соединений

В результате подобного апгрейда количество узлов в системе увеличится до 17792, а пиковая производительность при этом почти достигнет 95 петафплос (94,97 петафлопс в проекте). Сетевая подсистема также подвергнется модернизации и скорость передачи данных в среде увеличится до 14 Гбит/с, а латентность упадет до 1 микросекунды. Объём оперативной памяти нарастят до 3,4 петабайт, «дисковой» — до 19 петабайт, а скорость доступа к последней достигнет 1 Тбайт/с.

Старый узел на базе Xeon Phi (слева) и новый на базе Matrix-2000. Процессоры припаиваются непосредственно к плате

Старый узел на базе Xeon Phi (слева) и новый на базе Matrix-2000. Процессоры припаиваются непосредственно к плате

Вырастет и энергоэффективность: если раньше удельная производительность составляла 1,9 гигафлопс на ватт, то после модернизации этот показатель превысит 5 гигафлопс на ватт. Впрочем, «смены власти», скорее всего, не произойдет: если в тестах High Performance Linpack TaihuLight может достичь показателя 125,4 петафлопса, то прогнозы по Tianhe-2 скромнее и находятся в районе 70‒80 петафлопс.

Постоянный URL: http://servernews.ru/959041
01.09.2017 [06:52], Алексей Степин

Новый японский суперкомпьютер Tsubame 3 в деталях

За звание обладателя быстрейшего в мире суперкомпьютера активно борются два азиатских тигра — КНР и Япония. Обе страны обладают огромным потенциалом в области разработки микроэлектроники. Пока лидируют китайцы: в списке Top 500 первые два места занимают системы Sunway TaihuLight и Tianhe-2; первая, к тому же, славится своей экономичностью, потребляя всего 15,3 мегаватта при производительности в районе 93 петафлопс. Но это не значит, что Страна восходящего солнца собирается сдаваться. В 2011 году и ранее первое место в списке машин с наилучшим соотношением производительности и уровня энергопотребления занимал японский кластер Tsubame 2. Его наследник, Tsubame 3, готов побороться в высшей лиге, в этом уверен профессор Токийского технологического института Сатоши Мацуока (Satoshi Matsuoka), один из разработчиков вычислительного комплекса.

Сатоши Мацуока демонстрирует один из узлов Tsubame 3

Сатоши Мацуока демонстрирует один из узлов Tsubame 3. Виден унифицированный контур СЖО

За его плечами двадцатилетний опыт проектирования и строительства кластерных систем различных масштабов, мощностей и назначения. Первый же спроектированный им суперкомпьютер Tsubame 1 (введён в строй в 2006 году) обошёл мощнейший на тот период вычислительный комплекс Earth Simulator, и при этом он был универсальным и пригодным для выполнения задач любого рода. Профессор не без оснований полагает, что его группа одна из первых в области создания гетерогенных архитектур. Опыты в области экономичности, однако, показали, что применение малых экономичных, но узкоспециализированных процессоров не является оптимальным. В итоге была избрана гетерогенная схема с x86 в качестве управляющих процессоров и графических ускорителей в качестве вычислительных модулей.

Главным поставщиком оборудования для Tsubame 3 стала компания HPE

Главным поставщиком оборудования для Tsubame 3 стала компания HPE

Уже Tsubame 2 был полностью гетерогенным и, как уже было сказано, этому кластеру удалось поставить рекорд экономичности. Его наследник получил такую же архитектуру. В его основе лежит 540 узлов, каждый из которых содержит по четыре ускорителя NVIDIA Tesla P100 (2160 в сумме) и два 14-ядерных процессора Intel Xeon E5-2680 v4 (15120 ядер в сумме). Для межузловой связи имеется пара портов Intel Omni-Path (2160 портов суммарно), а в качестве подсистемы хранения данных применены накопители Intel серии DC с поддержкой NVMe объёмом 2 Тбайт. Такова конфигурация узла HPE Apollo 8600, который по габаритам меньше стандартного корпуса формата 1U.

Ускоритель NVIDIA Tesla P100 в версии NVLink

Ускоритель NVIDIA Tesla P100 в версии NVLink

Над Tsubame 3 была проведена тщательнейшая оптимизация, и она дала свои плоды. Хотя на момент проведённых замеров в июне 2017 года машина работала не в полной конфигурации, ей уже удалось занять 61 место в общем списке Top 500 и выйти на первое место в списке Green 500, отобрав его у NVIDIA DGX-1 и Cray XC50, а также и у Sunway TaihuLight. Показатель составил 14,11 гигафлопс на ватт, что существенно выше предыдущего рекорда —  9,4 гигафлопс на ватт. Полностью система вошла в строй не так давно, 1 августа. Её расчётная мощность составляет 12,1 петафлопс. До TaihuLight, конечно, далековато, но команда Сатоши Мацуока не собирается уступать место в Green 500.

Япония —  лидер экономичности: все три первых места в Green 500 принадлежат ей

Япония —  лидер экономичности: все три первых места в Green 500 принадлежат ей

Интересен выбор технологии Omni-Path вместо традиционных Ethernet или InfiniBand, но исследователи выяснили, что оптимальным соотношением пропускной системы локальной памяти и скорости межузловых соединений является 2 к 1. С тех пор они придерживаются этого параметра, и скорости, предлагаемые Omni-Path, отлично способствуют сбалансированности системы в целом: Omni-Path даёт скорость 12,5 Гбайт/с, PCIe — 16 Гбайт/с, а NVLink — 20 Гбайт/с. Разница в скоростях составляет менее 2 к 1. Применение новой сетевой технологии позволило «накормить» каждый графический ускоритель в системе так, чтобы он простаивал как можно меньше. Кроме того, адаптеры Omni-Path показали себя более экономичными, нежели эквивалентные им карты InfiniBand. В узлах также использованы коммутаторы PCI Express, и все устройства могут общаться друг с другом независимо от центральных процессоров x86.

Комплекс Tsubame 3 использует жидкостное охлаждение

Комплекс Tsubame 3 использует жидкостное охлаждение

В интервью зарубежным СМИ Сатоши Мацуока озвучил своё видение идеальной кластерной системы. Такая система должна иметь только одну систему соединений на все компоненты, причём, любое соединение будет коммутируемым. Все протоколы будут скрыты под программной частью и полностью прозрачны для разработчика ПО. К этому стремится его команда разработчиков, но в реальном мире приходится довольствоваться сразу тремя типами соединений, но с прозрачностью дела идут неплохо, за исключением редких случаев. Тем не менее, он отметил, что с использованием Intel Omni-Path требуются некоторые усовершенствования в ЦП. Главная задача разработчиков Tsubame 3 на сегодняшний момент - добиться полной синхронности в работе всех трёх подсистем: Omni-Path, PCIe и NVLink. Разработчики оптимизируют соответствующие алгоритмы и улучшают их масштабируемость. Команде профессора Сатоши Мацуока помогают дружественные разработчики из Университета штата Огайо.

Постоянный URL: http://servernews.ru/957891
25.07.2017 [08:31], Алексей Степин

Петафлопс на час: облачный кластер Amazon поставил рекорд

Суперкомпьютер — удовольствие дорогое. Достаточно представить себе залы, заставленные аппаратными шкафами, которые потребляют мегаватты энергии и мегаватты же выделяют в виде тепла, которое надо отвести и рассеять. А если добавить к этому десятки километров медных и оптоволоконных кабелей, то стоимость такого вычислительного монстра перестаёт удивлять. Далеко не все организации могут позволить себе владеть системами такого класса. Тут-то и приходит на выручку идея «суперкомпьютера как сервиса», ранее уже подтвердившая свою работоспособность. Но на что способны такие сервисы сегодня? Как оказалось, весьма и весьма на многое.

Уже несколько лет компания Cycle Computing разрабатывает методы использования сервисов Amazon Web Services в помощь исследователям, нуждающимся в серьёзных вычислительных мощностях, но на сравнительно коротком промежутке времени. Недавно она закончила программу по созданию самого большого кластерного вычислителя Amazon. Созданная система, включившая в себя 156314 процессорных ядер, успешно проработала 18 часов, развив пиковую мощность порядка 1,21 петафлопс. В операции были задействованы ЦОД Amazon по всему миру: в США, Ирландии, Сингапуре, Японии, Бразилии и даже Австралии. Ядра распределились по 16788 системам, в среднем количество ядер на виртуальную машину составило 9,3. Конечно, не всякая вычислительная задача хорошо масштабируется с учётом сравнительно медленной пропускной способности межузловых соединений в таком «виртуальном суперкомпьютере». Отмечается, что даже в тесте Linpack результаты оказались бы меньше из-за высокой латентности соединений.

Однако выгода в тех случаях, где это возможно, очевидна — счёт, выставленный Amazon за использованные вычислительные мощности, составил всего $33 тысячи. Работал же «виртуальный суперкомпьютер» над задачей, поставленной профессором Университета Южной Калифорнии Марком Томпсоном (Mark Thompson). Его команда разрабатывает материалы, с помощью которых можно будет создавать высокоэффективные солнечные панели нового поколения. Вместо сложнейшей и очень дорогостоящей программы исследований, которая заняла бы год работы, удалось воспользоваться системой Schrödinger, которая смогла сэмулировать поведение 205 тысяч молекул. Вклад, внесённый Amazon и Cycle Computing в разработку солнечных батарей нового поколения оценивать пока рано, но сама система оказалась работоспособной. Компанию стоит похвалить за вклад в науку — помимо счёта Amazon, она не взяла с исследователей ни цента.

Постоянный URL: http://servernews.ru/955937
18.07.2017 [19:10], Сергей Карасёв

Представлено сверхплотное кластерное решение «РСК Торнадо» на чипах Xeon Scalable

Российская группа компаний РСК представила своё сверхплотное, масштабируемое и энергоэффективное кластерное решение «РСК Торнадо» на базе новых процессоров семейства Intel Xeon Scalable.

Чипы Xeon Scalable созданы специально для современных центров обработки данных и сетевой инфраструктуры. Они обеспечивают высокую энергоэффективность и производительность на уровне системы, превосходящую производительность предыдущего поколения в среднем в 1,65 раза. Процессоры обладают новой микроархитектурой ядра, новыми встроенными разъёмами и контроллерами памяти, благодаря чему платформа сочетает в себе производительность, надёжность, безопасность и управляемость.

Новые системы «РСК Торнадо» уже показали мировой рекорд производительности — 685,44 терафлопса на стандартный шкаф 42U (80 × 80 × 200 см). Такой результат был достигнут на процессорах Xeon Platinum 8180 поколения Scalable (28 ядер, тактовая частота ядра 2,5 ГГц). Этот показатель в 2,65 раза превышает производительность «РСК Торнадо» на базе самой старшей модели процессоров предыдущего поколения семейства Xeon E5-2600 v4 — а именно, Xeon E5-2699A v4.

РСК предлагает заказчикам универсальные высокоплотные решения «РСК Торнадо» на базе полного набора компонентов для создания современных кластерных вычислительных систем различного масштаба со 100 % жидкостным охлаждением в режиме «горячая вода», включая высокопроизводительные вычислительные узлы на базе 72-ядерного процессора Intel Xeon Phi 7290 и серверной платы Intel S7200AP, новых процессоров семейства Intel Xeon Scalable и плат Intel Server Board S2600BP, с установленными на них твердотельными дисками Intel SSD DC S3520 Series, Intel SSD DC P3520 Series с интерфейсом NVMe в высокоплотных форматах М.2 и новейшим Intel Optane SSD DC P4800X Series. 

Постоянный URL: http://servernews.ru/955654
18.07.2017 [11:39], Алексей Степин

Российские учёные разработали модулярно-логарифмический сопроцессор

Как известно, классические процессорные архитектуры проявляют себя хорошо при решении определённого круга задач, но в ряде особых случаев разработчики вынуждены применять специализированные сопроцессоры, поскольку эффективность обычных ЦП в этих случаях низкая, и они решают задачу, что называется, в лоб — количественным методом, затрачивая на это чудовищное количество системных ресурсов. Сопроцессоры же способны решать такие задачи гораздо быстрее. Простейшим примером могут послужить вычисления с плавающей запятой: сейчас блоки FPU интегрированы в основной кристалл, но когда-то они были отдельными чипами — Intel 8087/80287/80387 или других производителей, таких, как Weitek. В качестве современного примера можно привести векторные процессоры NEC Aurora, о которых мы рассказывали читателям ранее.

Похожего класса разработки имеются и у российских учёных: так, в лабораториях ВНИИЭФ разработан уникальный модулярно-логарифмический сопроцессор, первый научный доклад о котором прозвучал на суперкомпьютерном форуме НСКФ-2016. Глава команды разработчиков, Илья Осинин, заявил, что благодаря использованию нетрадиционной логарифмической системы счисления удалось добиться десятикратного ускорения производительности на операциях умножения и стократного — на операциях деления. И это не только теория: сопроцессор был проверен в работе и аппаратно. Для прототипирования были использованы чипы ПЛИС производства Altera — так поступают практически все разработчики сложных вычислительных устройств, когда им нужно проверить свои теории на практике. Данной разработкой заинтересовались сразу три российских разработчика: АО «МЦСТ», Baikal Electronics и НИСИ РАН.

Внимание со стороны МЦСТ вполне логично: у этой команды уже налажен выпуск восьмиядерных 64-битных процессоров Эльбрус-8С, на основе которых планируется строить не только серверы и рабочие станции, но также и кластерные системы и суперкомпьютеры, в которых сопроцессор Осинина может принести немало пользы. По данным разработчиков, этот чип в 1000 раз быстрее Intel Xeon E5-2697 v3 (Haswell-EP, 14С/28T, 2,6 ГГц, 35 Мбайт L3, 145 ватт) при вычислении логарифмов и в три раза быстрее при обработке сложных полиномов. Интересно, что архитектура у новой разработки гибкая и имеет возможность реконфигурации на лету, что, в числе прочего, позволяет заменять отказавшие вычислительные блоки не прерывая вычислений. Это наверняка оценят как учёные, так и военные. Имеющийся прототип, выполняющий 4 операции за такт, оценивается в 9,2 миллиона транзисторов, что весьма немного по меркам современной индустрии.

При увеличении количества вычислительных блоков до 32 возможности модулярно-логарифмического сопроцессора сравняются с блоком AVX-512, реализованном в процессорах Intel Xeon Phi семейства Knights Landing, но транзисторный бюджет составит всего 73,6 миллиона транзисторов против 86 миллионов у Intel —  налицо 17 % экономия, а значит, и более низкая себестоимость. Помимо этого, группировка ядер в новой архитектуре позволяет выполнять 1024-разрядные операции за один такт, чего не умеет блок расширений AVX-512, ограниченный 512 разрядами за такт. О полной победе над Intel говорить рано, поскольку образец пока работает лишь на частоте 100 МГц — в 26 меньше, чем у решения Intel. Речь идёт о финальной версии с аналогичной частотой 2,6 ГГц, что вполне достижимо в финальной версии с собственным кремнием. Совместим новый сопроцессор не только с решениями МЦСТ, но и практически с любым другим процессором. Из отечественных решений названы чипы Байкал-М и KOMDIV-64.

Постоянный URL: http://servernews.ru/955609
26.06.2017 [18:07], Алексей Степин

ISC 2017: CPU SunWay Micro — китайская экзотика

В проектировании суперкомпьютеров нет единого стандарта и архитектуры: строятся системы как на базе x86-совместимых процессоров, но активно используются и уникальные решения, такие как векторные процессоры NEC. Идёт своим путём и Китай, разрабатывая специально для этой цели серию процессоров Sunway (ShenWei). За разработку отвечает Национальный центр по проектированию высокопроизводительных интегральных схем, расположенный в Шанхае.

Исторически эти процессоры родились как ответ на запрос военных из НОАК, считается что основой послужили знаменитые в своё время чипы DEC Alpha. Последнее поколение Sunway, 260-ядерные процессоры SW26010 стали «сердцами» для одного из самых мощных суперкомпьютеров в мире — TaihuLight, который по-прежнему возглавляет список TOP500 по состоянию на июнь 2017 года. Архитектурно эти процессоры чем-то напоминают современные GPU, так как содержат внутри четыре кластера, в каждом из которых организована матрица 8 × 8 из относительно простых вычислительных элементов, а за управление отвечает приставленное к каждому кластеру ядро с более традиционной архитектурой.

Каждый кластер имеет свой контроллер памяти и использует собственное адресное пространство. Вычислительные блоки имеют по 64 Кбайт кеша данных и 16 Кбайт кеша инструкций, но традиционная иерархия кешей на этом заканчивается и объединены эти блоки единой сетью класса NoC (network-on-chip); управляющие ядра, впрочем, построены более привычным образом — каждое из них располагает 256 Кбайт собственного кеша L2. Судя по экспозиции на ISC 2017, разработчики серии Sunway решили продвигать свои решения и в другие, не столь масштабные сферы. Были продемонстрированы новые системные платы Sunway Micro с двумя процессорами SW26010 на каждой, причём они изначально ориентированы на жидкостное охлаждение, на что явно указывают не лишённые китайского изящества водоблоки.

Речь, скорее, о модуле, нежели о системной плате в полном смысле этого слова, поскольку оперативная память распаяна в виде набора чипов, а не установлена модулями DIMM. В зависимости от конфигурации, её объем может составлять от 64 до 256 Гбайт на плату. Производительность такой платы составляет 6 терафлопс, она может нести на борту до 12 Тбайт дискового пространства. Эффективность SW26010 высока: каждый вычислительный блок может выполнять 8 операций над числами с плавающей запятой. Тактовая частота невысока, она составляет всего 1,45 ГГц, но для 260-ядерного процессора это серьёзное значение.

Новинки предназначаются для использования в науке и инженерии для моделирования различных процессов, подходят они и для набирающих популярность систем глубинного машинного обучения (deep learning). Аккуратное шасси с двумя иероглифами на передней панели напоминает шкафы TaihuLight, но, разумеется, занимает намного меньше места. Оно может вместить в себя несколько плат Sunway Micro и представляет собой суперкомпьютер в миниатюре.

Аппаратное обеспечение, особенно такое уникальное, как Sunway, требует программной поддержки, и она у китайских разработчиков есть: потенциальным партнёрам будут доступны всевозможные средства и среды разработки, базирующиеся на языках C/C++ и Fortran, отладочные механизмы, а также средства многопоточной оптимизации и автоматической векторизации кода. В этом платформа Sunway Micro ничуть не уступает японской NEC Vector Engine.

Постоянный URL: http://servernews.ru/954505
Система Orphus