Материалы по тегу: супервычисления

05.10.2017 [14:14], Андрей Крупин

РСК упрочила позиции в новой редакции рейтинга TOP 50 самых мощных суперкомпьютеров СНГ

Группа компаний РСК, занимающаяся разработкой решений для сегмента высокопроизводительных вычислений и центров обработки данных, на 22% увеличила долю своих суперкомпьютеров в новой редакции рейтинга TOP 50 самых мощных вычислительных систем в России и СНГ.

В обновлённый список TOP 50 вошли одиннадцать суперкомпьютерных систем РСК, четыре из которых развёрнуты в Москве (в Межведомственном суперкомпьютерном центре Российской академии наук), два в Санкт-Петербурге (в Санкт-Петербургском политехническом университете Петра Великого), два в Челябинске (в Южно-Уральском государственном университете), один в Долгопрудном (в Московском физико-техническом институте), один в Волгограде (в Волгоградском государственном техническом университете) и один в Новосибирске (в Сибирском суперкомпьютерном центре сибирского отделения РАН).

Лидером рейтинга TOP 50 уже шесть редакций подряд остаётся установленный в МГУ имени М.В. Ломоносова суперкомпьютер «Ломоносов-2» производства компании «Т-Платформы», чья пиковая производительность составляет 2962,3 терафлопс. На второй строчке рейтинга, как и ранее, с пиковой производительностью в 1700,21 терафлопс фигурирует суперкомпьютер «Ломоносов», также установленный в МГУ и разработанный специалистами компании «Т-Платформы». Замыкает тройку фаворитов развёрнутая в Санкт-Петербургском политехническом университете система «Политехник РСК Торнадо» производства группы компаний РСК с пиковой производительностью в 1015,1 терафлопс.

В обновлённом рейтинге 49 суперкомпьютеров построены на процессорах Intel, одна система построена на процессорах IBM POWER8. Число гибридных комплексов, использующих для вычислений графические процессоры, увеличилось с 17 до 19, а количество систем с ускорителями Intel Xeon Phi на борту выросло с 8 до 9. Количество вычислительных систем на базе InfiniBand увеличилось с 32 до 33, при этом число суперкомпьютеров, использующих для взаимодействия узлов лишь коммуникационную сеть Gigabit Ethernet, сократилось с 13 до 9. Количество систем в списке на основе технологии Intel Omni-Path выросло с трёх до пяти.

Приводятся составителями рейтинга и другие количественные показатели. В частности, сообщается, что количество систем, задействованных в науке и образовании, осталось равным 18; количество систем, ориентированных на конкретные прикладные исследования, выросло с 12 до 16; число систем, используемых в промышленности, уменьшилось с 7 до 5; число систем в финансовой области осталось равным трём. По количеству представленных в списке систем лидером осталась Hewlett Packard Enterprise (13 разработанных суперкомпьютеров), далее следует РСК с 11 вычислительным комплексами и IBM с «Т-Платформы» (у каждой по 7 систем в рейтинге).

С полной версией рейтинга TOP 50 самых мощных суперкомпьютеров в России и СНГ можно ознакомиться по адресу top50.supercomputers.ru.

Материалы по теме:

Источники:

Постоянный URL: http://servernews.ru/959531
30.09.2017 [00:15], Алексей Степин

Терафлопс в космосе: на МКС тестируется компьютер HPE Spaceborne

Бытует мнение, что в космической отрасли используется всё самое лучшее, включая компьютерные компоненты. Это не совсем так: вы не встретите в космических аппаратах 18-ядерных Xeon и ускорителей Tesla. Во-первых, энергетические резервы за пределами Земли строго ограничены, и даже на МКС никто не будет тратить несколько киловатт на питание «космического суперкомпьютера». Во-вторых, практически вся электроника, работающая за пределами атмосферы, выпускается в специальном радиационно-стойком исполнении. Чаще всего за счёт техпроцессов «кремний на диэлектрике» (SOI) и «сапфировая подложка» (SOS), используется также биполярная логика вместо менее стойкой к внешним излучениям CMOS.

Мини-кластер в космическом исполнении. Охлаждение жидкостное

Мини-кластер в космическом исполнении. Охлаждение жидкостное

Мощными в космосе считаются такие решения, как BAE Systems серии RAD, особенно новая RAD5500 (от 1 до 4 ядер, 45-нм SOI, PowerPC, 64 бита). Четырёхъядерный вариант RAD5545 развивает производительность более 3,7 гигафлопс при потреблении около 20 ватт. Иными словами, вычислительные мощности в космосе тоже растут, но совсем иными темпами, нежели на Земле. Тому подтверждением служит недавно вступивший в строй на борту Международной космической станции компьютер HPE Spaceborne. Если на Земле мощность суперкомпьютеров измеряется десятками и сотнями петафлопс, то Spaceborne куда скромнее — судя по проведённым тестам, его вычислительная мощность достигает 1 терафлопса. Достигнута она путём сочетания современных процессоров Intel с ускорителями NVIDIA Tesla P100 (NVLink-версия).

Конфигурация каждого из узлов Spaceborne

Конфигурация каждого из узлов Spaceborne

Для космических систем это большое достижение, и не стоит иронизировать над этим показателем производительности. Интересно, что сама по себе система Spaceborne, доставленная на борт станции миссией SpaceX CRS-12, является своего рода экспериментом на тему «как чувствуют себя в космосе обычные компьютерные комплектующие». Это связка из двух серверов HPE Apollo 40 на базе Intel Xeon, объединённая сетью со скоростью 56 Гбит/с. 14 сентября на систему было подано питание (48 и 110 вольт), а недавно проведены первые тесты High Performance LINPACK.

Системы охлаждения и электропитания Spaceborne

Системы охлаждения и электропитания Spaceborne

Пока Spaceborne не будет использоваться для анализа научных данных или управления какими-либо системами станции. Его миссия — продемонстрировать то, насколько живучи обычные серверы в космосе. Результаты постоянных тестов будут сравниваться с аналогичной системой, оставшейся на Земле. Тем не менее, достижение первого терафлопса в космосе является своеобразным мировым рекордом. Это маленький шаг для супервычислений, но большой для всей космической индустрии, поскольку за Spaceborne явно последуют его более совершенные и мощные потомки.

Постоянный URL: http://servernews.ru/959278
29.09.2017 [23:40], Алексей Степин

Supermicro представила новые системы на базе NVIDIA Tesla V100

Одним из самых мощных вычислительных ускорителей на сегодня является NVIDIA Tesla V100, основанный на новейшей микроархитектуре Volta — она настолько нова, что на её базе пока не выпущено игровых решений. Разумеется, компания Supermicro, известнейший производитель серверных компонентов и готовых систем, не прошла мимо и объявила о поддержке обоих вариантов Tesla, как с шиной NVLink (V100 SXM2), так и в виде плат с интерфейсом PCIe (V100 PCI-E).

Система SuperServer 4028GR-TXRT поддерживает установку до восьми ускорителей Tesla с разъёмом NVLink. Эта новинка предназначена для исследований в области машинного интеллекта, глубинного машинного обучения, но пригодится она и в любом месте, где требуется серьёзный объём вычислений — в науке, медицине и инженерных отраслях. Конструктивно это стандартный корпус высотой 4U, так что проблем с интеграцией в существующую инфраструктуру нет. Есть и вариант с PCIe-ускорителями V100 — 4028GR-TRT2, но эта система вмещает уже целых 10 ускорителей. За счёт использования коммутаторов PCI Express ускорители могут общаться друг с другом напрямую.

Tesla V100 SXM2 (слева) и V100 PCI Express

Tesla V100 SXM2 (слева) и V100 PCI Express (снимок AnandTech.com)

Есть и более компактные решения: так, SuperServer 1028GQ-TRT при высоте корпуса всего 1U поддерживает установку четырёх ускорителей V100. Это идеальное решение для рендеринга, медицинской визуализации и мультимедийных приложений, включая потоковые игровые сервисы. Создание приложений, оптимизированных для работы в системах с множественными ускорителями Tesla, не так-то просто, поэтому Supermicro предлагает и рабочие станции для разработчиков такого ПО. Модель 7049GP-TRT выполнена в привычном башенном корпусе и поддерживает одновременную работу до четырёх ускорителей Tesla V100 в варианте PCI Express.

Постоянный URL: http://servernews.ru/959277
26.09.2017 [06:53], Алексей Степин

Производительность суперкомпьютера Tianhe-2 будет доведена до 95 петафлопс

Согласно спискам Top500 по состоянию на июнь 2017 года первым в мире по вычислительной мощности по-прежнему остаётся китайский суперкомпьютер Sunway TaihuLight с пиковой производительностью свыше 93 петафлопс. Мы уже рассказывали читателям о его составляющих, в частности, довольно уникальных по архитектуре процессорах.

Но у чемпиона появился опаснейший соперник, правда, родом тоже из КНР. Это суперкомпьютер Tianhe-2, занимавший до недавнего времени вторую строку в рейтинге Top500 с показателем пиковой производительности почти 34 петафлопса. Затем он был разогнан до 55 петафлопс, а теперь пришло время дать бой лидеру.

Tianhe-2: до и после

Tianhe-2: до и после

В последнем варианте Tianhe-2 базировался на связках Intel Xeon и Xeon Phi, таких узлов у него было 16 тысяч. В качестве межблочной связи использовался стандарт 10 Гбит/с с задержкой 1,57 микросекунды, объём оперативной памяти составлял 1,4 петабайт, объём хранимых данных — 12,4 петабайт. Максимальная скорость работы с «дисковой» подсистемой могла достигать 512 Гбайт/с.

Свежая кровь: сопроцессор Matrix-2000

Свежая кровь: сопроцессор Matrix-2000

В настоящее время Tianhe-2 подвергается самой серьёзной модернизации за всю свою рабочую карьеру. Новая система будет называться Tianhe-2A, а место ускорителей Xeon Phi в ней займут сопроцессоры Matrix-2000 с уникальной архитектурой, разработанной китайскими специалистами. Чип этот являет собой разновидность DSP, оптимизированную, однако, с прицелом на вычисления общего характера. Декларируется поддержка OpenMP/OpenCL.

Общий план системы и межузловых соединений

Общий план системы и межузловых соединений

В результате подобного апгрейда количество узлов в системе увеличится до 17792, а пиковая производительность при этом почти достигнет 95 петафплос (94,97 петафлопс в проекте). Сетевая подсистема также подвергнется модернизации и скорость передачи данных в среде увеличится до 14 Гбит/с, а латентность упадет до 1 микросекунды. Объём оперативной памяти нарастят до 3,4 петабайт, «дисковой» — до 19 петабайт, а скорость доступа к последней достигнет 1 Тбайт/с.

Старый узел на базе Xeon Phi (слева) и новый на базе Matrix-2000. Процессоры припаиваются непосредственно к плате

Старый узел на базе Xeon Phi (слева) и новый на базе Matrix-2000. Процессоры припаиваются непосредственно к плате

Вырастет и энергоэффективность: если раньше удельная производительность составляла 1,9 гигафлопс на ватт, то после модернизации этот показатель превысит 5 гигафлопс на ватт. Впрочем, «смены власти», скорее всего, не произойдет: если в тестах High Performance Linpack TaihuLight может достичь показателя 125,4 петафлопса, то прогнозы по Tianhe-2 скромнее и находятся в районе 70‒80 петафлопс.

Постоянный URL: http://servernews.ru/959041
25.09.2017 [12:00], Алексей Степин

Новые рекорды масштабируемости: космологи загрузили работой более 650 тысяч ядер

На дворе эпоха массивных параллельных вычислений — в этом нет сомнения. В этой области нередко ставятся своеобразные рекорды. Так, учёные из Научно-технологического университета имени короля Абдаллы (KAUST) уже смогли распараллелить процесс симуляции поведения жидкостей в ANSYS Fluent почти на 200 тысяч процессорных ядер Haswell-EP. Но их достижение далеко переплюнули космологи из Национальной лаборатории имени Лоуренса в Беркли (США), исследуя реликтовое излучение.

Машинный зал Cori

Машинный зал Cori

Этот феномен являет собой равномерно заполняющее вселенную тепловое излучение, возникшее почти сразу после Большого взрыва — всего через 379 тысяч лет. Изучая структуру этого излучения, можно многое узнать о секретах нашей вселенной, ранних стадиях её развития и многом другом. И, похоже, пришла пора по-настоящему мощных экспериментов в этой области. Мощных в плане вычислительных возможностей: исследователям удалось заставить работать пакет TOAST (Time Ordered Astrophysics Scalable Tools) на 658 784 процессорах Knights Landing (Xeon Phi).

Карта реликтового излучения неоднородна, что даёт массу информации исследователям

Карта реликтового излучения неоднородна, что даёт массу информации исследователям

Это достижение было сделано на системе Cori, установленной в национальном научно-исследовательском вычислительном центре энергетики (NERSC). Конечно, ядра у Knights Landing попроще, нежели у Haswell-EP, да и рабочая задача совершенно иная, но, тем не менее, это новый рекорд параллельности в вычислениях, весьма существенно превышающий предыдущий. И это важная веха, поскольку, как считают исследователи, в течение ближайших 10 лет объём данных о реликтовом излучении увеличится в 1000 раз и для их обработки потребуются соответствующие вычислительные мощности.

Постоянный URL: http://servernews.ru/958959
01.09.2017 [22:39], Алексей Степин

В обучении нейросетей достигнута производительность 15 петафлопс

Разработчики нейросетей и систем машинного обучения продолжают работы по усовершенствованию и ускорению соответствующих задач. Смешанная группа инженеров и учёных из Национальной лаборатории имени Лоуренса в Беркли, Стэнфордского университета и корпорации Intel впервые преодолела барьер 10 петафлопс при выполнении двух различных программ глубинного машинного обучения. Одна из них смогла показать рекордный результат — 15 петафлопс. Исследование проводилось с использованием суперкомпьютера Cori, установленного в министерстве энергетики США. Результаты эксперимента были опубликованы 17 августа и ознакомиться с ними можно по этой ссылке. В процессе вычислений использовалась математика одинарной точности — режима FP32 обычно достаточно с точки зрения достигаемой точности вычислений при обучении нейронных сетей. Иногда используются даже менее точные вычисления, такие, как FP16 или даже INT8.

Машинный зал Cori

Машинный зал Cori

В системе Cori, которая представляет собой Cray XC40, проблем с такой математикой нет: она состоит из 9688 процессоров Intel Xeon Phi 7250 серии Knights Landing. Пиковая производительность комплекса в режиме одинарной точности достигает 59 петафлопс, но из-за активного использования векторных инструкций (AVX), применяемых в матричной математике, тактовые частоты процессоров снизились с 1,4 до 1,2 ГГц, что понизило пиковую производительность до 50,6 петафлопс. Для тестовой задачи были использованы метеорологические данные общим объемом 15 Тбайт, полученные с помощью климатического симулятора. Именно при обработке этих моделей была достигнута пиковая производительность 15,07 петафлопс при устоявшейся 13,27 петафлопс. Задействовалось 9622 ядер Cori из 9688 физически имеющихся в системе. Показатели масштабируемости тоже впечатляют: 7205-кратное увеличение скорости вычислений было получено при переходе от 1 процессорного ядра к 9622. Второй тестовой задачей был обсчёт набора данных из области физики высоких энергий. Здесь скорости составили 11,73 и 11,41 петафлопс, соответственно, а масштабируемость достигла показателя 6173.

Некоторые полученные данные о масштабируемости задач

Некоторые полученные данные о масштабируемости задач

К сожалению, в тестовых задачах каждый из Xeon Phi смог выдать около 2 терафлопс из 6 возможных, но это практически предел для реальных приложений — как традиционных задач класса HPC, так и задач машинного обучения. Что касается точности, то итоговые показатели оказались неплохими: в задаче из области физики высоких энергий точность корректного распознавания сигналов составила 72 %, что существенно выше, нежели при применении традиционного анализа, при котором достигается точность порядка 42 %. К сожалению, численная оценка точности климатической задачи не производилась, но исследователи утверждают, что нейронная сеть отлично справилась с поиском, локализацией и идентификацией тропических циклонов, что было её главной целью. Исследователи намерены продолжать работы: планируется как оптимизация имеющихся алгоритмов машинного обучения, так и внедрение новых. В планах есть и применение систем с более низкой точностью обработки данных, поскольку это может позволить добиться ускорения процесса обучения нейросетей.

Постоянный URL: http://servernews.ru/957957
01.09.2017 [06:52], Алексей Степин

Новый японский суперкомпьютер Tsubame 3 в деталях

За звание обладателя быстрейшего в мире суперкомпьютера активно борются два азиатских тигра — КНР и Япония. Обе страны обладают огромным потенциалом в области разработки микроэлектроники. Пока лидируют китайцы: в списке Top 500 первые два места занимают системы Sunway TaihuLight и Tianhe-2; первая, к тому же, славится своей экономичностью, потребляя всего 15,3 мегаватта при производительности в районе 93 петафлопс. Но это не значит, что Страна восходящего солнца собирается сдаваться. В 2011 году и ранее первое место в списке машин с наилучшим соотношением производительности и уровня энергопотребления занимал японский кластер Tsubame 2. Его наследник, Tsubame 3, готов побороться в высшей лиге, в этом уверен профессор Токийского технологического института Сатоши Мацуока (Satoshi Matsuoka), один из разработчиков вычислительного комплекса.

Сатоши Мацуока демонстрирует один из узлов Tsubame 3

Сатоши Мацуока демонстрирует один из узлов Tsubame 3. Виден унифицированный контур СЖО

За его плечами двадцатилетний опыт проектирования и строительства кластерных систем различных масштабов, мощностей и назначения. Первый же спроектированный им суперкомпьютер Tsubame 1 (введён в строй в 2006 году) обошёл мощнейший на тот период вычислительный комплекс Earth Simulator, и при этом он был универсальным и пригодным для выполнения задач любого рода. Профессор не без оснований полагает, что его группа одна из первых в области создания гетерогенных архитектур. Опыты в области экономичности, однако, показали, что применение малых экономичных, но узкоспециализированных процессоров не является оптимальным. В итоге была избрана гетерогенная схема с x86 в качестве управляющих процессоров и графических ускорителей в качестве вычислительных модулей.

Главным поставщиком оборудования для Tsubame 3 стала компания HPE

Главным поставщиком оборудования для Tsubame 3 стала компания HPE

Уже Tsubame 2 был полностью гетерогенным и, как уже было сказано, этому кластеру удалось поставить рекорд экономичности. Его наследник получил такую же архитектуру. В его основе лежит 540 узлов, каждый из которых содержит по четыре ускорителя NVIDIA Tesla P100 (2160 в сумме) и два 14-ядерных процессора Intel Xeon E5-2680 v4 (15120 ядер в сумме). Для межузловой связи имеется пара портов Intel Omni-Path (2160 портов суммарно), а в качестве подсистемы хранения данных применены накопители Intel серии DC с поддержкой NVMe объёмом 2 Тбайт. Такова конфигурация узла HPE Apollo 8600, который по габаритам меньше стандартного корпуса формата 1U.

Ускоритель NVIDIA Tesla P100 в версии NVLink

Ускоритель NVIDIA Tesla P100 в версии NVLink

Над Tsubame 3 была проведена тщательнейшая оптимизация, и она дала свои плоды. Хотя на момент проведённых замеров в июне 2017 года машина работала не в полной конфигурации, ей уже удалось занять 61 место в общем списке Top 500 и выйти на первое место в списке Green 500, отобрав его у NVIDIA DGX-1 и Cray XC50, а также и у Sunway TaihuLight. Показатель составил 14,11 гигафлопс на ватт, что существенно выше предыдущего рекорда —  9,4 гигафлопс на ватт. Полностью система вошла в строй не так давно, 1 августа. Её расчётная мощность составляет 12,1 петафлопс. До TaihuLight, конечно, далековато, но команда Сатоши Мацуока не собирается уступать место в Green 500.

Япония —  лидер экономичности: все три первых места в Green 500 принадлежат ей

Япония —  лидер экономичности: все три первых места в Green 500 принадлежат ей

Интересен выбор технологии Omni-Path вместо традиционных Ethernet или InfiniBand, но исследователи выяснили, что оптимальным соотношением пропускной системы локальной памяти и скорости межузловых соединений является 2 к 1. С тех пор они придерживаются этого параметра, и скорости, предлагаемые Omni-Path, отлично способствуют сбалансированности системы в целом: Omni-Path даёт скорость 12,5 Гбайт/с, PCIe — 16 Гбайт/с, а NVLink — 20 Гбайт/с. Разница в скоростях составляет менее 2 к 1. Применение новой сетевой технологии позволило «накормить» каждый графический ускоритель в системе так, чтобы он простаивал как можно меньше. Кроме того, адаптеры Omni-Path показали себя более экономичными, нежели эквивалентные им карты InfiniBand. В узлах также использованы коммутаторы PCI Express, и все устройства могут общаться друг с другом независимо от центральных процессоров x86.

Комплекс Tsubame 3 использует жидкостное охлаждение

Комплекс Tsubame 3 использует жидкостное охлаждение

В интервью зарубежным СМИ Сатоши Мацуока озвучил своё видение идеальной кластерной системы. Такая система должна иметь только одну систему соединений на все компоненты, причём, любое соединение будет коммутируемым. Все протоколы будут скрыты под программной частью и полностью прозрачны для разработчика ПО. К этому стремится его команда разработчиков, но в реальном мире приходится довольствоваться сразу тремя типами соединений, но с прозрачностью дела идут неплохо, за исключением редких случаев. Тем не менее, он отметил, что с использованием Intel Omni-Path требуются некоторые усовершенствования в ЦП. Главная задача разработчиков Tsubame 3 на сегодняшний момент - добиться полной синхронности в работе всех трёх подсистем: Omni-Path, PCIe и NVLink. Разработчики оптимизируют соответствующие алгоритмы и улучшают их масштабируемость. Команде профессора Сатоши Мацуока помогают дружественные разработчики из Университета штата Огайо.

Постоянный URL: http://servernews.ru/957891
25.08.2017 [15:35], Андрей Крупин

Минкомсвязь России расставит акценты в сфере суперкомпьютерных вычислений и грид-технологий

Министерство связи и массовых коммуникаций Российской Федерации (Минкомсвязь России) намерено определить приоритетные направления деятельности в области высокопроизводительных вычислений и форсировать развитие отечественных проектов в HPC-отрасли. Об этом сообщил глава ведомства Николай Никифоров на заседании Межведомственной комиссии по суперкомпьютерным и грид-технологиям.

«Межведомственная комиссия должна упорядочить все работы по внедрению и использованию суперкомпьютеров и технологий распределённых вычислений в нашей стране. Проекты, связанные с такими вычислениями, часто находятся внутри большого количества государственных программ, что затрудняет оценку их бюджетной эффективности и ограничивает их использование всеми заинтересованными сторонами», — сказал Николай Никифоров. Министр связи и массовых коммуникаций РФ акцентировал внимание на необходимости выработки как инструментов оценки бюджетных трат на подобные проекты, так и механизмов их совместного использования, предполагающих, например, создание укрупнённых вычислительных центров.

Глава Минкомсвязи РФ Николай Никифоров (фото пресс-службы ведомства)

Глава Минкомсвязи РФ Николай Никифоров (фото пресс-службы ведомства)

На заседании обсуждались законодательные и иные нормативные правовые акты в HPC-сфере, были определены первоочередные научно-технологические задачи, для решения которых необходимо применение суперкомпьютеров и грид-технологий. В частности, говорилось о применении такого типа вычислений для прогнозирования изменения климата и анализа метеоданных, разработки новых медицинских препаратов и биотехнологий, проектирования космических аппаратов и устройств, моделирования сложных химических процессов, в том числе ядерных реакций, анализа больших данных, решения промышленных задач.

Также речь шла о создании соответствующего центра компетенций и организации деятельности рабочих групп по каждому из направлений. Отдельное внимание представителями Межведомственной комиссии было уделено подготовке специалистов высокого уровня в сфере суперкомпьютерных вычислений и грид-технологий. Участники заседания заявили о необходимости ежегодной подготовки не менее 1 тысячи специалистов по перечисленным направлениям.

Материалы по теме:

Источник:

Постоянный URL: http://servernews.ru/957586
10.08.2017 [13:40], Алексей Степин

IBM ставит рекорды масштабируемости в сфере машинного обучения

Технологии машинного обучения и искусственного интеллекта на базе нейронных сетей в наши дни являются широко востребованными, на них возлагаются большие надежды в самых различных промышленных и научных отраслях. Очевидно также, что тенденция к распараллеливанию программных алгоритмов и не думает сокращаться, но не всякий софт хорошо масштабируется по мере роста количества вычислительных блоков. Компания IBM это понимает хорошо — она активно работает над оптимизацией программного обеспечения нейронных сетей. Буквально на днях разработчики «голубого гиганта» продемонстрировали новое ПО, которое одновременно ускоряет обучение нейронных сетей и повышает аккуратность самого обучения.

Добиться этого удалось путём программной оптимизации масштабирования при увеличении количества графических ускорителей в системе. Исследовательская группа, возглавляемая Хиллери Хантер (Hillery Hunter), фокусировала свои усилия на уменьшении времени тренировки нейросетей на больших объёмах данных. В таких задачах ждать получения результата можно часами и даже днями, а задачей исследователей было добиться сокращения этого временного промежутка до минут или даже секунд при сохранении или повышении точности. Для этого пришлось активно оптимизировать фирменное программное обеспечение IBM для эффективной работы в системах с большим количеством GPU-ускорителей.

Оптимизации, внесённые в комплекс ПО Distributed Deep Learning (DDL), позволили добиться 95 % эффективности масштабирования в системе с 256 ускорителями NVIDIA Tesla P100. Тестирование было проведено в системе Caffe на задачах распознавания изображений. Полученный результат является новым рекордом. Ранее этот рекорд составлял 89 % и был достигнут командой Facebook при использовании аналогичного аппаратного комплекса. Точность распознавания на базе из 7,5 миллионов изображений достигла 33,8 %, что тоже выше предыдущего достижения, равного 29,8 %. Казалось бы, немного, но предыдущий результат занял у Microsoft 10 дней обучения сети в 2014 году, в то время, как IBM удалось уложиться всего в 7 часов за счёт использования графических ускорителей серии Tesla.

Постоянный URL: http://servernews.ru/956738
10.08.2017 [13:00], Алексей Степин

Национальная лаборатория Ок-Ридж начала монтаж суперкомпьютера Summit

Как сообщают зарубежные средства массовой информации, национальная лаборатория министерства энергетики США, известная как Национальная лаборатория Ок-Ридж (Oak Ridge National Laboratory, ORNL), начала работы по установке новейшего суперкомпьютера Summit, базирующегося на синтезе технологий IBM и NVIDIA. Ранее мы рассказывали об этом проекте, когда речь шла о быстродействии новых ускорителей NVIDIA Volta GV100. Напомним, что каждый из 4600 узлов Summit будет иметь производительность свыше 40 терафлопс, а в качестве начинки выступает связка из двух процессоров IBM POWER9 и шести ускорителей Volta GV100 производительностью порядка 7,5 терафлопс каждый. В качестве связующего звена задействован интерфейс NVLink 2.0 с пропускной способностью до 200 Гбайт/с.

Summit должен стать ответом китайскому проекту TaihuLight — пиковая производительность нового суперкомпьютера планируется на уровне 200 петафлопс, тогда как конкурент развивает лишь чуть более 125 петафлопс. Эти два суперкомпьютера станут самыми мощными вычислительными комплексами на планете, не использующими архитектуры x86. В понедельник в лабораторию Ок-Ридж были доставлены первые контейнеры с узлами Summit, и по словам представителя ORNL, как только они будут распакованы, сразу же начнётся процесс установки и монтажа компонентов новой системы, а также её подключения к сетям питания и охлаждающим установкам. Процесс сборки должен занять порядка шести месяцев, полноценный ввод системы в эксплуатацию запланирован на январь 2019 года.

В последнем случае речь идёт об общей доступности для научно-исследовательских проектов, но до этого система будет проходить наладку, и к ней получат доступ разработчики из министерства энергетики и некоторые университеты. Скорее всего, первые «признаки жизни» Summit подаст не раньше 2018 года, так что процедуру смены короны лидера списка TOP500 мы увидим не раньше следующего июня. Новый суперкомпьютер ORNL превзойдёт не только китайского монстра, но и предыдущую систему Окриджской лаборатории под названием Titan. Сейчас эта система занимает четвёртое место в TOP500 с пиковой производительностью 27,1 петафлопса и измеренными с помощью Linpack 17,6 петафлопсами. Таким образом, Summit будет в 5‒10 раз быстрее предшественника. А благодаря архитектурным особенностям NVIDIA Volta на задачах глубинного обучения (смешанные 16/32-битные вычисления) мощность Summit и вовсе достигнет запредельных 3,3 экзафлопс.

Постоянный URL: http://servernews.ru/956728