Материалы по тегу: hpc

09.09.2019 [12:39], Сергей Тверье

DARPA заинтересовалась развитием параллелизма в высокопроизводительных вычислениях

По мере того как закон Мура теряет свою актуальность, внедряются всё новые подходы к программированию с целью повышения эффективности использования оборудования при уменьшении затрат на написание кода. 

Управление перспективных исследовательских проектов Министерства обороны США DARPA запускает новый проект, направленный на максимизацию использования преимуществ массивно-параллельных архитектур с минимизацией необходимых трудозатрат.

Проект PAPPA (Performant Automation of Parallel Program Assembly — высокопроизводительная автоматизация создания параллельных программ) стремится разработать новые подходы к программированию, которые позволили бы исследователям и разработчикам приложений создавать эффективные программы для запуска на высокопараллельных и гетерогенных системах.

DARPA запускает новый проект нацеленный на развитие массово-параллельных архитектур и упрощения инструментов для работы с ними

DARPA запускает новый проект, нацеленный на развитие массово-параллельных архитектур и упрощения инструментов для работы с ними

PAPPA рассмотрит «компромиссы между производительностью программирования, универсальностью решений и масштабируемостью, чтобы позволить ученым без понимания нюансов параллельного программирования и аппаратных архитектур создавать высокоэффективные и легко портируемые программы».

Одной из желательных целей было бы создание новой технологии компиляции, обеспечивающей вплоть до 10 000-кратного повышения производительности программирования для массивно-параллельных архитектур. Такие эффективные компиляторы должны снизить барьеры на пути развертывания новых алгоритмов для популярных платформ.

PAPPA также планируют устранить пробелы в современных подходах к программированию, которые позволяют масштабироваться на миллионы процессорных ядер, но при этом требуют очень высокого уровня знаний и компетенции, что часто приводит к длительным и дорогостоящим проектам разработки ПО для высокопроизводительных вычислений. 

Проект PAPPA должен упростить создание расспараллеленных приложений для сложных многоядерных и многопроцессорных архитектур

Проект PAPPA должен упростить создание расспараллеленных приложений для сложных многоядерных и многопроцессорных архитектур, в том числе для таких сложных задач, как моделирование физических процессов в реальном времени

PAPPA стремится повысить ставку, используя специфичные для предметной области инструменты, такие как PyTorch и TensorFlow. Теперь в рамках усилий DARPA должны появиться новые инструменты программирования, основанные на машинном обучении, которые помогут автоматизировать моделирование вычислительных систем. Автоматизация параллельного программирования также необходима для таких задач, как распределение ресурсов и управление памятью. 

Именно поэтому представители DARPA пришли к выводу, что «необходим совершенно новый подход» для автоматизации параллельного программирования. Одним из возможных вариантов было бы точное моделирование и прогнозирование производительности компонентов в рамках всей платформы для высокопроизводительных вычислений. Там, где это уместно, можно было бы применять средства автоматизации, которые не так заметно влияют на бюджет.

DARPA утверждает, что её усилия будут сосредоточены на двух прикладных областях: физическом моделировании и обработке данных в реальном времени. Первое направление будет включать в себя приложения, способные рассчитывать, например, динамику жидкости в определенной среде или прогноз погоды, а также алгоритмы для работы с задачами в физике элементарных частиц. Второе же будет охватывать современные компьютерные приложения, в том числе радиолокационные и беспроводные системы связи.

Анонс программы PAPPA, запущенной DARPA во вторник (3 сентября), находится здесь. Предложения от представителей отрасли будут приниматься до 3 октября.

Постоянный URL: http://servernews.ru/993726
04.09.2019 [19:06], Андрей Созинов

В США запущен Frontera — самый мощный академический суперкомпьютер в мире

Техасский центр передовых вычислений (TACC) при Техасском университете в Остине (UT Austin) объявил об официальном запуске своего нового суперкомпьютера Frontera, который является самым производительным академическим суперкомпьютером в мире, а также пятым по мощности июньском рейтинге TOP500 2019.

Система была построена на инвестиции Национального научного фонда (NSF), сумма которых составила $60 млн. Созданием суперкомпьютера занималась компания Dell EMC при участии Intel, Mellanox, DataDirect Networks, NVIDIA, IBM, CoolIT и Green Revolution Cooling.

Кластер Frontera состоит из 8008 узлов, каждый из которых содержит по два 28-ядерных процессора Intel Xeon Platinum 8280, что в сумме даёт около полумиллиона ядер. Пиковый уровень производительности системы достигает 38,8 Пфлопс, а реальный, согласно Linpack — 23,5 Пфлопс. Этим неточностям мы уже посвятили отдельный материал.

Для связи между узлами используется интерконнект InfiniBand 100 Гбит/с от Mellanox (200 Гбит/с между свитчами). Frontera также получила инновационное хранилище данных от DataDirect Networks на основе твердотельных накопителей.

За отвод тепла отвечают СЖО производства CoolIT, Cooltera и Green Revolution Cooling (GRC). Последняя используется для погружного жидкостного охлаждения дополнительной вычислительной системы на базе 360 графических ускорителей NVIDIA Quadro RTX 5000 и была разработана совместно с NVIDIA. Карты Quadro необходимы для проведения расчётов, не требующих высокой степени точности (FP32 и меньше). 

В состав Frontera также входит дополнительная система на базе 448 ускорителей NVIDIA Tesla V100, с хост-процессорами IBM POWER9. Обе они необходимы для ускорения тренировки нейронных сетей и использования ИИ, исследований в области молекулярной динамики и других расчётов.

В ближайшие месяцы в Frontera будут интегрированы облачные сервисы Microsoft, Google и Amazon для того, чтобы обеспечить исследователям мгновенный доступ к вычислительным мощностям, а также долгосрочному хранилищу данных.

Постоянный URL: http://servernews.ru/993528
03.09.2019 [21:21], Андрей Созинов

Пиковая теоретическая производительность — это ложь

Максимальная производительность суперкомпьютеров является величиной теоретической, рассчитываемой лишь на основе технических характеристик системы. Однако такие расчёты редко отражают реальное положение вещей, на что и указывает Ден Станционе (Dan Stanzione), директор Центра передовых вычислений Университета Техаса (TACC).

В качестве примера в своём докладе Ден Стенционе приводит суперкомпьютер Frontera, расположенный как раз в вычислительном центре Техасского университета. Особенностью данного компьютера является то, что для расчётов в нём используются, в частности, новые центральные процессоры Xeon Platinum 8280. Максимальная теоретическая производительность этой системы равна 38,7 петафлопс, тогда как тест производительности Linpack (HPL) оценивает производительность в 23,5 петафлопс. Это самый производительный публичный академический суперкомпьютер в мире.

Пиковая, или максимально возможная производительность системы рассчитывается теоретически: перемножаются количество ядер процессора, количество самих процессоров, ширина вектора, число операций FMA за такт и тактовая частота. Однако полученное значение не будет справедливо для разных задач и инструкций.

Например, при использовании инструкций AVX-512 процессоры Intel работают с более низкими тактовыми частотами из-за повышения температуры. Если базовая частота тех же Xeon Platinum 8280 составляет 2,7 ГГц, то при работе с AVX-512 она опускается, согласно данным TACC, в среднем до 1,8 ГГц. С такой частотой пиковая производительность Frontera составляет уже  25,8 петафлопс, что намного ближе к результату, полученному в Linpack.

Основная проблема при оценке производительности в настоящее время как раз и заключается в том, что тактовая частота динамически регулируется в зависимости от энергопотребления и температурных показателей процессора. Частота меняется непрерывно, и поэтому в каждый момент времени пиковая производительность будет разной.

Также стоит отметить, что есть способы повысить производительность. Например, использовать более эффективное охлаждение — в Frontera с помощью СЖО CoolIT удалось добиться устоявшейся частоты 2,0 ГГц при расчётах с AVX-512. И конечно, всё ещё зависит от программного обеспечения: одни приложения способны использовать ресурсы процессора более эффективно, нежели другие.

Да и тот же LINPACK уже давно критикуют за необъективность, так как он не учитывает другие важные факторы — эффективность работы с памятью и шинами, например. В качестве альтернативы разработан более современный бенчмарк HPCG.

Также эксперт отметил, что путаница с пиковой производительностью присуща всем современным процессорам, так как все они динамически меняют частоты. Например, по словам AMD, у её новых процессоров EPYC Rome при работе с инструкциями AVX2 частота не опускается ниже базовой. Однако boost-частоты могут быть ниже обычных значений. Дополнительную путаницу в расчёты может внести и настраиваемый уровень TDP. 

В общем, для каждого конкретного случая производительность будет разной, и сравнивать их сейчас напрямую довольно трудно. Впрочем, вычисления всё равно становятся «дешевле» — некогда «горячие» инструкции со временем становятся такими же обыденными и «холодными». 

Постоянный URL: http://servernews.ru/993476
15.08.2019 [18:48], Андрей Галадей

EPYC Rome + vSMP Foundation = 8192 ядра и 256 Тбайт RAM как единое целое

ScaleMP, поставщик решений виртуализации для высокопроизводительных вычислений, объявил о сотрудничестве с AMD.

Теперь vSMP Foundation поддерживает процессоры EPYC Rome 7002 и позволяет объединить до 128 сокетов в рамках одной системы. Суммарно можно получить до 8192 ядер и до 256 Тбайт общей памяти. 

pixabay.com

pixabay.com

Гипервизор vSMP Foundation позволяет объединять множество стандартных серверов x86-64 в единую виртуальную высокопроизводительную систему, которая представляется не как кластер из разрозненных машин, а как единственный, но очень мощный сервер. Такой подход позволяет упростить запуск ряда требовательных приложений и значительно облегчить масштабирование вычислительных мощностей.  При этом никаких существенных изменений в операционной системе и прикладном ПО не требуется. 

Впрочем, интереснее было бы посмотреть на другие решения ScaleMP. В частности, на реализацию vSMP MemoryONE для прозрачного расширения видимого в системе объёма RAM за счёт SSD. Напомним, что первоначальная реализация Intel Memory Drive Technology (IMDT) базировалась именно на этой технологии ScaleMP, которая перестала быть эксклюзивом. Теперь Intel предлагает в рамках Optane DC Persistent Memory (DCPMM) такое же бесшовное расширение, но уже с помощью DIMM-модулей Optane.

В прошлом году уже были представлены первые решения  vSMP MemoryONE от других производителей: SSD WD Ultrastar DC ME200 Memory Extension Drive. AMD-платформы нового поколения поддерживают PCI-E 4.0, что может благотворно сказаться на производительности «гибридной» памяти. 

Постоянный URL: http://servernews.ru/992445
05.08.2019 [21:43], Сергей Юртайкин

Lenovo и Intel сближают искусственный интеллект и HPC

Lenovo и Intel объявили о сотрудничестве, направленном на оптимизацию своих технологий для дата-центров. Своё партнёрство компании обозначили как сближение высокопроизводительных вычислений (HPC) и искусственного интеллекта.

По условиям соглашения, облачные сервисы Lenovo будут адаптированы к работе с разработками Intel, включая вычислительную архитектуру Intel Xe, память Optane, платформу oneAPI и процессоры Xeon Scalable 2-го поколения с поддержкой Deep Learning Boost.

Новая совместная работа Intel и Lenovo касается не только аппаратных технологий, но и программных. Так, китайский производитель доработает свой пакет LiCO HPC/AI с прицелом на совместимость с Intel oneAPI и другим ПО партнёра.

Кроме того, партнёры договорились о создании совместных центров разработки решений HPC и ИИ в разных странах. Компании надеются сделать эти технологии более доступными для университетов и исследовательских организаций, занятых решением наиболее насущных проблем человечества, таких как исследования генома и рака, погода, изменение климата, исследование космоса и т. п.

Постоянный URL: http://servernews.ru/991924
05.08.2019 [19:29], Сергей Юртайкин

Убытки Cray растут, продажи падают

Производитель суперкомпьютеров Cray завершил второй квартал с падающими продажами и растущими убытками. Компания не радует инвесторов финансовыми показателями перед продажей IT-гиганту HPE.

В апреле–июне 2019 года выручка Cray составила $69 млн против $120 млн годом ранее. Чистые убытки в сравнении этих отрезков времени повысились с 11 до 43 млн долларов.

Убытки в расчёте на акцию оказались равными 75 центам, что выше среднего аналитического прогноза в 64 цента на акцию. Продажи также не дотянули до ожиданий Уолл-стрит. Причем компания демонстрирует финансовые показатели ниже ожиданий рынка четыре квартала подряд.

На продаже продуктов компания заработала $30 млн, что на 64 % меньше по сравнению со второй четвертью 2018 года. Сервисная выручка за это время поднялась на 5 % и достигла $39 млн.

К 30 июня 2019 года Cray располагала денежными средствами в размере $165 млн. Оборотный капитал составил $223 млн.

Напомним, HPE покупает Cray за $1,3 млрд или $35 в расчёте на одну акцию продаваемой компании. Это на 17 % больше курса котировок Cray за день до объявления о сделке, которую планируется закрыть до января 2020 года.

HPE собирается интегрировать технологии Cray со своими, чтобы предложить клиентам высокопроизводительные вычисления в качестве услуги, а также инструменты искусственного интеллекта и машинного обучения на платформе HPE GreenLake.

Постоянный URL: http://servernews.ru/991914
01.08.2019 [00:07], Андрей Созинов

Представлен первый облачный HPC-сервис на базе Intel Xeon Platinum 9200

Исландская компания Advania Data Centers (ADC) анонсировала первый в мире облачный HPC-сервис на базе новых процессоров Intel Xeon Platinum серии 9200, которые также известны под именем Cascade Lake AP.

Утверждается, что данный сервис обеспечивает беспрецедентный уровень производительности, позволяя клиентам быстрее работать с HPC-задачами в области финансов, погоды, производства и искусственного интеллекта (ИИ).

Новый облачный HPC-сервис от ADC будет полагаться на решения Intel Select для конвергентных кластеров HPC и ИИ (Select Solution for HPC & AI Converged Clusters). Это обеспечит оптимальную производительность в зависимости от рабочих нагрузок, а также наилучшую совместимость существующих и будущих высокопроизводительных рабочих задач между локальными ресурсами клиента и облачным сервисом ADC.

Многие компании полагаются на собственные возможности для реализации критически важных «тяжёлых» вычислительных задач. Однако с приходом облачных HPC-сервисов у них появляется возможность ускорить выход на рынок новых продуктов, повысить производительность сотрудников и уменьшить расходы. ADC позиционирует свой облачный сервис как дополнительные высокопроизводительные вычислительные ресурсы, доступные клиентам по требованию и позволяющие эффективно и экономично получить желаемый результат.

Напомним, что процессоры Xeon Platinum 9200-й серии (Cascade Lake AP) на текущий момент являются самыми производительными в ассортименте Intel. В данной серии представлены модели с 32, 48 и 56 ядрами и тактовыми частотами до 3,8 ГГц. Нельзя не отметить наличие 12 каналов памяти, а также крайне высокий TDP, который составляет от 250 до 400 Вт. Конкуренцию им должны составить 7-нм процессоры AMD EPYC Rome, анонс которых состоится через неделю

Постоянный URL: http://servernews.ru/991716
22.07.2019 [17:11], Владимир Мироненко

Проект QMCPACK позволит повысить точность компьютерного моделирования на базе квантовой механики

В основе исследований поведения вещества и энергии в мире атомных и субатомных частиц лежит теория квантовой механики. Следовательно, компьютерное моделирование, базирующееся на квантовой механике, имеет большое значение для проектирования, оптимизации и понимания магнитных или электрических свойств материалов.

В рамках проекта Exascale Computing Project (ECP) Министерства энергетики США разрабатывается программное обеспечение для методов QMC под названием QMCPACK для поиска, прогнозирования и контроля веществ и их свойств на квантовом уровне. Конечная цель проекта состоит в том, чтобы достичь беспрецедентной и систематически улучшаемой точности, используя возможности памяти и мощности будущих вычислительных систем экзафлопсного класса.

Одной из основных задач проекта QMCPACK является уменьшение ошибок в расчётах, чтобы можно было с большей уверенностью делать прогнозы относительно материалов со сложной структурой.

«В настоящее время существует множество способов перекрёстной сверки расчётов с экспериментальными данными, но мы хотели бы пойти дальше и делать прогнозы для тех случаев, когда эксперименты ещё не проводились, например, для нового вещества, или когда проведение измерений затруднительно, например, в условиях высокого давления или сильного магнитного поля», — заявил Пол Кент (Paul Kent) из Национальной лаборатории Ок-Риджа, главный исследователь QMCPACK.

Кент выразил надежду, что системы экзафлопсного класса значительно расширят спектр возможностей команды QMCPACK. «Это не только увеличение вычислительной мощности, но и важные изменения в памяти машин, которые позволят нам исследовать дефекты материалов и интерфейсы, более сложные вещества и множество различных элементов», — заявил Кент.

Основное внимание участники проекта уделяют разработке программного обеспечения, проектированию и вычислительным аспектам, поэтому проект планирует повысить производительность QMCPACK как минимум в 50 раз.

Основываясь на экспериментах с использованием версии программного обеспечения для мини-приложений и новых алгоритмов, команда QMCPACK добилась 37-кратного улучшения работы суперкомпьютера Summit по сравнению с системой Titan.

Постоянный URL: http://servernews.ru/991134
16.07.2019 [19:29], Владимир Мироненко

Португалия запускает свой первый суперкомпьютер: скромный, но «зелёный»

Португалия официально запустила свой первый суперкомпьютер BoB. Он находится в Центре передовых вычислений (Minho Advanced Computer Center, MACC) при Университете Миньо.  Сообщается, что суперкомпьютер, впрочем, как и центр MACC, будут работать преимущественно на «зелёной» энергии, полученной от  солнечных, ветряных и гидроэлектростанций.

BoB состоит из 20 стоек бывшего суперкомпьютера Stampede из Техасского центра передовых вычислений (TACC), которые были переданы Фонду науки и техники (FCT) Португалии в рамках сотрудничества между Португалией и Техасским университетом в Остине. Объём оперативной памяти BoB, имеющего всего 80 вычислительных узлов, равен 2,66 Тбайт, а ёмкость хранилища — 1 Пбайт. Пиковая производительность достигает  1 петафлопс и обеспечивается сопроцессорами Intel Xeon Phi KNL.

В июне 2016 года Stampede состоял из 6400 узлов и занимал 117-е место в списке TOP500. Суперкомпьютер завершил свою работу в 2017 году в связи с постройкой новой машины, Stampede2. 

Следует отметить, что и сам центр MACC был основан недавно. Решение о его создании было принято после заключения договорённости о расширении сотрудничества между Португалией и Техасским университетом в Остине.

К концу 2020 года центр MACC намерен запустить ещё один суперкомпьютер — «Deucalion». Ожидается, что он будет в состоянии обеспечить 9,4 петафлопс вычислительной производительности.

Португалия также участвует в другом проекте по установке суперкомпьютера типа «pre-exascale» с производительностью, приближающейся к экзафлопсу, в Барселонском суперкомпьютерном центре Centro Nacional de Supercomputación, утверждённом Европейской комиссией. Помимо Португалии в реализации проекта участвуют специалисты Турции и Хорватии. Он также поддерживается Ирландией. Производительность этого суперкомпьютера составит 175 петафлопс, благодаря чему он войдёт в пятёрку самых мощных суперкомпьютеров в мире.

Постоянный URL: http://servernews.ru/990845
29.06.2019 [20:44], Андрей Созинов

Как создавалось и обрабатывалось реальное «фото» чёрной дыры M87

Чуть более двух месяцев назад учёным из Европейской Южной Обсерватории (ESO) удалось получить прямое визуальное изображение чёрной дыры в центре массивной галактики Messier 87, что в созвездии Девы. И теперь Supermicro опубликовала подробности о компьютерной системе, которая помогла получить данное изображение, ведь для этого потребовалось обработать огромное количество данных — 4 Пбайт.

Эти данные о сверхмассивной чёрной дыре, расположенной на расстоянии 55 млн световых лет, были получены с помощью восьми радиотелескопов, расположенных по всей Земле. Подробности о физической стороне процесса можно найти в замечательной лекции Архэ. Мы же обратимся к IT-составляющей. 

«Съёмка» длилась несколько ночей весной 2017 года, а получаемая информация — аналоговый сигнал на частотах порядка 2 ГГц — оцифровывалась и сохранялась на жёсткие диски. Сообщается, что запись данных проводилась на скорости 64 Гбайт/с, так что каждый телескоп за одну только ночь записывал 350 Тбайт данных. Исследователи использовали 1024 жёстких диска — по 128 на каждый телескоп, где они делились между четырьмя бэкенд-системами.

Использовались ёмкие накопители, заполненные гелием: в частности, HGST Ultrastar HelioSeal от Western Digital. Такие накопители лучше проявляют себя при работе на большой высоте, где расположена значительная часть радиотелескопов. Впрочем, в ближайшем будущем их, вероятно, могут сменить твердотельные накопители-«рулеры»: Supermicro на днях представила первые СХД и серверы с SSD формата EDSFF

После сбора данных накопители были доставлены в Институт Макса Планка (MPI) и обсерваторию Хейстек Массачусетского технологического института (MIT Haystack). Там данные с них обрабатывались с помощью программного обеспечения DiFX.

Кластер MIT, состоящий из 60 вычислительных узлов, размещается в десяти стойках, содержащих три поколения серверов Supermicro, в том числе и 38 систем Supermicro TwinPro. Все узлы объединены сетью Ethernet 25 Гбит/с и FDR InfiniBand, а серверы построены на 10-ядерных процессорах Intel Xeon. Объём хранилища MIT составляет примерно половину петабайта.

В свою очередь кластер MPI обладает тремя головными серверными узлами Supermicro и 68 вычислительными узлами (в сумме 1360 ядер). Также в систему MIP входит 11 систем хранения данных Supermicro (работающих под управлением BeeGFS) ёмкостью 1,6 петабайта и особые СХД собственной разработки Mark 5 и Mark 6. Для соединения используется FDR InfiniBand.

Все собранные данные были обработаны и «выровнены», то есть скорректированы по времени и положению телескопов. После всё было перепроверено, и здесь использование двух систем обеспечило более высокую точность. После сопоставления, данные были снова отправлены на обработку для визуализации, временно́го анализа и моделирования. В итоге это и позволило получить первое изображение чёрной дыры.

Постоянный URL: http://servernews.ru/989951
Система Orphus