Материалы по тегу: вычисления

25.07.2017 [08:31], Алексей Степин

Петафлопс на час: облачный кластер Amazon поставил рекорд

Суперкомпьютер — удовольствие дорогое. Достаточно представить себе залы, заставленные аппаратными шкафами, которые потребляют мегаватты энергии и мегаватты же выделяют в виде тепла, которое надо отвести и рассеять. А если добавить к этому десятки километров медных и оптоволоконных кабелей, то стоимость такого вычислительного монстра перестаёт удивлять. Далеко не все организации могут позволить себе владеть системами такого класса. Тут-то и приходит на выручку идея «суперкомпьютера как сервиса», ранее уже подтвердившая свою работоспособность. Но на что способны такие сервисы сегодня? Как оказалось, весьма и весьма на многое.

Уже несколько лет компания Cycle Computing разрабатывает методы использования сервисов Amazon Web Services в помощь исследователям, нуждающимся в серьёзных вычислительных мощностях, но на сравнительно коротком промежутке времени. Недавно она закончила программу по созданию самого большого кластерного вычислителя Amazon. Созданная система, включившая в себя 156314 процессорных ядер, успешно проработала 18 часов, развив пиковую мощность порядка 1,21 петафлопс. В операции были задействованы ЦОД Amazon по всему миру: в США, Ирландии, Сингапуре, Японии, Бразилии и даже Австралии. Ядра распределились по 16788 системам, в среднем количество ядер на виртуальную машину составило 9,3. Конечно, не всякая вычислительная задача хорошо масштабируется с учётом сравнительно медленной пропускной способности межузловых соединений в таком «виртуальном суперкомпьютере». Отмечается, что даже в тесте Linpack результаты оказались бы меньше из-за высокой латентности соединений.

Однако выгода в тех случаях, где это возможно, очевидна — счёт, выставленный Amazon за использованные вычислительные мощности, составил всего $33 тысячи. Работал же «виртуальный суперкомпьютер» над задачей, поставленной профессором Университета Южной Калифорнии Марком Томпсоном (Mark Thompson). Его команда разрабатывает материалы, с помощью которых можно будет создавать высокоэффективные солнечные панели нового поколения. Вместо сложнейшей и очень дорогостоящей программы исследований, которая заняла бы год работы, удалось воспользоваться системой Schrödinger, которая смогла сэмулировать поведение 205 тысяч молекул. Вклад, внесённый Amazon и Cycle Computing в разработку солнечных батарей нового поколения оценивать пока рано, но сама система оказалась работоспособной. Компанию стоит похвалить за вклад в науку — помимо счёта Amazon, она не взяла с исследователей ни цента.

Постоянный URL: http://servernews.ru/955937
24.07.2017 [23:55], Алексей Степин

Рекорд масштабируемости: инженерную задачу удалось распараллелить на 200 тысяч ядер

Нашим предкам, создававшим такие чудеса, как первые реактивные самолёты или двигатели для космических ракет, приходилось очень нелегко. В те времена не было цифрового моделирования физических процессов, и всё приходилось отрабатывать на моделях, а затем полноразмерных экземплярах устройств. Сегодняшним инженерам существенно проще: для многих задач не требуется даже создавать модели, достаточно использовать компьютерное моделирование. Одним из известных программных пакетов в этой области является ANSYS Fluent. Как считают создатели данного ПО, оно является самым продвинутым средством моделирования поведения жидкостей и газов (computational fluid dynamics, CFD). Сферу применения ANSYS Fluent чётко определить нельзя, поскольку этот пакет может использоваться как для симуляции обдува крыла самолёта, так и для моделирования процессов, происходящих в металлургических печах. Но вычислительных мощностей для этого требуется немало: предыдущий рекорд для ANSYS Fluent составил 36 тысяч процессорных ядер суперкомпьютера Blue Waters, расположенного в Национальном центре суперкомпьютерных приложений в США.

Как оказалось, это не предел. Новый рекорд смогли поставить исследователи из Научно-технологического университета имени короля Абдаллы (KAUST), находящегося в Саудовской Аравии. Им удалось успешно запустить ANSYS Fluent и распараллелить его работу почти на 200 тысяч процессорных ядер. Это большое достижение как для исследователей и ANSYS, так и для компании Cray: оба рекорда поставлены на суперкомпьютерах, спроектированных и воплощённых в металл этой компанией. Суперкомпьютер Shaheen II, установленный в KAUST в 2015 году, относится к серии Cray XC40 и содержит 6174 двухпроцессорных узла, в каждом из которых установлено по два 16-ядерных процессора Intel Haswell-EP с частотой 2,3 ГГц. Объём памяти каждого узла равен 128 Гбайт DDR4, а в целом система располагает 197568 процессорными ядрами и 790 Тбайт памяти. Общаются друг с другом узлы посредством высокоскоростной оптической сети Aries High Speed Network, каждый из 36 аппаратных шкафов суперкомпьютера имеет 8 каналов этой сети.

Вычислительный модуль Cray XC40

Вычислительный модуль Cray XC40

Совместно ANSYS, компании Saudi Aramco и команде исследователей KAUST удалось запустить на Shaheen II комплексную симуляцию работы многофазных гравитационных сепараторов (multiphase gravity separation vessel), при этом время симуляции сократилось с нескольких недель до одной ночи. Подобного рода задачи очень важны для нефтегазовой индустрии, которая очень хорошо развита в Саудовской Аравии — в 2009 году страна занимала второе место в мире по добыче и экспорту нефти. Современные нефтеперерабатывающие заводы очень сложны, стоимость оборудования огромна, а цена ошибки очень высока, вот почему средства, подобные ANSYS Fluent весьма востребованы в этой отрасли индустрии — они упрощают разработку нового оборудования и существенно снижают стоимость такой разработки. При этом современные системы симуляции позволяют предсказать поведение оборудования в различных ситуациях, а значит, и предотвратить возможные ошибки и даже катастрофы. Saudi Aramco планирует использовать эту технологию на всех своих заводах и по результатам симуляции модернизировать их оборудование.

Постоянный URL: http://servernews.ru/955932
24.07.2017 [22:55], Алексей Степин

Fujitsu разрабатывает специализированный процессор для систем ИИ

Глубокое машинное обучение и системы искусственного интеллекта в наше время являются очень популярными направлениями. Но современные процессорные архитектуры для задач подобного рода подходят далеко не лучшим образом, поэтому всё больше и больше разработчиков микроэлектроники обращаются к альтернативным и специализированным дизайнам. В гонку за искусственным интеллектом включился и такой японский гигант как Fujitsu — компания объявила о том, что ведёт работы над созданием специализированного процессора. Проект носит кодовое имя DLU (Deep Learning Unit), что в полной мере раскрывает его предназначение. Основной целью проекта является достижение десятикратного преимущества над конкурирующими решениями по соотношению «производительность на ватт». В разработке DLU находится с 2015 года, но лишь в этом году стали известны некоторые подробности об архитектуре нового процессора Fujitsu.

Глава отдела разработок ИИ, Такуми Маруяма (Takumi Maruyama), отметил, что архитектура DLU активно использует вычисления со сравнительно низкой точностью, как это делают и многие другие чипы, предназначенные для глубокого машинного обучения. Это позволяет добиться оптимального соотношения производительности и потребляемой мощности. Чип DLU поддерживает форматы FP32, FP16 INT16 и INT8, и компания продемонстрировала, что даже целочисленные 8 и 16-битные форматы могут эффективно использоваться в ряде задач машинного обучения без серьёзных проблем, вызванных низкой точностью вычислений. Архитектура Fujitsu DLU спроектирована таким образом, чтобы быть полностью управляемой со стороны программного обеспечения. Процессор разбит на блоки DPU (Deep Learning Processing Units), их общее количество может быть разным, но каждый блок DPU состоит из 16 более простых блоков DPE (Deep Learning Processing Elements).

В свою очередь, каждый DPE состоит из восьми блоков исполнения SIMD-инструкций и большого набора регистров. Последний, в отличие от традиционных кешей, полностью управляем программно. В состав чипа также входит некоторый объём памяти HBM2, которая выступает в роли кеша, а также интерфейсы межпроцессорной шины Tofu. Последняя позволяет объединять массив DLU в единую сеть с развитой топологией. Структура этой сети приведена на слайде выше. Как обычно, специализированные процессоры, к числу которых относится и Fujitsu DLU, работают в тандеме с процессорами общего назначения. В данном случае компания планирует использование чипов с архитектурой SPARC, что неудивительно — именно Такуми Маруяма принимал самое активное участие в разработке этой архитектуры начиная с 1993 года. Первый выход DLU на рынок запланирован на 2018 год, именно в виде сопроцессора, но у Fujitsu имеются и планы по интеграции данной архитектуры в ЦП общего назначения с архитектурой SPARC. Соперниками новинки будут чипы Intel Lake Crest, ускорители Radeon Instinct, а также чипы NVIDIA. Последняя имеет неплохую фору в сфере машинного обучения и конкурировать с ней будет непросто.

Постоянный URL: http://servernews.ru/955927
18.07.2017 [19:10], Сергей Карасёв

Представлено сверхплотное кластерное решение «РСК Торнадо» на чипах Xeon Scalable

Российская группа компаний РСК представила своё сверхплотное, масштабируемое и энергоэффективное кластерное решение «РСК Торнадо» на базе новых процессоров семейства Intel Xeon Scalable.

Чипы Xeon Scalable созданы специально для современных центров обработки данных и сетевой инфраструктуры. Они обеспечивают высокую энергоэффективность и производительность на уровне системы, превосходящую производительность предыдущего поколения в среднем в 1,65 раза. Процессоры обладают новой микроархитектурой ядра, новыми встроенными разъёмами и контроллерами памяти, благодаря чему платформа сочетает в себе производительность, надёжность, безопасность и управляемость.

Новые системы «РСК Торнадо» уже показали мировой рекорд производительности — 685,44 терафлопса на стандартный шкаф 42U (80 × 80 × 200 см). Такой результат был достигнут на процессорах Xeon Platinum 8180 поколения Scalable (28 ядер, тактовая частота ядра 2,5 ГГц). Этот показатель в 2,65 раза превышает производительность «РСК Торнадо» на базе самой старшей модели процессоров предыдущего поколения семейства Xeon E5-2600 v4 — а именно, Xeon E5-2699A v4.

РСК предлагает заказчикам универсальные высокоплотные решения «РСК Торнадо» на базе полного набора компонентов для создания современных кластерных вычислительных систем различного масштаба со 100 % жидкостным охлаждением в режиме «горячая вода», включая высокопроизводительные вычислительные узлы на базе 72-ядерного процессора Intel Xeon Phi 7290 и серверной платы Intel S7200AP, новых процессоров семейства Intel Xeon Scalable и плат Intel Server Board S2600BP, с установленными на них твердотельными дисками Intel SSD DC S3520 Series, Intel SSD DC P3520 Series с интерфейсом NVMe в высокоплотных форматах М.2 и новейшим Intel Optane SSD DC P4800X Series. 

Постоянный URL: http://servernews.ru/955654
18.07.2017 [11:39], Алексей Степин

Российские учёные разработали модулярно-логарифмический сопроцессор

Как известно, классические процессорные архитектуры проявляют себя хорошо при решении определённого круга задач, но в ряде особых случаев разработчики вынуждены применять специализированные сопроцессоры, поскольку эффективность обычных ЦП в этих случаях низкая, и они решают задачу, что называется, в лоб — количественным методом, затрачивая на это чудовищное количество системных ресурсов. Сопроцессоры же способны решать такие задачи гораздо быстрее. Простейшим примером могут послужить вычисления с плавающей запятой: сейчас блоки FPU интегрированы в основной кристалл, но когда-то они были отдельными чипами — Intel 8087/80287/80387 или других производителей, таких, как Weitek. В качестве современного примера можно привести векторные процессоры NEC Aurora, о которых мы рассказывали читателям ранее.

Похожего класса разработки имеются и у российских учёных: так, в лабораториях ВНИИЭФ разработан уникальный модулярно-логарифмический сопроцессор, первый научный доклад о котором прозвучал на суперкомпьютерном форуме НСКФ-2016. Глава команды разработчиков, Илья Осинин, заявил, что благодаря использованию нетрадиционной логарифмической системы счисления удалось добиться десятикратного ускорения производительности на операциях умножения и стократного — на операциях деления. И это не только теория: сопроцессор был проверен в работе и аппаратно. Для прототипирования были использованы чипы ПЛИС производства Altera — так поступают практически все разработчики сложных вычислительных устройств, когда им нужно проверить свои теории на практике. Данной разработкой заинтересовались сразу три российских разработчика: АО «МЦСТ», Baikal Electronics и НИСИ РАН.

Внимание со стороны МЦСТ вполне логично: у этой команды уже налажен выпуск восьмиядерных 64-битных процессоров Эльбрус-8С, на основе которых планируется строить не только серверы и рабочие станции, но также и кластерные системы и суперкомпьютеры, в которых сопроцессор Осинина может принести немало пользы. По данным разработчиков, этот чип в 1000 раз быстрее Intel Xeon E5-2697 v3 (Haswell-EP, 14С/28T, 2,6 ГГц, 35 Мбайт L3, 145 ватт) при вычислении логарифмов и в три раза быстрее при обработке сложных полиномов. Интересно, что архитектура у новой разработки гибкая и имеет возможность реконфигурации на лету, что, в числе прочего, позволяет заменять отказавшие вычислительные блоки не прерывая вычислений. Это наверняка оценят как учёные, так и военные. Имеющийся прототип, выполняющий 4 операции за такт, оценивается в 9,2 миллиона транзисторов, что весьма немного по меркам современной индустрии.

При увеличении количества вычислительных блоков до 32 возможности модулярно-логарифмического сопроцессора сравняются с блоком AVX-512, реализованном в процессорах Intel Xeon Phi семейства Knights Landing, но транзисторный бюджет составит всего 73,6 миллиона транзисторов против 86 миллионов у Intel —  налицо 17 % экономия, а значит, и более низкая себестоимость. Помимо этого, группировка ядер в новой архитектуре позволяет выполнять 1024-разрядные операции за один такт, чего не умеет блок расширений AVX-512, ограниченный 512 разрядами за такт. О полной победе над Intel говорить рано, поскольку образец пока работает лишь на частоте 100 МГц — в 26 меньше, чем у решения Intel. Речь идёт о финальной версии с аналогичной частотой 2,6 ГГц, что вполне достижимо в финальной версии с собственным кремнием. Совместим новый сопроцессор не только с решениями МЦСТ, но и практически с любым другим процессором. Из отечественных решений названы чипы Байкал-М и KOMDIV-64.

Постоянный URL: http://servernews.ru/955609
14.07.2017 [12:44], Сергей Карасёв

Создан первый в мире 51-кубитный квантовый компьютер

Исследователи из России и США создали первый в мире 51-кубитный квантовый компьютер, о чём сообщают сетевые источники, ссылаясь на информацию, полученную от Российского квантового центра (РКЦ).

Квантовые компьютеры состоят из элементарных вычислительных элементов, квантовых битов — кубитов. Если классические биты могут находиться только в двух состояниях (ноль или единица), то кубиты могут находиться в суперпозиции двух состояний, а значит, могут кодировать промежуточные состояния между логическим нулём и единицей. Квантовые компьютеры смогут решать некоторые задачи, которые сейчас абсолютно недоступны даже для самых мощных классических суперкомпьютеров.

Сообщается, что физикам удалось сформировать первый программируемый квантовый компьютер на базе 51 кубита. Как сообщает сетевое издание «РИА Новости», учёные выяснили, что набор атомов, удерживаемых внутри специальных лазерных «клеток» и охлаждённых до сверхнизких температур, можно использовать в качестве кубитов квантового компьютера, сохраняющих стабильность работы при достаточно широком наборе условий.

Именно это и позволило физикам создать самый мощный квантовый вычислитель из 51 кубита. Исследователи говорят, что с помощью подобных систем можно выполнять задачи, для решения которых классическим компьютерам потребовались бы миллиарды лет.

Добавим, что Российский квантовый центр в июне 2016 года запустил первую в России квантовую сеть на обычном городском оптоволоконном канале — 30-километровая линия связала два отделения «Газпромбанка» в Москве. Позднее было объявлено о создании многоузловой гетерогенной квантовой сети передачи данных, где используются одновременно два метода кодирования информации. 

Постоянный URL: http://servernews.ru/955477
29.06.2017 [17:38], Сергей Карасёв

В России пройдёт конференция по квантовым технологиям

Российский квантовый центр при поддержке Московского физико-технического института (МФТИ) организует конференцию по квантовым технологиям.

Мероприятие пройдёт с 12 по 16 июля. Генеральным партнёром является Сбербанк России. Ожидается, что в конференции примут участие более 100 экспертов из различных областей физики. Основные направления: сверхпроводимость, квантовая оптика, ультра-холодные атомы и молекулы, плазмоника, фотоника, оптомеханика и др.

В рамках мероприятия также пройдёт открытая лекция ведущего учёного Джона Мартиниса, руководителя проекта компании Google по созданию квантового компьютера.

Специалисты отмечают, что квантовые компьютеры будут способны решать задачи, недоступные даже для самых мощных классических компьютеров. Появление таких систем — дело ближайших десяти лет. Сегодня квантовые вычислительные машины создают многие страны и крупные корпорации, в частности, IBM и Google.

Соответствующие технологии развиваются и в нашей стране. Так, Российский квантовый центр в июне 2016 года запустил первую в России квантовую сеть на обычном городском оптоволоконном канале — 30-километровая линия связала два отделения «Газпромбанка» в Москве. А в мае нынешнего года специалисты построили и испытали первую в России многоузловую гетерогенную квантовую сеть передачи данных, где используются одновременно два метода кодирования информации, что позволяет приспособить квантовые методы защиты к существующим криптографическим платформам. Наконец, недавно Российский квантовый центр запустил первый в мире квантовый блокчейн. 

Постоянный URL: http://servernews.ru/954694
26.06.2017 [21:24], Сергей Карасёв

ISC 2017: E4 Computer Engineering представила суперкомпьютер D.A.V.I.D.E. на платформе OpenPOWER

Компания E4 Computer Engineering на выставке-конференции ISC 2017 (г. Франкфурт-на-Майне, Германия) представила вычислительную систему Development for an Added Value Infrastructure Designed in Europe — сокращённо D.A.V.I.D.E.

Сообщается, что в составе D.A.V.I.D.E. применяются передовые компоненты. Система включает 45 вычислительных узлов с процессорами IBM Power8+ (8 ядер, 3,26 ГГц) и ускорителями NVIDIA Tesla P100 с шиной NVLink.

В составе платформы задействована высокоскоростная коммутируемая компьютерная сеть InfiniBand EDR. Каждый из узлов выполнен в форм-факторе 2U. Для охлаждения используется СЖО производства CoolIT. Отметим, что машина D.A.V.I.D.E. создавалась в партнёрстве с ассоциацией PRACE (Partnership for Advanced Computing in Europe). Суперкомпьютер расположен в Италии.

Заявленное пиковое быстродействие достигает 990 терафлопс — триллионов операций с плавающей запятой в секунду. В свежем рейтинге TOP500 D.A.V.I.D.E. занимает 299 место, в рейтинге Green500 — 14 место. Кроме того, в этих списках появилась ещё одна машина на платформе OpenPOWER, которая занимает 466 и 16 места соответственно. Данная система под названием Hōkūle’a установлена в лаборатории ВВС США на Гавайях. Она также оснащена ускорителями NVIDIA Tesla P100 и процессорами IBM Power8+ (10 ядер, 2,86 ГГц). 

Постоянный URL: http://servernews.ru/954519
26.06.2017 [20:21], Сергей Карасёв

ISC 2017: серверы GIGABYTE на платформе AMD EPYC 7000

Компания GIGABYTE на выставке-конференции ISC 2017 представила сервер R281-Z92 в форм-факторе 2U, предназначенный для монтажа в стойку.

Устройство рассчитано на работу с процессорами AMD EPYC 7000. Допускается использование чипов с максимальным значением рассеиваемой тепловой энергии до 180 Вт. Возможна установка двух 32-ядерных процессоров AMD EPYC 7000.

Сервер позволяет задействовать до 32 модулей оперативной памяти DDR4-2667/2400/2133. При этом ёмкость каждого из модулей может составлять до 64 Гбайт.

В распоряжении GIGABYTE R281-Z92 — два гигабитных сетевых порта и дополнительный порт Management LAN для удалённого управления.

Подсистема хранения данных может включать 24 накопителя в форм-факторе 2,5 дюйма. На задней панели располагаются два порта USB 3.0, последовательный порт, а также аналоговый разъём D-Sub для вывода изображения.

Сервер оснащён двумя (1+1) блоками питания мощностью 2000 Вт. Габариты составляют 438 × 87 × 710 мм. Более подробную информацию о новинке можно найти здесь

На стенде GIGABYTE на презентации AMD в США также можно было увидеть систему G220-001 на платформе AMD EPYC 7000. Этот сервер также позволяет использовать 24 накопителя с возможностью «горячей» замены и два ускорителя — например,  представленные на днях AMD Radeon Instinct MI25. Система имеет два (1+1) блока питания мощностью 1600 Вт каждый.

Нужно также отметить, что на выставке ISC 2017 компания GIGABYTE продемонстрировала серверы на платформе Intel Purley. Кроме того, были показаны продукты на процессорах Cavium ThunderX2 с архитектурой ARM. К сожалению, пока никакой дополнительной информации об их конфигурации нет.

Постоянный URL: http://servernews.ru/954516
26.06.2017 [18:55], Сергей Карасёв

ISC 2017: система Inspur GX4 предназначена для реализации проектов в области ИИ

Компания Inspur на выставке-конференции ISC 2017 (г. Франкфурт-на-Майне, Германия) представила систему GX4-AI BOX — одно из первых в портфолио компании решений, созданных специально для задач ИИ. Похожие продукты есть и у других компаний, но для китайского производителя серверов это шаг вперёд. 

Комплекс предназначен для реализации проектов в области искусственного интеллекта (ИИ). Решение имеет форм-фактор 2U — оно предназначено для монтажа в серверную стойку.

В составе Inspur GX4 могут применяться четыре ускорителя с интерфейсом PCI-E. Это могут быть GPGPU-карты или многоядерные ускорители вычислений Intel Xeon Phi.

Кроме того, могут быть задействованы перепрограммируемые вентильные матрицы (FPGA). В отличие от традиционных процессоров с «жёсткой» архитектурой, конфигурацию FPGA можно менять, используя программные средства. Это позволяет адаптировать систему для решения конкретного типа задач. В данном случае речь идёт о системах облачного искусственного интеллекта, платформах глубокого обучения и пр.

Система Inspur GX4 может быть оснащена твердотельными накопителями NVMe. Напомним, что спецификация NVMe (NVM Express) описывает доступ к SSD с помощью шины PCI Express — это обеспечивает более высокие показатели скорости чтения и записи, а также позволяет снизить задержки. 

Постоянный URL: http://servernews.ru/954513