Материалы по тегу: процессоры

23.09.2022 [19:58], Алексей Степин

Google заявила, что использует процессоры SiFive Intelligence X280 на RISC-V вместе со своим TPU

Архитектура RISC-V продолжает понемногу набирать популярность и завоевывать внимание ведущих игроков на рынке информационных технологий. На мероприятии AI Hardware Summit в совместном выступлении ведущего архитектора SiFive и архитектора Google TPU было отмечено, что Google уже использует процессоры с ядрами Intelligence X280.

Эти ядра — один из вариантов воплощения архитектуры RISC-V, из продвигаемых SiFive. Анонс Intelligence X280 состоялся ещё в апреле 2021 года, когда SiFive выпустила апдейт 21G1, основной упор в котором был сделан на максимизацию характеристик уже существующих ядер RISC-V в области операций с плавающей запятой.

 Процессорное ядро Intelligence X280 и его возможности. Источник: SiFive

Процессорное ядро Intelligence X280 и его возможности. Источник: SiFive

Как следует из названия, данный вариант процессора оптимизирован под задачи машинного интеллекта: ядра RISC-V в нём дополнены векторными конвейерами RISC-V Vector (RVV) с производительностью 4,5 Тфлопс bfloat16 и 9,2 Топс INT8 на ядро. Одной из самых интересных технологий в Intelligence X280 является интерфейс Vector Coprocessor Interface eXtension (VCIX).

 Устройство VCIX. Источник: SiFive

Устройство VCIX. Источник: SiFive

Он позволяет подключать внешние ускорители векторных операций напрямую к регистровому файлу X280, минуя основную шину и кеши. Такой подход минимизирует накладные расходы и не требует использования специальных средств при программировании системы, поскольку связка из X280 и подключённого по VCIX ускорителя работает полностью прозрачно в рамках стандартных средств разработки SiFive.

 Слайд из соместного доклада Google и SiFive. Источник: SiFive

Сильные стороны Google TPU. Источник: SiFive

На саммите в Санта-Кларе разработчики SiFive и Google TPU рассказали, что процессоры Intelligence X280 используются в качестве хост-процессоров к ускорителям систолической векторной математики Google MXU; правда, о масштабах внедрения RISC-V в Google сведений приведено не было.

 Разделение труда Intelligence X280 и Google TPU

Разделение труда Intelligence X280 и Google TPU. Источник: SiFive

Ранее уже появлялась информация, что Google активно тестирует ASIC сторонних разработчиков в связке со своим TPU, в частности, чипы Broadcom, дабы разгрузить его от второстепенных задач и сделать упор на сильных сторонах — матричной математике и быстром интерконнекте.

Похоже, SiFive Intelligence X280 решает задачу интеграции подобного рода задач более изящно: как отметил в выступлении Клифф Янг (Cliff Young), архитектор Google TPU, с помощью VCIX можно построить машину, позволяющую усидеть на двух стульях (build a machine that lets you have your cake and eat it too).

Постоянный URL: http://servernews.ru/1074746
01.09.2017 [12:00], Алексей Степин

Первые сведения о процессоре машинного обучения Baidu

Мы продолжаем рассказывать нашим читателям о тенденциях в области аппаратного обеспечения для систем машинного обучения. Все уже знают, что такой гигант, как Google, вложил немалые средства в разработку так называемого «тензорного сопроцессора», о котором не так давно говорилось в одной из наших заметок. Но у Google есть конкурент, а точнее, параллельно работающий с ним гигант — компания Baidu, охватывающая огромный рынок КНР. Неудивительно, что она тоже ведёт исследования в аналогичных областях. Китай — не самая открытая страна, да и коммерческая тайна продолжает оставаться коммерческой тайной, но, тем не менее, кое-что про процессор Baidu под названием XPU стало известно.

Пока китайские разработчики отстают от своих американских коллег: в их распоряжении есть рабочее устройство, но собрано оно на основе больших микросхем программируемой логики (ПЛИС) производства Xilinx. Как показывает практика, это не самое энергоэффективное решение, хотя и более экономичное, нежели использование графических чипов или процессоров x86 общего назначения. По словам главы команды разработчиков, целью является создание универсального процессора, способного справляться с различными задачами и сценариями машинного обучения, и при этом не менее гибкого, нежели обычные ЦП. Пока приходится использовать ПЛИС, а их программирование — сложнейшая задача. Процессор XPU должен будет содержать массив блоков для специализированных вычислений — перемножения матриц, свёртки тензоров и прочих задач.

Этому массиву потребуется широкая шина памяти с высокой пропускной способностью и низкими задержками. Планируется использовать внешнюю DDR4 в связке с многослойной HBM, которая отлично показывает себя в ускорителях NVIDIA. В чипе будет также некоторое количество сверхбыстрой памяти SRAM. Число ядер должно достигнуть 256, а в целом архитектура XPU будет напоминать MIPS. Небольшие ядра обойдутся без кеша, а эффективность будет достигнута за счёт их специализации и параллельного использования. Частота работы всех 256 ядер составит 600 МГц. С системой синхронизации данных масштабируемость устройства будет выше, нежели без таковой.

К сожалению, хотя проект уже и существует в форме ПЛИС, компилятора к новому процессору Baidu пока нет. Код приходится писать на ассемблере, как это делалось раньше в мире x86, но задача значительно сложнее, поскольку приходится заниматься и разделением работы между ядрами, а также проверкой работоспособности в Linux. Пока рано говорить о производительности Baidu XPU, но сама идея выглядит неплохо, и к тому же у компании уже накоплен солидный опыт использования ПЛИС в своих центрах обработки данных. Вполне возможно, что уже подрастает достойный соперник Google TPU, причём, более универсальный.

Постоянный URL: http://servernews.ru/957895
31.08.2017 [06:40], Алексей Степин

Популярность машинного обучения влияет на эволюцию архитектуры процессоров

Процесс развития архитектур центральных процессоров подобен эволюционному. Их создают разработчики для соответствия той или иной эволюционной нише, требующей каких-либо специфических вычислений, наборов инструкций и тому подобное. Иногда эволюционные ниши схлопываются —  и вымирают целые семейства процессоров. В качестве примера можно привести Alpha. Сейчас основную нишу удерживают x86-совместимые решения, но о них чуть позже. В 2017 году уже ни у кого нет сомнений, что возникла новая экологическая ниша — специализированные процессоры для нейронных сетей и машинного обучения.

 Google TPU

Google TPU

О таких решениях мы писали неоднократно. Здесь и Google Tensor Processing Unit, и разработка Fujitsu под названием DLU (Deep Learning Unit), и процессор Graphcore IPU (Intelligent Processing Unit), и многочисленные разработки и прототипы на базе ПЛИС компаний Altera и Xilinx, которыми интересуется всё больше крупных владельцев ЦОД по всему миру, например, Baidu. Да и графические чипы последних поколений отлично справляются с задачей создания и натаскивания нейросетей благодаря глубокой степени параллелизма, хотя делают они это не столь экономично, как специально созданные для этой цели решения. Смысл в том, что эволюционная ниша сформирована, и теперь в ней наблюдается типичная борьба за выживание: в графических чипах NVIDIA появляются специальные ядра для тензорных вычислений (в Volta V100 таких ядер 640).

 Intel Knights Mill

Intel Knights Mill

Обычно эти ядра оперируют математикой с упрощённой точностью (32 и 16 бит с плавающей запятой, а иногда и целочисленными форматами вплоть до 8 битных). У AMD есть аналогичный продукт — ускорители серии Radeon Instinct. Но что самое интересное, эволюционная «мутация» закрепляется и в обычных, казалось бы, x86-совместимых процессорах — совсем недавно мы описывали читателям чипы Intel Knights Mill, в которых часть общей производительности принесена в угоду производительности на специализированных задачах машинного обучения. Кто победит в эволюционной гонке? Пока сказать трудно. Такие решения, как NVIDIA Volta и Radeon Instinct может ждать судьба динозавров — по соотношению энергопотребления к производительности в специальных задачах они проигрывают тому же Google TPU.

 Fujitsu Deep Learning Unit

Fujitsu Deep Learning Unit

Роль протомлекопитающих в этом процессе, судя по всему, играют решения на базе ПЛИС, а королями нейронных сетей станут специализированные мощные процессоры, такие, как Google TPU. Но эволюция — процесс нелинейный, и ряд ниш вполне может найтись для решений, способных не только работать с системами машинного обучения. К тому же, сами системы обучения могут быть очень разными и требовать гибкости, к которой чипы типа ASIC не способны по определению. Может потребоваться и параллельное выполнение задач иного порядка, так что чипам вроде Intel Knights Mill тоже найдётся место на ветвистом дереве эволюции процессоров. Пока ясно одно — «ген» машинного обучения поселился в современных процессорах надолго.

Постоянный URL: http://servernews.ru/957816
25.08.2017 [12:18], Алексей Степин

Подробности о тензорном сопроцессоре Google TPU

Не столь давно мы рассказывали о том, что в гонке решений, призванных ускорить работу нейросетей и оптимизировать процесс машинного обучения, компания Google принимает самое непосредственное участие с чипом собственной разработки с незамысловатым названием TPU (Tensor Processor Unit). Генеральный директор компании Сундар Пичаи (Sundar Pichai) тогда заявил, что эти процессоры на порядок эффективнее менее специализированных решений, таких, как FPGA или GPU.

Архитектура и особенности Google TPU хранились в строжайшем секрете, но теперь мы, наконец, можем узнать об этих ускорителях много нового. Сама плата ускорителя выполнена в нестандартном форм-факторе, она имеет разъём, похожий на M.2, но на самом деле диаграммы указывают на использование интерфейса PCI Express 3.0 x16. В каждом сервере Google, рассчитанном на установку TPU, может устанавливаться четыре таких ускорителя, выполняющих операции с плавающей запятой.

Сам процессор имеет двухканальный контроллер памяти DDR3-2133 МГц и на его плате установлено 18 чипов DDR3 общим объёмом 8 Гбайт. Судя по количеству чипов, используется коррекция ошибок. Главной частью процессора является матрица, выполняющая операции умножения-сложения (multiply-accumulate). Размер этой матрицы составляет 256 × 256, работает она с 8-битными данными на частоте 700 МГц. Пиковая производительность при этом достигает почти 92 триллионов операций в секунду. Ничего удивительного, блоков MAC у TPU в 25 раз больше, нежели у современных GPU.

Имеется 4 Мбайт выделенной регистровой (accumulator) памяти и 24 Мбайт унифицированного буфера, это больше, чем у большинства графических процессоров; Google говорит о превосходстве в 3,5 раза. С внутренней пропускной способностью проблем нет. Пул результатов имеет доступ к буферу на скорости 167 Гбайт/с, тот связан с общим интерфейсом шиной 10 Гбайт/с. Производительность подсистемы памяти достигает 30 Гбайт/с, а с внешним миром сопроцессор общается на скорости, доступной интерфейсу PCIe 3.0 (8 гигатрансфер/с в каждом направлении).

C точки зрения программиста TPU очень прост и имеет всего 11 инструкций из которых 5 основных: read_host_memory, write_host_memory, read_weights, matrix_multiple/convolve и activate. Каждая инструкция выполняется не более, чем за 10 тактов, имеется четырёхстадийный параллельный конвейер, каждая стадия которого может выполнять независимо одну из инструкций. Пока блок матричного перемножения занят, процессор умеет выполнять другие инструкции. Ветвления отсутствуют, внеочередного исполнения нет, управление буферами и синхронизацией конвейера полностью прозрачно для программиста. Проблема с промежуточными обращениями в SRAM была решена методом «систолического исполнения».

Лучше всего этот процесс представлен на диаграмме, где потоки двигаются слева вниз, сначала происходят операции сложения, а потом аккумуляции. Архитектура такова, что задержки конвейера процессор может игнорировать. Впервые TPU появились в центрах обработки данных Google ещё в 2015 году, до Haswell и NVIDIA Tesla K80. В обоих случаях размер кристалла и уровень энергопотребления оказались меньше, нежели у конкурирующих решений. Компания признаёт, что основным лимитирующим производительность TPU фактором является пропускная способность памяти, а также считает, что обычные процессоры и GPU более универсальны и сбалансированы, но серьёзно уступают TPU в производительности. В новых версиях TPU память DDR3 уступит место более перспективной HBM, хотя исследования с GDDR5 показали хороший прирост производительности. Ситуация чем-то похожа на добычу биткоинов: сначала использовались универсальные ЦП, потом скорость удалось поднять за счёт параллелизма GPU, но узкоспециализированные ASIC, заточенные под одну задачу, превзошли все иные решения именно из-за своей простоты и экономичности.

Как именно Google использует TPU в машинном обучении, компания пока предпочитает хранить в тайне, что неудивительно — с 92 триллионами операций в секунду её решения просто не имеют достойных в плане производительности конкурентов. По крайней мере, пока. Да, точность вычислений невелика (int8), но для задач машинного обучения и натаскивания нейросетей этого в большинстве случаев вполне достаточно.

Постоянный URL: http://servernews.ru/957543
24.07.2017 [22:55], Алексей Степин

Fujitsu разрабатывает специализированный процессор для систем ИИ

Глубокое машинное обучение и системы искусственного интеллекта в наше время являются очень популярными направлениями. Но современные процессорные архитектуры для задач подобного рода подходят далеко не лучшим образом, поэтому всё больше и больше разработчиков микроэлектроники обращаются к альтернативным и специализированным дизайнам. В гонку за искусственным интеллектом включился и такой японский гигант как Fujitsu — компания объявила о том, что ведёт работы над созданием специализированного процессора. Проект носит кодовое имя DLU (Deep Learning Unit), что в полной мере раскрывает его предназначение. Основной целью проекта является достижение десятикратного преимущества над конкурирующими решениями по соотношению «производительность на ватт». В разработке DLU находится с 2015 года, но лишь в этом году стали известны некоторые подробности об архитектуре нового процессора Fujitsu.

Глава отдела разработок ИИ, Такуми Маруяма (Takumi Maruyama), отметил, что архитектура DLU активно использует вычисления со сравнительно низкой точностью, как это делают и многие другие чипы, предназначенные для глубокого машинного обучения. Это позволяет добиться оптимального соотношения производительности и потребляемой мощности. Чип DLU поддерживает форматы FP32, FP16 INT16 и INT8, и компания продемонстрировала, что даже целочисленные 8 и 16-битные форматы могут эффективно использоваться в ряде задач машинного обучения без серьёзных проблем, вызванных низкой точностью вычислений. Архитектура Fujitsu DLU спроектирована таким образом, чтобы быть полностью управляемой со стороны программного обеспечения. Процессор разбит на блоки DPU (Deep Learning Processing Units), их общее количество может быть разным, но каждый блок DPU состоит из 16 более простых блоков DPE (Deep Learning Processing Elements).

В свою очередь, каждый DPE состоит из восьми блоков исполнения SIMD-инструкций и большого набора регистров. Последний, в отличие от традиционных кешей, полностью управляем программно. В состав чипа также входит некоторый объём памяти HBM2, которая выступает в роли кеша, а также интерфейсы межпроцессорной шины Tofu. Последняя позволяет объединять массив DLU в единую сеть с развитой топологией. Структура этой сети приведена на слайде выше. Как обычно, специализированные процессоры, к числу которых относится и Fujitsu DLU, работают в тандеме с процессорами общего назначения. В данном случае компания планирует использование чипов с архитектурой SPARC, что неудивительно — именно Такуми Маруяма принимал самое активное участие в разработке этой архитектуры начиная с 1993 года. Первый выход DLU на рынок запланирован на 2018 год, именно в виде сопроцессора, но у Fujitsu имеются и планы по интеграции данной архитектуры в ЦП общего назначения с архитектурой SPARC. Соперниками новинки будут чипы Intel Lake Crest, ускорители Radeon Instinct, а также чипы NVIDIA. Последняя имеет неплохую фору в сфере машинного обучения и конкурировать с ней будет непросто.

Постоянный URL: http://servernews.ru/955927
18.07.2017 [11:39], Алексей Степин

Российские учёные разработали модулярно-логарифмический сопроцессор

Как известно, классические процессорные архитектуры проявляют себя хорошо при решении определённого круга задач, но в ряде особых случаев разработчики вынуждены применять специализированные сопроцессоры, поскольку эффективность обычных ЦП в этих случаях низкая, и они решают задачу, что называется, в лоб — количественным методом, затрачивая на это чудовищное количество системных ресурсов. Сопроцессоры же способны решать такие задачи гораздо быстрее. Простейшим примером могут послужить вычисления с плавающей запятой: сейчас блоки FPU интегрированы в основной кристалл, но когда-то они были отдельными чипами — Intel 8087/80287/80387 или других производителей, таких, как Weitek. В качестве современного примера можно привести векторные процессоры NEC Aurora, о которых мы рассказывали читателям ранее.

Похожего класса разработки имеются и у российских учёных: так, в лабораториях ВНИИЭФ разработан уникальный модулярно-логарифмический сопроцессор, первый научный доклад о котором прозвучал на суперкомпьютерном форуме НСКФ-2016. Глава команды разработчиков, Илья Осинин, заявил, что благодаря использованию нетрадиционной логарифмической системы счисления удалось добиться десятикратного ускорения производительности на операциях умножения и стократного — на операциях деления. И это не только теория: сопроцессор был проверен в работе и аппаратно. Для прототипирования были использованы чипы ПЛИС производства Altera — так поступают практически все разработчики сложных вычислительных устройств, когда им нужно проверить свои теории на практике. Данной разработкой заинтересовались сразу три российских разработчика: АО «МЦСТ», Baikal Electronics и НИСИ РАН.

Внимание со стороны МЦСТ вполне логично: у этой команды уже налажен выпуск восьмиядерных 64-битных процессоров Эльбрус-8С, на основе которых планируется строить не только серверы и рабочие станции, но также и кластерные системы и суперкомпьютеры, в которых сопроцессор Осинина может принести немало пользы. По данным разработчиков, этот чип в 1000 раз быстрее Intel Xeon E5-2697 v3 (Haswell-EP, 14С/28T, 2,6 ГГц, 35 Мбайт L3, 145 ватт) при вычислении логарифмов и в три раза быстрее при обработке сложных полиномов. Интересно, что архитектура у новой разработки гибкая и имеет возможность реконфигурации на лету, что, в числе прочего, позволяет заменять отказавшие вычислительные блоки не прерывая вычислений. Это наверняка оценят как учёные, так и военные. Имеющийся прототип, выполняющий 4 операции за такт, оценивается в 9,2 миллиона транзисторов, что весьма немного по меркам современной индустрии.

При увеличении количества вычислительных блоков до 32 возможности модулярно-логарифмического сопроцессора сравняются с блоком AVX-512, реализованном в процессорах Intel Xeon Phi семейства Knights Landing, но транзисторный бюджет составит всего 73,6 миллиона транзисторов против 86 миллионов у Intel —  налицо 17 % экономия, а значит, и более низкая себестоимость. Помимо этого, группировка ядер в новой архитектуре позволяет выполнять 1024-разрядные операции за один такт, чего не умеет блок расширений AVX-512, ограниченный 512 разрядами за такт. О полной победе над Intel говорить рано, поскольку образец пока работает лишь на частоте 100 МГц — в 26 меньше, чем у решения Intel. Речь идёт о финальной версии с аналогичной частотой 2,6 ГГц, что вполне достижимо в финальной версии с собственным кремнием. Совместим новый сопроцессор не только с решениями МЦСТ, но и практически с любым другим процессором. Из отечественных решений названы чипы Байкал-М и KOMDIV-64.

Постоянный URL: http://servernews.ru/955609
02.06.2017 [12:30], Алексей Степин

AMD анонсировала новые профессиональные карты начального уровня

После долгого затишья компания AMD проявляет серьёзную активность во всех сферах: она успешно вывела на рынок доступные многоядерные процессоры потребительского класса, готовится вторгнуться на рынок HEDT-платформ и вернуть себе место под солнцем в сфере серверных решений. Существенные успехи есть и у графического подразделения, бывшей ATI Technologies, хотя дебют проекта Vega ещё впереди. Продвигаются дела у AMD и на рынке профессиональной графики, причём, не только в секторе дорогих и мощных решений. Совсем недавно было объявлено о выпуске новых моделей Radeon Pro начального уровня.

Новинки получили имена Radeon Pro WX 2100 и Radeon Pro WX 3100. В их основу лёг 14-нм графический процессор Polaris, судя по конфигурации это Polaris 12 — количество активных потоковых процессоров равно 512. У Polaris 11 их 1024 и пускать такие чипы на производство новой серии в столь усечённом виде было бы невыгодно. Пиковая производительность для обеих карт заявлена на уровне 1,25 терафплос на вычислениях одинарной точности (FP32). Главным отличием между двумя новыми моделями является объём видеопамяти: 2 Гбайт GDDR5 с 64-битным интерфейсом у WX 2100 и 4 Гбайт GDDR5 со 128-битным интерфейсом у WX 3100.

Судя по результатам тестов, опубликованным AMD, новинки более чем успешно конкурируют с аналогичным им по классу решениями NVIDIA. Для младшей модели это Quadro P400, для более мощной WX 3100 — Quadro P600. В некоторых случаях выигрыш достигает полуторакратных и более значений. Карты отлично вписываются в конфигурацию компактной рабочей станции, поскольку выполнены низкопрофильными. Любопытно, что они используют шину PCI Express x8, хотя механически разъём выполнен в соответствии с габаритами слота x16. Каждая из новинок оснащена тремя разъёмами DisplayPort: одним классическим и двумя mini-DP. Гарантируется поддержка режимов HBR/HDR, возможно одновременное использование трёх мониторов формата 4К с частотой обновления 60 Гц или одного дисплея формата 5К с частотой 30 Гц.

Постоянный URL: http://servernews.ru/953251
12.05.2017 [14:59], Алексей Степин

Анонсированы новые платформы NVIDIA для разработчиков

Вчера мы рассказывали читателям о прототипе первой многопользовательской рабочей станции виртуальной реальности, которую NVIDIA представила на конференции GTC 2017. Она оснащена четырьмя ускорителями Quadro P6000 и позволяет четырём пользователям работать одновременно в единой среде VR. Но компания анонсировала и другие новинки, например, серию вычислительных станций на базе новой технологии Volta. В серию входят модели DGX-1, DGX Station и HGX.

 Рабочая станция с четырьмя новыми процессорами NVIDIA Volta

Рабочая станция с четырьмя новыми процессорами NVIDIA Volta

Первая модель представляет собой стоечное решение с восемью ускорителями Tesla V100, что обеспечивает производительность порядка 960 тензорных терафлопс. По мнению NVIDIA это заменяет 400 обычных серверов. Стоит такая система $149 тысяч, а заказчики получат её уже в третьем квартале. Модель DGX Station выглядит совсем иначе: это рабочая станция в настольном исполнении, она содержит четыре ускорителя Tesla V100. В ней установлены версии ускорителей с разъёмами PCIe и тремя портами DisplayPort. Друг с другом, однако, платы общаются посредством NVLink. Стоит такая станция $69 тысяч.

 Серверные варианты

Серверные варианты

Наконец, была представлена платформа NVIDIA HGX-1. Её назначение —  облачные вычисления. Она изначально рассчитана на работу в составе единой инфраструктуры ЦОД, причём эта инфраструктура должна предусматривать наличие единого контура жидкостного охлаждения, к которому платформа и подключается. Характеристики и производительность у HGX-1 аналогичны таковым параметрам у DGX-1, и она содержит восемь ускорителей Tesla V100 в версии с интерфейсом NVLink. Стоимость не оглашена, но она должна быть выше стоимости DGX-1.

Постоянный URL: http://servernews.ru/952092
21.12.2016 [08:39], Алексей Степин

Производительность NVIDIA Volta GV100 может достигнуть 9,5 терафлопс

Как известно, следующим после Pascal поколением графических процессоров NVIDIA является Volta. Впрочем, к современным чипам название «графический процессор» применимо всё меньше — с тех пор, как их архитектура стала полностью унифицированной и программируемой, они прочно утвердились в различных проектах суперкомпьютеров, некоторые из которых уже вступили в строй и вовсю заняты научными и другими сложными вычислениями. Создавая свой первый чип Pascal GP100, NVIDIA уделила больше внимания его вычислительным возможностям, нежели графическим, и, похоже, первенца в семействе Volta, чип GV100, ожидает аналогичный подход.

 Новый принцип построения узлов суперкомпьютера. Количество плат ускорителей не соответствует указанному в заметке

Новый принцип построения узлов суперкомпьютера. Количество плат ускорителей не соответствует указанному в заметке

Уже подтверждено, что GV100 станет сердцем, а точнее, сердцами суперкомпьютеров Summit в Национальной лаборатории Ок-Ридж (Oak Ridge National Laboratory) и Sierra в Ливерморской национальной лаборатории (Lawrence Livermore National Laboratory). Первый проект должен войти в рабочую стадию в начале 2018 года и развить пиковую мощность 200 петафлопс, что существенно превышает показатель самого быстрого сегодняшнего китайского суперкомпьютера Sunway TaihuLight, чьи возможности оцениваются в 125,4 петафлопса. К сожалению, о характеристиках и архитектуре GV100 мы до сих пор знаем не так много, как хотелось бы, но кое-какие сведения о проекте Summit позволяют сделать некоторые выводы.

 Тот самый слайд

Тот самый слайд

Лаборатория в Ок-Ридже опубликовала слайд, на котором Summit сравнивается с суперкомпьютером Titan, базирующимся на чипах Kepler GK110. Состоит он из 18688 узлов, мощность каждого из них составляет 1,4 терафлопса. На том же плакате указаны спецификации Summit: 4600 узлов с мощностью более 40 терафлопс на узел. Указано также, что в каждом узле будет 512 Гбайт памяти DDR4, 800 Гбайт энергонезависимой памяти и некий объём памяти HBM (речь, разумеется, идёт о HBM2). Основой каждого узла станут пара процессоров IBM POWER9 и шесть процессоров NVIDIA Volta. Чипы POWER9, помимо традиционных линий PCI Express (версия 4.0) имеют и 48 линий интерфейса Bluelink, который будет работать в режиме NVLink 2.0 и соединять их с процессорами Volta, что позволит процессорам различных архитектур делить общее пространство памяти, практически не теряя в скорости: пропускная способность может составлять от 80 до 200 Гбайт/с.

 Использование NVLink экономит энергию и повышает производительность

Использование NVLink экономит энергию и повышает производительность

Потребляемая Summit мощность составит 13 мегаватт — всего на 4 мегаватта больше, нежели у Titan, при более чем десятикратном превосходстве в производительности. Как мы знаем, NVIDIA объявила о том, что GV100 будет демонстрировать эффективность 72 гигафлопса на ватт при операции перемножения матриц с одинарной точностью (Single precision floating General Matrix Multiply). Для GP100 этот показатель равен 42 гигафлопса на ватт. Нетрудно посчитать, приняв за основу теплопакет GV100 на уровне 300 ватт, что этот чип в теории может достичь производительности 9,5 терафлопс на вычислениях двойной точности (FP64). Шесть чипов GV100 при потреблении не выше 300 ватт на чип как раз и дадут упомянутые на плакате «более 40 терафлопс», а точнее, в теории, смогут выдать 57,2 терафлопса. Даже при конфигурации с теплопакетом 200 ватт и на 20‒25 % более низкой производительности производительность узла составит 45,6 терафлопс, так что у создателей Summit явно есть задел по части экономии электроэнергии при сохранении заявленных характеристик. По крайней мере, такой подход может существенно облегчить работу холодильных установок Summit.

Постоянный URL: http://servernews.ru/944758
26.07.2016 [15:00], Константин Ходаковский

AMD представила серию профессиональных карт Radeon Pro WX

На мероприятии SIGGPARPH 2016 компания AMD представила серию профессиональных графических ускорителей Radeon Pro WX на базе архитектуры Polaris. AMD называет их максимально доступными решениями с поддержкой виртуальной реальности для рабочих станций. Все преимущества перекочевали из потребительских карт Radeon RX 480, 470 и 460, а также добавились специфичные для рабочих станций возможности.

Представлено три карты новой серии — все они будут доступны на рынке в последней четверти года:

  • флагманский ускоритель Radeon Pro WX 7100 при стоимости менее $1000 рассчитан на решение требовательных к ресурсам инженерно-проектировочных, мультимедийных и развлекательных задач, а также создание профессионального VR-контента;
  • Radeon Pro WX 5100 — карта попроще, рассчитанная на разработку различных продуктов, использующих графические вычисления;
  • Radeon Pro WX 4100 предоставляет хорошую производительность для CAD-приложений, выпускаясь при этом в уменьшенном вдвое по высоте формате, благодаря чему может быть установлена в компактные системы.

AMD Radeon Pro WX 7100 является по сути аналогом потребительского Radeon RX 470: устройство основано на чипе Polaris 10 с 32 активными вычислительными блоками (CU), включает 2048 потоковых процессоров, 128 текстурных блока и 32 блока растеризации. Производительность решения превышает 5 терафлопс в вычислениях FP32 с плавающей запятой. WX 7100 позиционируется в качестве замены Fire Pro W7100, но по производительности заметно обходит W8100 на базе Hawaii Pro (4,2 терафлопс) и соответствует W9100 на базе Hawaii XT (5,24 терафлопс).

Остальные характеристики включают 8 Гбайт видеопамяти GDDR5 с эффективной частотой 7 ГГц и 256-бит шиной (пропускная способность, таким образом, достигает 224 Гбайт/с). Карта требует внешнего питания через 6-контактный разъём, что указывает на потребление до 150 Вт. Четыре разъёма DisplayPort 1.3 позволяют подключать 4 монитора 5K (30 Гц). Интересной особенностью является то, что это однослотовое решение.

Radeon Pro WX 5100 — урезанная конфигурация на основе Polaris 10 с 28 активными CU и 1792 потоковыми процессорами. Карта также оснащается 8 Гбайт памяти GDDR5 с эффективной частотой 7 ГГц и 256-битным интерфейсом. Ускоритель базируется на короткой печатной плате, соответствующей Radeon R9 Nano и не требует внешнего питания, довольствуясь 75 Вт через слот PCIe. Вычислительная производительность решения превышает 4 терафлопс, присутствуют три выхода Display Port 1.3. Стоимость Radeon Pro W7100 и Radeon Pro W5100 будет ниже $1000, что является хорошим показателем для таких решений.

Последняя и самая простая карта, которую AMD представила на мероприятии, — Radeon Pro WX 4100 — основана на чипе Polaris 11 и, соответственно, является аналогом потребительской RX 460: включает 16 CU и 1024 потоковых процессора, 4 Гбайт видеопамяти GDDR5 и 128-битную шину (эффективная частота памяти предположительно тоже 7 ГГц, так что пропускная способность составляет 112 Гбайт/с). Ускоритель, как и оба предыдущих, является однослотовым, но вдобавок выполнен в низкопрофильном дизайне. Несмотря на это, он включает 4 разъёма Mini Display Port и может выводить изображение на 4 монитора 5K. Это решение будет стоить менее $500.

Все графические карты Radeon Pro WX созданы на основе компонентов высокого класса, рассчитаны на надёжную работу даже в экстремальных условиях и оптимизированы для работы с широким спектром профессиональных приложений. Продаются с 3-летней стандартной и 7-летней расширенной гарантией. Покупатели получают VIP-статус с поддержкой AMD в любое время суток со временем ожидания не более 5 минут.

Постоянный URL: http://servernews.ru/936759
Система Orphus