Материалы по тегу: ускорители

11.12.2017 [21:30], Алексей Степин

OpenCAPI набирает силу: кто поддерживает новинку сегодня?

На прошлой неделе к консорциуму OpenCAPI присоединился ещё один игрок — компания Cavium, которая занимается разработкой серверных ARM-процессоров. Решениями компании заинтересовался производитель суперкомпьютеров Atos, а недавно Аргоннская национальная лаборатория изъявила желание развернуть кластер из серверов на базе этих процессоров. Всё вместе это закладывает основу для создания полноценной альтернативы x86-платформе и нынешнему лидеру списка TOP500, которая будет включать и CPU различных архитектур, и универсальную открытую шину. 

Очевидно, что шина PCI Express в текущем виде неспособна обеспечить уровень производительности, необходимый для подключения между собой процессоров и различных ускорителей. Текущая версия далека от идеала, а недавно представленный стандарт PCI-E 4.0 пока что весьма далёк от внедрения. Собственно говоря, пока что его поддерживают только процессоры IBM POWER9. Но они же предлагают и другой, более совершенный, по мнению создателей, стандарт OpenCAPI, или просто CAPI (Coherent Accelerator Processor Interface). Текущая третья версия совместима с NVLink 2.0, а ведь самые быстрые ускорители NVIDIA используют именно эту шину. Нельзя сказать, что стандарт развивался быстро, но в 2017 году он уже имеет весьма солидную армию последователей.


Ускоритель Alpha Data подключён к процессорному разъёму POWER9 посредством кабеля OpenCAPI

Целый ряд имён имеет свои решения для новой платформы. Mellanox располагает «умными» сетевыми адаптерами Innova-2 с поддержкой OpenCAPI, Molex Electronic Solutions демонстрировала на SC 17 прототип флеш-хранилища с пропускной способностью порядка 200 Гбайт/с. Alpha Data уже предлагает свои платы ускорителей на базе ПЛИС Xilinx UltraScale+, подключаемые непосредственно к процессору POWER9 специальным кабелем. О самой Xilinx нечего и говорить — один из крупнейших разработчиков ПЛИС предлагает целый спектр платформ разработчика OpenCAPI. Скоростная шина требует специальных кабелей, и они есть у Amphenol Corporation.

Прототип Zaius/Barreleye G2

Прототип Zaius/Barreleye G2

Такой гигант в мире накопителей как Western Digital внимательно следит за развитием OpenCAPI и занимается исследованиями в этой области, тестируя прототипы CAPI-памяти и ускорителей. Micron возлагает на OpenCAPI огромные надежды в области создания новой технологии энергонезависимой памяти. Компания Rackspace работает совместно с Google над созданием двухсокетных серверов Zaius/Barreleye G2 на базе POWER9. А где POWER9, там и OpenCAPI, а где Google — там и ускорители различного рода. Tektronix предлагает решения, способные полноценно тестировать решения OpenCAPI, работающие на скоростях 25 Гбит/с и выше. Полноценная отладка поддерживается для скорости 32 Гбит/с.

Сила OpenCAPI в его универсальности и единообразии

Сила OpenCAPI в его универсальности и единообразии

Toshiba также заинтересована в новом стандарте. Она уже работает над созданием собственного кремния, использующего OpenCAPI. По словам представителей компании, решения Toshiba вскоре смогут помочь быстро развернуть инфраструктуру на базе CAPI любому желающему и для любого рода задач. Компания Wistron успешно продемонстрировала на том же мероприятии SC 17 дизайны систем на базе процессоров IBM POWER9. Представитель компании считает OpenCAPI действительно универсальным стандартом, отвечающим задачам, которые будут поставлены перед ИТ-инфраструктурой грядущим десятилетием. Inventec также представила своё видение POWER9, но она концентрирует усилия в направлении внедрения нового стандарта питания с напряжением 48 вольт.

Иными словами, список компаний, интересующихся OpenCAPI, вызывает уважение, начиная с самого «голубого гиганта» и NVIDIA. Можно считать, что поезд тронулся, и в мире появилась серьёзная многопроцессорная, многопоточная и универсальная платформа, способная справиться с любым спектром задач.

Постоянный URL: http://servernews.ru/962736
28.10.2017 [20:49], Алексей Степин

NEC представила новую платформу SX-Aurora TSUBASA с векторными ускорителями

Векторные процессоры NEC Aurora были представлены ещё на ISC 2017. Уже тогда была продемонстрирована возможность использования таких чипов в качестве сопроцессоров на платах расширения с разъёмом PCI Express. Назывались такие платы Vector Engine. От образцов к серийному производству путь оказался недолог: уже 26 октября компания объявила о доступности новых систем SX-Aurora TSUBASA. Это название с японского можно перевести как «крылатая». Как и предполагает концепция NEC SX, основную работу выполняют векторные процессоры, но в этой системе они используются исключительно в виде плат расширения.

Процессор с архитектурой x86 выполняет только вспомогательные задачи, в терминологии компании-разработчика он называется Vector Host. На его плечи ложатся управление подсистемой ввода-вывода, обработка вызовов ОС и прочие вспомогательные вычисления, в том числе скалярные. Основная вычислительная мощь SX-Aurora TSUBASA кроется именно в ускорителях Vector Engine. Каждый чип Vector Engine имеет 8 ядер и развивает производительность порядка 2,45 терафлопс, что в пять раз больше векторных систем NEC SX-ACE, относящихся к предыдущему поколению. Поскольку шина PCI Express может стать узким местом, на борту каждого процессора имеется некоторый объём быстрой многослойной памяти HBM2, которая играет роль своеобразного кеша. Шесть сборок гарантируют ПСП на уровне 1,2 Тбайт/с. Сами платы могут иметь как пассивное, зависящее от хост-системы охлаждение, так и активное с собственным вентилятором на борту. Теплопакет по имеющимся данным составляет около 300 ватт — вполне на уровне современных видеокарт.

Серверы серии TSUBASA могут содержать в своём составе от 1 до 8 карт Vector Engine вплоть до 64 ускорителей на стойку. Эта стойка, изображённая на первом снимке, уже сама по себе считается суперкомпьютером. В сравнении с самым мощным ускорителем NVIDIA (7,8 терафлопс) векторный процессор NEС развивает всего 31 % его мощности, зато по показателю ПСП заметно опережает своего соперника (1,2 Тбайт/с против 900 Гбайт/с). Кроме того, в ряде задач специализированная архитектура NEC показывает себя более эффективной. Поскольку архитектура NEC не имеет аналогов, компания поставляет своим клиентам не только аппаратные комплексы, но и соответствующие программные решения: компиляторы, библиотеки MPI и прочее системное ПО. Используется даже уникальная файловая система NEC Scalable Technology File System и диспетчер задач NEC Network Queuing System V. Гарантируется бинарная совместимость с машинами NEC SX предыдущего поколения.

Постоянный URL: http://servernews.ru/960659
01.09.2017 [12:00], Алексей Степин

Первые сведения о процессоре машинного обучения Baidu

Мы продолжаем рассказывать нашим читателям о тенденциях в области аппаратного обеспечения для систем машинного обучения. Все уже знают, что такой гигант, как Google, вложил немалые средства в разработку так называемого «тензорного сопроцессора», о котором не так давно говорилось в одной из наших заметок. Но у Google есть конкурент, а точнее, параллельно работающий с ним гигант — компания Baidu, охватывающая огромный рынок КНР. Неудивительно, что она тоже ведёт исследования в аналогичных областях. Китай — не самая открытая страна, да и коммерческая тайна продолжает оставаться коммерческой тайной, но, тем не менее, кое-что про процессор Baidu под названием XPU стало известно.

Пока китайские разработчики отстают от своих американских коллег: в их распоряжении есть рабочее устройство, но собрано оно на основе больших микросхем программируемой логики (ПЛИС) производства Xilinx. Как показывает практика, это не самое энергоэффективное решение, хотя и более экономичное, нежели использование графических чипов или процессоров x86 общего назначения. По словам главы команды разработчиков, целью является создание универсального процессора, способного справляться с различными задачами и сценариями машинного обучения, и при этом не менее гибкого, нежели обычные ЦП. Пока приходится использовать ПЛИС, а их программирование — сложнейшая задача. Процессор XPU должен будет содержать массив блоков для специализированных вычислений — перемножения матриц, свёртки тензоров и прочих задач.

Этому массиву потребуется широкая шина памяти с высокой пропускной способностью и низкими задержками. Планируется использовать внешнюю DDR4 в связке с многослойной HBM, которая отлично показывает себя в ускорителях NVIDIA. В чипе будет также некоторое количество сверхбыстрой памяти SRAM. Число ядер должно достигнуть 256, а в целом архитектура XPU будет напоминать MIPS. Небольшие ядра обойдутся без кеша, а эффективность будет достигнута за счёт их специализации и параллельного использования. Частота работы всех 256 ядер составит 600 МГц. С системой синхронизации данных масштабируемость устройства будет выше, нежели без таковой.

К сожалению, хотя проект уже и существует в форме ПЛИС, компилятора к новому процессору Baidu пока нет. Код приходится писать на ассемблере, как это делалось раньше в мире x86, но задача значительно сложнее, поскольку приходится заниматься и разделением работы между ядрами, а также проверкой работоспособности в Linux. Пока рано говорить о производительности Baidu XPU, но сама идея выглядит неплохо, и к тому же у компании уже накоплен солидный опыт использования ПЛИС в своих центрах обработки данных. Вполне возможно, что уже подрастает достойный соперник Google TPU, причём, более универсальный.

Постоянный URL: http://servernews.ru/957895
31.08.2017 [06:40], Алексей Степин

Популярность машинного обучения влияет на эволюцию архитектуры процессоров

Процесс развития архитектур центральных процессоров подобен эволюционному. Их создают разработчики для соответствия той или иной эволюционной нише, требующей каких-либо специфических вычислений, наборов инструкций и тому подобное. Иногда эволюционные ниши схлопываются —  и вымирают целые семейства процессоров. В качестве примера можно привести Alpha. Сейчас основную нишу удерживают x86-совместимые решения, но о них чуть позже. В 2017 году уже ни у кого нет сомнений, что возникла новая экологическая ниша — специализированные процессоры для нейронных сетей и машинного обучения.

Google TPU

Google TPU

О таких решениях мы писали неоднократно. Здесь и Google Tensor Processing Unit, и разработка Fujitsu под названием DLU (Deep Learning Unit), и процессор Graphcore IPU (Intelligent Processing Unit), и многочисленные разработки и прототипы на базе ПЛИС компаний Altera и Xilinx, которыми интересуется всё больше крупных владельцев ЦОД по всему миру, например, Baidu. Да и графические чипы последних поколений отлично справляются с задачей создания и натаскивания нейросетей благодаря глубокой степени параллелизма, хотя делают они это не столь экономично, как специально созданные для этой цели решения. Смысл в том, что эволюционная ниша сформирована, и теперь в ней наблюдается типичная борьба за выживание: в графических чипах NVIDIA появляются специальные ядра для тензорных вычислений (в Volta V100 таких ядер 640).

Intel Knights Mill

Intel Knights Mill

Обычно эти ядра оперируют математикой с упрощённой точностью (32 и 16 бит с плавающей запятой, а иногда и целочисленными форматами вплоть до 8 битных). У AMD есть аналогичный продукт — ускорители серии Radeon Instinct. Но что самое интересное, эволюционная «мутация» закрепляется и в обычных, казалось бы, x86-совместимых процессорах — совсем недавно мы описывали читателям чипы Intel Knights Mill, в которых часть общей производительности принесена в угоду производительности на специализированных задачах машинного обучения. Кто победит в эволюционной гонке? Пока сказать трудно. Такие решения, как NVIDIA Volta и Radeon Instinct может ждать судьба динозавров — по соотношению энергопотребления к производительности в специальных задачах они проигрывают тому же Google TPU.

Fujitsu Deep Learning Unit

Fujitsu Deep Learning Unit

Роль протомлекопитающих в этом процессе, судя по всему, играют решения на базе ПЛИС, а королями нейронных сетей станут специализированные мощные процессоры, такие, как Google TPU. Но эволюция — процесс нелинейный, и ряд ниш вполне может найтись для решений, способных не только работать с системами машинного обучения. К тому же, сами системы обучения могут быть очень разными и требовать гибкости, к которой чипы типа ASIC не способны по определению. Может потребоваться и параллельное выполнение задач иного порядка, так что чипам вроде Intel Knights Mill тоже найдётся место на ветвистом дереве эволюции процессоров. Пока ясно одно —  «ген» машинного обучения поселился в современных процессорах надолго.

Постоянный URL: http://servernews.ru/957816
23.08.2017 [18:28], Геннадий Детинич

Microsoft Brainwave: решение задач ИИ в реальном времени

На конференции Hot Chips компания Microsoft раскрыла детали проекта «Brainwave». Слухи и даже некоторая официальная информация об этой разработке ходили давно. Речь идёт об аппаратной платформе для решения задач, связанных с искусственным интеллектом и глубоким машинным обучением. Для этого Microsoft выбрала программируемые матрицы компании Intel (Altera). На базе 14-нм матриц Intel Stratix 10 создан ускоритель, который обещает значительно изменить ландшафт услуг, связанных с интеллектуальной обработкой видео, распознаванием голоса, автопилотами и многими другими сферами, где важны скорость ответа.

Подчеркнём, в компании Microsoft не стали использовать фиксированные решения подобно Google TPU (Tensor Processing Units), NVIDIA Volta или Intel Lake Crest. Выбор был сделан в пользу FPGA-матриц с неизменным мощным процессорным ядром и программируемой областью, архитектуру которой можно менять по необходимости. Это позволяет перепрограммировать ускорители на новый тип данных или на новые алгоритмы обработки данных не меняя «железо» в составе серверов. На весь процесс уйдёт неделя без каких-либо дополнительных затрат на оборудование. В итоге, уверены в Microsoft, на старте можно проиграть конкурентам в пиковой производительности платформы, но в длительной перспективе её подход окажется более выгодным вложением средств.

Ускоритель Microsoft Brainwave

Ускоритель Microsoft Brainwave

Впрочем, проект Microsoft Brainwave интересен другим — это заявленная возможность обрабатывать запросы для ИИ в реальном масштабе времени. Альтернативные платформы для наиболее эффективной работы нейронных сетей требуют пакетной (накопительной) передачи данных. Платформа Microsoft Brainwave эффективно работает в потоковом режиме по мере поступления одиночных запросов и не требует сложной тренировки. Большую модель GRU (Gated Recurrent Unit) Microsoft Brainwave без пакетирования обрабатывает в пять раз быстрее, чем архитектура ResNet-50. Демонстрация опирается на собственный формат Microsoft ms-fp8, который не теряет точности для широкого спектра моделей. Полученная на ускорителе Stratix 10 устоявшаяся производительность достигает 39,5 терафлопс с временем запроса менее одной миллисекунды.

Матрица FPGA Intel Stratix 10

Матрица FPGA Intel Stratix 10

Сейчас специалисты Microsoft разворачивают системы ИИ на базе Brainwave для использования в облачном сервисе Azure. Системы помогут пользователям и партнёрам компании использовать сервис как для обработки запросов, так и для запуска своих моделей нейронных сетей для глубокого обучения, благо ускорители изначально спроектированы с учётом возможности последующей перенастройки.

Постоянный URL: http://servernews.ru/957451
16.08.2017 [12:28], Алексей Степин

Новый чип ускорит и удешевит расчёты молекулярной динамики

Современная вычислительная техника уже достигла того уровня, когда возможна полноценная симуляция поведения молекул вещества. Но такая симуляция требует чудовищных вычислительных мощностей, которые, в свою очередь, влекут за собой чудовищные энергетические затраты, поэтому разработчики постоянно ищут новые пути и предлагают новые архитектуры. Так, специализированные ускорители, разработанные D.E. Shaw Research, успешно работают в суперкомпьютерах серии Anton. Рассматриваются и другие пути, такие, как использование графических ускорителей или даже многоядерных процессоров общего назначения, например, Intel Knights Landing.

Кластер Anton, 512 узлов

Кластер Anton, 512 узлов

В настоящее время ведутся работы по созданию специализированного процессора для расчётов молекулярной динамики, в основе которого будет лежать принцип MapReduce. Разработками занимается группа учёных из Политехнического университета Бухареста (Румыния) и Колледжа Святого Ансельма (США). Сейчас ускорители общего назначения могут справиться с 75 % задач, в частности, с наиболее популярным в этой области пакетом GROMACS, но исследователям удалось ускорить и оставшиеся 25 % с применением нового ускорителя. Прототип смог показать 64-процентную эффективность распараллеливания при расчёте повторяющихся клеточных структур.

Эффективность нового ускорителя впечатляет даже в реализации ПЛИС

Эффективность нового ускорителя впечатляет даже в реализации ПЛИС

Архитектура нового ускорителя, пока реализованного в виде ПЛИС, в целом, схожа с архитектурой чипов Anton, при этом последние являют собой специализированные ASIC, которые лишь в три раза эффективнее ПЛИС-версии новой разработки. Если её также выполнить в виде специализированного чипа с частотой 2,7 ГГц, то производительность окажется выше, а уровень энергопотребления — намного ниже, нежели у решения D.E. Shaw Research. По уровню удельной производительности новинка занимает первое место даже сейчас, а в окончательном варианте выигрыш составит до 300 раз.

Постоянный URL: http://servernews.ru/957004
02.06.2017 [12:30], Алексей Степин

AMD анонсировала новые профессиональные карты начального уровня

После долгого затишья компания AMD проявляет серьёзную активность во всех сферах: она успешно вывела на рынок доступные многоядерные процессоры потребительского класса, готовится вторгнуться на рынок HEDT-платформ и вернуть себе место под солнцем в сфере серверных решений. Существенные успехи есть и у графического подразделения, бывшей ATI Technologies, хотя дебют проекта Vega ещё впереди. Продвигаются дела у AMD и на рынке профессиональной графики, причём, не только в секторе дорогих и мощных решений. Совсем недавно было объявлено о выпуске новых моделей Radeon Pro начального уровня.

Новинки получили имена Radeon Pro WX 2100 и Radeon Pro WX 3100. В их основу лёг 14-нм графический процессор Polaris, судя по конфигурации это Polaris 12 — количество активных потоковых процессоров равно 512. У Polaris 11 их 1024 и пускать такие чипы на производство новой серии в столь усечённом виде было бы невыгодно. Пиковая производительность для обеих карт заявлена на уровне 1,25 терафплос на вычислениях одинарной точности (FP32). Главным отличием между двумя новыми моделями является объём видеопамяти: 2 Гбайт GDDR5 с 64-битным интерфейсом у WX 2100 и 4 Гбайт GDDR5 со 128-битным интерфейсом у WX 3100.

Судя по результатам тестов, опубликованным AMD, новинки более чем успешно конкурируют с аналогичным им по классу решениями NVIDIA. Для младшей модели это Quadro P400, для более мощной WX 3100 — Quadro P600. В некоторых случаях выигрыш достигает полуторакратных и более значений. Карты отлично вписываются в конфигурацию компактной рабочей станции, поскольку выполнены низкопрофильными. Любопытно, что они используют шину PCI Express x8, хотя механически разъём выполнен в соответствии с габаритами слота x16. Каждая из новинок оснащена тремя разъёмами DisplayPort: одним классическим и двумя mini-DP. Гарантируется поддержка режимов HBR/HDR, возможно одновременное использование трёх мониторов формата 4К с частотой обновления 60 Гц или одного дисплея формата 5К с частотой 30 Гц.

Постоянный URL: http://servernews.ru/953251
12.05.2017 [14:59], Алексей Степин

Анонсированы новые платформы NVIDIA для разработчиков

Вчера мы рассказывали читателям о прототипе первой многопользовательской рабочей станции виртуальной реальности, которую NVIDIA представила на конференции GTC 2017. Она оснащена четырьмя ускорителями Quadro P6000 и позволяет четырём пользователям работать одновременно в единой среде VR. Но компания анонсировала и другие новинки, например, серию вычислительных станций на базе новой технологии Volta. В серию входят модели DGX-1, DGX Station и HGX.

Рабочая станция с четырьмя новыми процессорами NVIDIA Volta

Рабочая станция с четырьмя новыми процессорами NVIDIA Volta

Первая модель представляет собой стоечное решение с восемью ускорителями Tesla V100, что обеспечивает производительность порядка 960 тензорных терафлопс. По мнению NVIDIA это заменяет 400 обычных серверов. Стоит такая система $149 тысяч, а заказчики получат её уже в третьем квартале. Модель DGX Station выглядит совсем иначе: это рабочая станция в настольном исполнении, она содержит четыре ускорителя Tesla V100. В ней установлены версии ускорителей с разъёмами PCIe и тремя портами DisplayPort. Друг с другом, однако, платы общаются посредством NVLink. Стоит такая станция $69 тысяч.

Серверные варианты

Серверные варианты

Наконец, была представлена платформа NVIDIA HGX-1. Её назначение —  облачные вычисления. Она изначально рассчитана на работу в составе единой инфраструктуры ЦОД, причём эта инфраструктура должна предусматривать наличие единого контура жидкостного охлаждения, к которому платформа и подключается. Характеристики и производительность у HGX-1 аналогичны таковым параметрам у DGX-1, и она содержит восемь ускорителей Tesla V100 в версии с интерфейсом NVLink. Стоимость не оглашена, но она должна быть выше стоимости DGX-1.

Постоянный URL: http://servernews.ru/952092
21.12.2016 [08:39], Алексей Степин

Производительность NVIDIA Volta GV100 может достигнуть 9,5 терафлопс

Как известно, следующим после Pascal поколением графических процессоров NVIDIA является Volta. Впрочем, к современным чипам название «графический процессор» применимо всё меньше — с тех пор, как их архитектура стала полностью унифицированной и программируемой, они прочно утвердились в различных проектах суперкомпьютеров, некоторые из которых уже вступили в строй и вовсю заняты научными и другими сложными вычислениями. Создавая свой первый чип Pascal GP100, NVIDIA уделила больше внимания его вычислительным возможностям, нежели графическим, и, похоже, первенца в семействе Volta, чип GV100, ожидает аналогичный подход.

Новый принцип построения узлов суперкомпьютера. Количество плат ускорителей не соответствует указанному в заметке

Новый принцип построения узлов суперкомпьютера. Количество плат ускорителей не соответствует указанному в заметке

Уже подтверждено, что GV100 станет сердцем, а точнее, сердцами суперкомпьютеров Summit в Национальной лаборатории Ок-Ридж (Oak Ridge National Laboratory) и Sierra в Ливерморской национальной лаборатории (Lawrence Livermore National Laboratory). Первый проект должен войти в рабочую стадию в начале 2018 года и развить пиковую мощность 200 петафлопс, что существенно превышает показатель самого быстрого сегодняшнего китайского суперкомпьютера Sunway TaihuLight, чьи возможности оцениваются в 125,4 петафлопса. К сожалению, о характеристиках и архитектуре GV100 мы до сих пор знаем не так много, как хотелось бы, но кое-какие сведения о проекте Summit позволяют сделать некоторые выводы.

Тот самый слайд

Тот самый слайд

Лаборатория в Ок-Ридже опубликовала слайд, на котором Summit сравнивается с суперкомпьютером Titan, базирующимся на чипах Kepler GK110. Состоит он из 18688 узлов, мощность каждого из них составляет 1,4 терафлопса. На том же плакате указаны спецификации Summit: 4600 узлов с мощностью более 40 терафлопс на узел. Указано также, что в каждом узле будет 512 Гбайт памяти DDR4, 800 Гбайт энергонезависимой памяти и некий объём памяти HBM (речь, разумеется, идёт о HBM2). Основой каждого узла станут пара процессоров IBM POWER9 и шесть процессоров NVIDIA Volta. Чипы POWER9, помимо традиционных линий PCI Express (версия 4.0) имеют и 48 линий интерфейса Bluelink, который будет работать в режиме NVLink 2.0 и соединять их с процессорами Volta, что позволит процессорам различных архитектур делить общее пространство памяти, практически не теряя в скорости: пропускная способность может составлять от 80 до 200 Гбайт/с.

Использование NVLink экономит энергию и повышает производительность

Использование NVLink экономит энергию и повышает производительность

Потребляемая Summit мощность составит 13 мегаватт — всего на 4 мегаватта больше, нежели у Titan, при более чем десятикратном превосходстве в производительности. Как мы знаем, NVIDIA объявила о том, что GV100 будет демонстрировать эффективность 72 гигафлопса на ватт при операции перемножения матриц с одинарной точностью (Single precision floating General Matrix Multiply). Для GP100 этот показатель равен 42 гигафлопса на ватт. Нетрудно посчитать, приняв за основу теплопакет GV100 на уровне 300 ватт, что этот чип в теории может достичь производительности 9,5 терафлопс на вычислениях двойной точности (FP64). Шесть чипов GV100 при потреблении не выше 300 ватт на чип как раз и дадут упомянутые на плакате «более 40 терафлопс», а точнее, в теории, смогут выдать 57,2 терафлопса. Даже при конфигурации с теплопакетом 200 ватт и на 20‒25 % более низкой производительности производительность узла составит 45,6 терафлопс, так что у создателей Summit явно есть задел по части экономии электроэнергии при сохранении заявленных характеристик. По крайней мере, такой подход может существенно облегчить работу холодильных установок Summit.

Постоянный URL: http://servernews.ru/944758
26.05.2016 [13:38], Геннадий Детинич

AMD представила «серверную» видеокарту FirePro S7100X

Оба разработчика графических процессоров — компании AMD и NVIDIA — с недавних пор начали поставлять на рынок решения для организации удалённых виртуальных графических станций. Это сравнительно новая тенденция, которая растёт на фоне популяризации облачных сервисов. Виртуальные графические станции позволяют небольшим компаниям сэкономить на закупке и модернизации компьютерного оборудования и программного обеспечения. Для работы с графикой, требующей серьёзных вычислительных ресурсов, теперь достаточно простого терминала, которым может стать ноутбук, планшет и даже смартфон.

Новинкой компании AMD на фронте «серверной» графики стал первый и единственный графический адаптер с аппаратной поддержкой виртуализации — FirePro S7100X. Решение выполнено в виде модуля PCIe MXM 3.1 с шиной PCI Express 3.0 x16. Это плата для установки в плотные ячеистые серверы или, как их чаще называют, blade-серверы. Следовательно, решение AMD FirePro S7100X создаёт основу для отличного масштабирования ресурсов. Одна плата FirePro S7100X способна организовать до 16 виртуальных графических станций с гарантированной производительностью. В компании AMD эту технологию называют кодовым именем «MxGPU» или Multiuser GPU. И ещё раз подчеркнём, что, по словам AMD, FirePro S7100X — это единственный на рынке адаптер, который поддерживает аппаратную виртуализацию типа ввода-вывода с единым корнем (Single Root I/O Virtualization). По сути, это позволяет предоставить виртуальным машинам прямой доступ к части аппаратных возможностей удалённого графического процессора.

AMD FirePro S7100X (AMD)

AMD FirePro S7100X

Традиционно спецификации решений в линейке профессиональных видеокарт не раскрываются. Известно только, что адаптер AMD FirePro S7100X несёт бортовую память типа GDDR5 с 256-разрядной шиной доступа. Если судить по названию новинки, то её ближайшим аналогом можно считать адаптер AMD FirePro W7100 для рабочих станций. Это было первое профессиональное решение на GPU AMD Tonga, правда, несколько урезанное по возможностям по сравнению с игровыми адаптерами. Серверная версия GPU в составе AMD FirePro S7100X, похоже, урезана ещё сильнее, поскольку заявленный уровень TDP новинки равен 100 Вт. Уровень TDP адаптера AMD FirePro W7100 находится на отметке 150 Вт. Следует признать, что AMD FirePro S7100X — это довольно несвежее решение, но это тоже обычная практика. Профессиональные версии видеокарт с расширенной поддержкой драйверов для специального конструкторского программного обеспечения выходят позже и стоят значительно дороже своих игровых собратьев.

AMD FirePro W7100 (AMD)

AMD FirePro W7100

Поставки адаптера AMD FirePro S7100X уже стартовали. Приобрести решение можно только в составе blade-сервера HPE ProLiant WS460c Gen9 Graphics Server Blades.

Постоянный URL: http://servernews.ru/933551
Система Orphus