Материалы по тегу: fpga

06.11.2019 [23:10], Андрей Созинов

Intel Stratix 10 GX 10M: самая большая в мире ПЛИС с 10 млн элементов

Компания Intel представила Stratix 10 GX 10M — самую большую в мире программируемую интегральную схему (FPGA). Новинка выполнена по 14-нм техпроцессу и насчитывает 43,3 млрд транзисторов. Заметим, что предыдущим рекордсменом была ПЛИС  Xilinx Virtex VU19P, обладающая 35 млрд транзисторов. 

Новая матрица Stratix 10 GX 10M насчитывает 10,2 млн логических элементов, на что как раз и указывает сокращение «10М» в её названии. Логика разместилась на двух кристаллах, соединённых между собой вмонтированным в подложку полупроводниковым мостом EMIB (Embedded Multi-Die Interconnect Bridge).

Помимо кристаллов с логикой на подложке Stratix 10 GX 10M расположилось четыре кристалла, на которых в сумме расположилось 48 трансиверов, которые способны обеспечить общую пропускную способность до 0,85 Тбит/с (17,5 Гбит/с каждый). Трансиверы подключены к кристаллам с логикой также посредством интерфейса EMIB.

Всего новинка обладает 25 920 соединениям EMIB, что обеспечивает пропускную способность в 6,5 Тбит/с между всеми кристаллами, из которых состоит Stratix 10 GX 10M. Так что EMIB вряд ли станет узким местом новинки.

Ещё одной важной особенностью рекордной ПЛИС является наличие 2304 контактов ввода/вывода, доступных пользователю. Это позволит создавать самые разнообразные системы с большим количеством внешних интерфейсов. Есть у Stratix 10 GX 10M и 308 Мбит набортной памяти.

По словам Intel, новинка потребляет на 40 % меньше энергии, нежели её прежняя самая большая ПЛИС Stratix 10 GX 2800. Также новая Stratix 10 GX 10M обладает в 3,7 раза более высокой плотностью размещения транзисторов и вдвое большим числом контактов ввода/вывода.

Постоянный URL: http://servernews.ru/997101
01.11.2019 [21:42], Алексей Степин

ВКонтакте осваивает Intel Optane DCPMM и FPGA Arria 10 GX

«ВКонтакте» имеет 97 млн активных пользователей в месяц. Каждый день они просматривают 9 млрд постов, ставят 1 млрд лайков, пишут 10 млрд сообщений, 650 млн раз просматривают видео и генерируют трафик 3,5 Тбит/с. Общий объём пользовательских данных достиг 1,1 экзабайта. 

За всем этим стоит немалая IT-инфрастуктура: 19 тыс. серверов, 3 связанных между собой ЦОД, 30 CDN-узлов и дополнительных точек присутствия по всему миру. Малейшая возможность повысить их эффективность выливается в миллионы долларов экономии ежегодно. На мероприятии Intel Experience Day 2019 VK рассказала о такой возможности. 

До недавних пор имелись два основных типа машин: 1U-сервер приложений на базе пары Intel Xeon 2660v4 и четырёх HDD + 4U-сервер хранения данных с двумя Xeon 2620v4 и 36 HDD. То есть фактически было лишь два уровня хранения информации: DRAM и жёсткие диски. Разделение между «горячими» и «холодными» данными простое, но далеко не самое эффективное, так как с ростом объёма информации итоговая производительность падает, а стоимость хранения, напротив, растёт день ото дня. 

В результате проведённых экспериментов было принято решение по изменению серверной инфраструктуры с учётом новых технологий хранения данных, имеющихся на рынке. Это снижает стоимость владения инфраструктурой на величину от 65% до 90%.

Проект получился комплексный: число уровней хранения информации выросло до четырёх, не считая DRAM. Для наиболее «горячих» данных используются модули Intel Optane DC Persistent Memory (DCPMM) объёмом 1 Тбайт (8 × 128 Гбайт) в сочетании с PCIe-накопителями Intel Optane P4800X ёмкостью 750 Гбайт. Использование DCPMM и DRAM вместо одной только оперативной памяти снизило капитальные затраты в два раза. 

Появился новый уровень, «тёплый», где данные хранятся на 8 SSD Intel P4320 с интерфейсом NVMe (QLC 7,68 Тбайт). Так что все эти 1U-сервера работают исключительно с твердотельными накопителями. Лишь на самом «холодном» уровне по-прежнему используются традиционные HDD. Но и тут плотность размещения резко возросла — в 4U-шасси с вертикальной загрузкой теперь помещается 102 жёстких диска. 

Но даже при новой системе разделения слоёв содержание более 1 экзабайта данных стоит очень дорого. Компания решила провести опыт по оптимизации хранения изображений, которых на серверах VK хранится несколько сотен петабайт, причём часто в нескольких форматах и разрешениях. 

Наилучшим решением проблемы стало использование серверов с восемью ускорителями Intel на базе ПЛИС Arria 10 GX, производящих при отдаче контента преобразование изображений на лету в нужную пользователю форму. По итогу удалось уменьшить объём хранимых изображений на 20%, сэкономив десятки петабайт места. В настоящее время компания рассматривает возможность применения FPGA для других типов нагрузок. 

Все новые серверы построены на базе двух процессоров Intel Xeon Gold 6230  (20/40, 2,1/3,9 ГГц, 27,5 Мбайт, 125 Вт), так что вычислительные мощности существенно возросли. Сеть подверглась модернизации c 10GbE на 25GbE. Пересмотр структуры хранения и передачи данных позволил увеличить среднюю плотность размещения в три раза, что положительно сказывается на затратах на содержание. 

Постоянный URL: http://servernews.ru/996764
30.10.2019 [15:45], Геннадий Детинич

BittWare VectorPath S7t: ускоритель на базе 7-нм ПЛИС Achronix Speedster7t с 400Gb-интерфейсом

Компания BittWare, которая входит в широко известную группу Molex, представила интересный ускоритель расчётов на программируемых матрицах компании Achronix. Это ускорители VectorPath S7t-VG6 на 7-нм ПЛИС Achronix Speedster7t.

Поставки ускорителей в виде отдельных карт или в составе готовых систем компаний Dell или HP стартуют в начале второго квартала 2020 года.

Видимо, к этому времени с дефицитом 7-нм линий будет покончено. Сейчас спрос на 7-нм мощности находится в стадии ажиотажа.

Отдельно надо отметить, что компания Achronix долгое время была клиентом скромного, но многообещающего контрактного производства Intel. Увы, компания Intel перекормила «завтраками» всех, включая себя. Похоже, терпение Achronix иссякло, и производство новых ПЛИС она предпочла разместить за пределами заводов Intel. Вероятнее всего, этим будет заниматься компания TSMC, но мы пока не будем на этом настаивать.

Что касается ускорителей BittWare S7t-VG6, то ещё одной изюминкой платформы станет использование в качестве основной бортовой памяти память типа GDDR6 объёмом до 8 Гбайт. Суммарная пропускная способность подсистемы памяти в составе ускорителя BittWare S7t-VG6 будет достигать 4 Тбайт/с.

По словам разработчиков, это разумная по цене альтернатива памяти HBM. Почти не уступая ей по скорости доступа, память GDDR6 окажется ощутимо дешевле и удержит стоимость ускорителей BittWare на приемлемом уровне.

Кроме памяти GDDR6 на плате ускорителя можно обнаружить банк памяти DDR4-2666 с поддержкой ECC и три порта Ethernet: один 400 GbE и два 100 GbE. В комплекте с ускорителями поставляются инструменты для разработки приложений, драйвера и примеры, включая приложения для диагностики ускорителя.

Блок-схема ускорителя BittWare S7t-VG6

Блок-схема ускорителя BittWare S7t-VG6

О стоимости решений не сообщается. Поставки ускорителей BittWare S7t-VG6, повторим, стартуют в начале второго квартала будущего года.

Постоянный URL: http://servernews.ru/996543
18.10.2019 [10:11], Алексей Степин

Плата Tang Nano несёт на борту ПЛИС и стоит всего $5

Компания Lichee, ранее нацеленная на выпуск недорогих средств для разработки под архитектуру RISC-V, сменила имя и выпустила новый продукт. Теперь компания называется Sipeed, а представила она миру плату Tang Nano стоимостью всего $5.

Несмотря на цену, это достаточно интересное устройство, построенное на базе ПЛИС Gowin GW1N-1-LV.

Микросхема, относящаяся к семейству Little Bee, достаточно серьёзна по своим возможностям, несмотря на крошечные габариты. Она имеет 864 логических блока, таблицу LUT4 объёмом 1152 записи, 8 Мбайт системной памяти PSRAM и DSP-блоки.

На плате предусмотрен стандартный 40-контактный разъём для подключения экранов LCD RGB, имеется порт USB Type-C и 34 порта ввода/вывода.

Питается Tang Nano от порта USB, габариты платы составляют всего 58,4×21,3×4,8 миллиметра. Для разработки ПО предлагается среда GOWIN IDE, но, к сожалению, пока основной объём информации не переведён даже на английский язык.

Стоит новинка действительно $5, за $18 можно заказать плату в комплекте с 5″ цветным экраном. При столь низких ценах Tang Nano может являться удобным источником для «модов», подобных тем, что описаны в недавней заметке, посвящённой аппаратному взлому.

Постоянный URL: http://servernews.ru/995776
06.10.2019 [13:39], Алексей Степин

Единая программная платформа Xilinx Vitis упростит жизнь FPGA-разработчиков

В ходе мероприятия Xilinx Developer Forum 2019 компания объявила о запуске новой единой программной платформы Vitis. Это весьма важный шаг, поскольку решения на основе ПЛИС сильно зависят от программной части, и наличие доступного унифицированного комплекса ПО позволит привлечь новых разработчиков к работе с решениями Xilinx, сделав их, таким образом, более массовыми и доступными широкой публике. 

О масштабности проекта говорит то, что платформу Vitis уже успели назвать «Xilinx’s CUDA». Все, вероятно, помнят, что именно инициатива CUDA позволила в своё время NVIDIA агрессивно выйти на рынок ускорителей вычислений (GPGPU).

Широко доступной Xilinx Vitis должна стать в начале ноября. Что немаловажно, платформа станет бесплатной и не будет содержать зашифрованных бинарных файлов. В мире ПЛИС такой подход является большой редкостью — обычно создатели сопровождают их весьма дорогостоящими средствами разработки.

Доступность и открытость Vitis должны помочь Xilinx в конкуренции на рынке ускорителей вычислений и систем искусственного интеллекта. Как известно, ПЛИС способны на многое: в ряде специализированных задач они демонстрируют результаты не хуже специализированных ускорителей, но при этом являются куда более гибким решением.

В предварительном докладе Xilinx отметила ряд ключевых особенностей Vitis. Так, было заявлено, что новая платформа послужила точкой объединения пяти различных сред разработки, существовавших до этого в виде отдельных продуктов. Такую унификацию, наверняка, по достоинству оценят разработчики соответствующих решений на базе ПЛИС разработки и производства Xilinx.

Более всего, по мнению компании, от внедрения Vitis должны выиграть создатели систем и платформ машинного обучения. Как было отмечено в докладе, сегодня новые продвинутые модели машинного обучения появляются каждый квартал, и самые актуальные модели ускорителей на базе GPU не поспевают за этой тенденцией. В то же время ускорители на базе ПЛИС могут быть просто переконфигурированы с учётом особенностей новейшего ПО.

Если верить заявлениям Xilinx, в настоящее время в разработке находится 2024 модели автономных транспортных средств, «мозгом» которых были избраны решения Xilinx именно в силу их гибкости и способности к переконфигурации буквально «на лету». Платформа Vitis придётся здесь как нельзя более к месту, так как она совместима с популярными инструментами для машинного обучения: TensorFlow, Caffe и PyTorch.

Vitis позволит разработчикам не беспокоиться о низкоуровневых драйверах и распределении памяти, а пользоваться вместо этого привычными средами разработки и концентрировать свои усилия на решении действительно важных задач. В настоящее время Xilinx продолжает пополнять базы открытого программного кода, публикуя новые библиотеки, примеры и документацию для платформы Vitis. Также компания запустила в тестовом режиме новый портал для разработчиков.

Целью Xilinx, как уже было отмечено, является упрощение доступа разработчиков ко всем богатейшим возможностям, которые могут предоставить микросхемы с программируемой логикой. Помимо новой программной платформы компания обещает ускорить поставки комплектов разработчика на базе новейших ПЛИС: ACAP Versal и Alveo. С учётом нацеленности Xilinx на открытость и бесплатность программных решений новые инициативы компании можно лишь приветствовать.

Постоянный URL: http://servernews.ru/995128
02.10.2019 [16:53], Сергей Карасёв

Exxact выпустила серверы и рабочие станции с ускорителями Xilinx Alveo

Exxact Corporation начала поставки серверов и рабочих станций, оборудованных FPGA-ускорителями Xilinx Alveo.

Компания предлагает рабочую станцию начального уровня TensorEX Workstation. Она оборудована четырьмя ускорителями Alveo U200 или U250, двумя процессорами Intel Xeon Scalable (Silver) и четырьмя модулями оперативной памяти ёмкостью 16 Гбайт каждый (64 Гбайт в сумме).

Станция TensorEX Workstation среднего уровня несёт на борту четыре акселератора Alveo U200 или U250, два чипа Intel Xeon Scalable (Silver) и двенадцать модулей ОЗУ объёмом 16  Гбайт каждый (192 Гбайт в сумме).

Наконец, стоечная система TensorEX 4U Server располагает восемью акселераторами Alveo U200 или U250 и двумя процессорами Intel Xeon Scalable (Gold). Общий объём оперативной памяти составляет 192 Гбайт. 

Устройства Xilinx Alveo выполнены в виде карт расширения с интерфейсом PCIe. Решения обеспечивают повышение производительности при выполнении самых разных задач, с которыми сталкиваются современные центры обработки данных и корпоративные пользователи. Подробнее об акселераторах можно узнать здесь.

Постоянный URL: http://servernews.ru/994976
20.09.2019 [15:05], Андрей Созинов

Intel начинает поставки FPGA Stratix 10 DX с поддержкой UPI и PCIe 4.0

Компания Intel анонсировала начало поставок новой ПЛИС Stratix 10 DX, которая отличается от других моделей серии Stratix 10 поддержкой более скоростных внешних интерфейсов и памяти Intel Optane.

Новые FPGA получили поддержку шины Ultra Path Interconnect (UPI), которую Intel использует для обеспечения связи между CPU в многопроцессорных системах.

ServeTheHome

За счёт поддержки UPI матрицы Stratix 10 DX смогут не только быстрее обращаться к процессору, но и напрямую извлекать данные из основной системной RAM. Причём это может быть как традиционная оперативная память, так и модули Intel Optane DC Persistent Memory Modules (DCPMM).

ServeTheHome

Кроме того, матрица Stratix 10 DX получила поддержку интерфейса PCI Express 4.0, который обеспечит более скоростную связь между FPGA и другими устройствами. Правда, у самой Intel на данный момент нет процессоров с поддержкой PCIe 4.0 и CXL. Однако массовые поставки DX начнутся только в следующем году, и к тому времени уже должны появиться чипы Xeon с новой шиной PCI-E.

На данный момент Intel поставляет образцы и инструменты для разработки ограниченному кругу своих партнёров. Первой новинки получила VMware. На данный момент доподлинно неизвестно, где и как именно VMware будет использовать новые FPGA — подробности об этом могут появиться позже, например на VMworld 2019 Europe (4–7 ноября).

Одним из возможных вариантов применения Stratix 10 DX может стать новая аналитическая платформа VMware, которую компания активно продвигала во время августовского VMworld 2019 US. Сейчас VMware стремится перестать быть только платформой для виртуализации, а хочет стать более универсальной платформой для работы с приложениями и данными.

Постоянный URL: http://servernews.ru/994385
30.08.2019 [12:03], Геннадий Детинич

Intel начала поставки 10-нм FPGA Agilex. Но только избранным

Компания Intel сообщила, что она начала ранние поставки ряду клиентов ограниченных партий 10-нм матриц ПЛИС Agilex (FPGA). В число счастливцев вошли компании Microsoft, Colorado Engineering, Mantaro Networks и Silicom. Для Intel это важное событие.

Прямой конкурент Agilex, матрицы компании Xilinx, завоёвывает всё большую популярность на рынке. Вплоть до того, что Microsoft может рассматривать вопрос отказа от этой продукции Intel. Поэтому компания поспешила начать поставки Agilex даже несмотря на то, что они перетягивают на себя часть дефицитных линий по выпуску 10-нм процессоров.

Анонс матриц Agilex состоялся весной этого года. Подробнее о спецификациях трёх семейств Agilex мы рассказывали ровно месяц назад.

Если вкратце, матрицы Agilex представляют собой многокристальные сборки на одной подложке EMIB (embedded multi-die interconnect bridge). Они сочетают массив программируемых вентилей, цифровые сигнальные процессоры с производительностью до 40 терафлопс, память DDR4 или HBM2, высокоскоростные интерфейсы 112 Гбит/с на линию, что даёт возможность организовать порты 400 Gb.

Ещё одной интересной особенностью Agilex можно считать аппаратную поддержку вычислений bfloat16, нового формата хранения чисел, сочетающего необходимый уровень точности со скоростью вычислений. Поддержка bfloat16 нужна для машинного обучения и ИИ. 

По словам Intel, 10-нм матрицы Agilex до 40  % быстрее справляются с задачами, чем предыдущее 14-нм поколение матриц Intel Stratix 10. Как вариант, производительность можно сохранить на прежнем уровне, но на 40 % снизить потребление платформы.

В целом матрицы Agilex обещают привнести в индустрию гибкость ПЛИС (и платформ), в сочетании с низким потреблением и высокой производительностью «почти как» у заказных БИС (ASIC).

Платформы на Agilex первыми воплотят в жизнь когерентный интерфейс Compute Express Link (CXL) и шину PCIe 5.0. Это важный момент в решениях для обработки данных в сетях 5G, ИИ и машинного обучения.

Постоянный URL: http://servernews.ru/993272
22.08.2019 [06:42], Андрей Созинов

Xilinx Virtex UltraScale+ VU19P: самая большая в мире FPGA с 9 млн логических элементов

Компания Xilinx анонсировала Virtex UltraScale+ VU19P — самую большую программируемую логическую интегральную схему (вентильную матрицу) FPGA, которая содержит в себе 9 миллионов логических элементов.

Помимо 9 млн логических элементов, Virtex VU19P имеет восемь каналов для подключения оперативной памяти DDR4 с общей пропускной способностью 1,5 Тбит/с, восемьдесят приёмопередатчиков с пропускной способностью 4,5 Тбит/с, а также 2072 входов-выходов GPIO. Заметим, что предшественник новинки — Virtex UltraScale 440 — также был самой большой FPGA с 5,5 млн логических элементов.

Xilinx позиционирует Virtex VU19P в качестве решения для разработки различных однокристальных платформ (SoC) и ASIC. С помощью новинки можно эмулировать различные решения, создавать их прототипы или тестировать работоспособность. Также Virtex VU19P позволит разработчикам приступить к созданию ПО ещё до того, как сама SoC будет произведена. Помимо этого, Virtex VU19P может применяться в различных других областях, например, в качестве основы для ускорителей вычислений для ЦОД.

Новая FPGA будет производиться по 16-нм техпроцессу на мощностях компании TSMC. Он содержит 35 млрд транзисторов. Стоит отметить, что Virtex VU19P на самом деле состоит из четырёх прямоугольных кристаллов, которые соединены через интерпозер. Собственно, в этом нет ничего удивительного, ведь чип Virtex VU19P слишком большой, чтобы быть монолитным кристаллом — его площадь составляет около 900 мм2. Заметим, что самым большим 16-нм монолитным кристаллом на текущий момент является графический процессор NVIDIA V100 площадью 815 мм2.

Xilinx пока только анонсировала Virtex UltraScale+ VU19P, а выход продуктов с ним запланирован на осень будущего года.

Постоянный URL: http://servernews.ru/992831
07.08.2019 [21:05], Геннадий Детинич

Оружие победы? ― Xilinx представила FPGA-ускорители Alveo U50

Второй крупнейший игрок на рынке программируемых матриц компания Xilinx представил новые ускорители на ПЛИС модели Alveo U50. Ускорители выполнены в формфакторе PCIe-адаптеров с низким профилем и занимают на материнской плате один слот. До этого в семействе продуктов Alveo были представлены лишь двухслотовые модели, требующие дополнительного питания PCIe. Устройства построены на 16-нм чипах с архитектурой FPGA UltraScale+.

Адаптеры Xilinx Alveo U50 питаются исключительно через слот и свободны от подключения дополнительных разъёмов, что, безусловно, означает пониженное потребление и меньшую производительность. Но эти жертвы могут окупиться сполна. Ускорители Alveo U50 можно установить практически в любой сервер, где есть хоть один свободный слот PCIe. Это решение может стать массовым и оказаться тем камешком с горы, который вызовет лавину интереса к продукции Xilinx и экосистеме ИИ-платформ компании. Фактически Alveo U50 могут стать для Xilinx оружием победы, как бы громко это ни звучало.

Отказ от дополнительного питания свёл пиковое потребление адаптера Alveo U50 до 75 Вт или до номинального значения 50 Вт. Тем самым адаптер Xilinx оказался конкурентом NVIDIA Tesla T4 и предназначен для платформ ИИ с функцией принятия решений. Это могут быть как локальные (пограничные) системы, так и облачные. Компания Xilinx активно работает с облачным сервисом Amazon (AWS) и предоставляет драйверы, компиляторы и другие необходимые программные компоненты.

Интерфейс Xilinx Alveo U50 ― это PCI Express 4.0 с поддержкой спецификаций CCIX. В семействе ускорителей Alveo шину PCIe 4.0 и CCIX поддерживает только старшее решение Alveo U280. Это ещё один плюс в копилку преимуществ младшего и, как надеются в Xilinx, массового решения. Другим преимуществом стало использование в качестве бортовой памяти массива HBM2 объёмом 8 Гбайт с пропускной способностью до 460 Гбайт/с. Адаптеры U200 и U250 используют память DDR4, которая дешевле, но не так быстра.

Наконец, адаптеры Alveo U50 поддерживают протокол NVMe-oF. Это означает, что адаптер снимает с процессора задачу по обслуживанию передачи пакетов данных и обеспечивает минимальные задержки при работе с данными ― на уровне обмена с прямым подключением, хотя может находиться удалённо. Сетевой разъём у адаптера, кстати, QSFP28, который позволяет обмениваться данными со скоростью до 100 Гбит/с. Также предусмотрена модификация Alveo U50DD с двумя портами QSFP28. О цене вопроса не сообщается, но будет явно не выше цен на адаптеры NVIDIA Tesla T4.

Постоянный URL: http://servernews.ru/992007
Система Orphus