Материалы по тегу: tachyum

25.06.2020 [21:10], Алексей Степин

ISC 2020: Tachyum анонсировала 128-ядерные ИИ-процессоры Prodigy и будущий суперкомпьютер на их основе

Машинное обучение в последние годы развивается и внедряется очень активно. Разработчики аппаратного обеспечения внедряют в свои новейшие решения поддержку оптимальных для ИИ-систем форматов вычислений, под этот круг задач создаются специализированные ускорители и сопроцессоры.

Словацкая компания Tachyum достаточно молода, но уже пообещала выпустить процессор, который «отправит Xeon на свалку истории». О том, что эти чипы станут основой для суперкомпьютеров нового поколения, мы уже рассказывали читателям, а на конференции ISC High Performance 2020 Tachyum анонсировала и сами процессоры Prodigy, и ИИ-комплекс на их основе.

Запуск готовых сценариев машинного интеллекта достаточно несложная задача, с ней справляются даже компактные специализированные чипы. Но обучение таких систем требует куда более внушительных ресурсов. Такие ресурсы Tachyum может предоставить: на базе разработанных ею процессоров Prodigy она создала дизайн суперкомпьютера с мощностью 125 Пфлопс на стойку и 4 экзафлопса на полный комплекс, состоящий из 32 стоек высотой 52U.

Основой для новой машины является сервер-модуль собственной разработки Tachyum, системная плата которого оснащается четырьмя чипами Prodigy. Каждый процессор, по словам разработчиков, развивает до 625 Тфлопс, что дает 2,5 Пфлопс на сервер. Компания обещает для новых систем трёхкратный выигрыш по параметру «цена/производительность» и четырёхкратный — по стоимости владения. При этом энергопотребление должно быть на порядок меньше, нежели у традиционных систем такого класса.

Архитектура Prodigy представляет существенный интерес: это не узкоспециализированный чип, вроде разработок NVIDIA, а универсальный процессор, сочетающий в себе черты ЦП, ГП и ускорителя ИИ-операций. Структура кристалла построена вокруг концепции «минимального перемещения данных». При разработке Tachyum компания принимала во внимание задержки, вносимые расстоянием между компонентами процессора, и минимизировала их.

Процессор Prodigy может выполнять за такт две 512-битные операции типа multiply-add, 2 операции load и одну операцию store. Соответственно то, что каждое ядро Prodigy имеет восемь 64-бит векторных блока, похожих на те, что реализованы в расширениях Intel AVX-512 IFMA (Integer Fused Multiply Add, появилось в Cannon Lake). Блок вычислений с плавающей точкой поддерживает двойную, одинарную и половинную точность по стандартам IEEE. Для ИИ-задач имеется также поддержка 8-битных типов данных с плавающей запятой.

Векторные и матричные операции — сильная сторона Prodigy. На перемножении-сложении матриц размерностью 8 × 8 ядро развивает 1024 Флопс, используя 6 входных и 2 целевых регистра (в сумме есть тридцать два 512-бит регистра). Это не предел, разработчик говорит о возможности увеличения скорости выполнения этой операции вдвое. Tachyum обещает, что система на базе Prodigy станет первым в мире ИИ-кластером, способным запустить машинный интеллект, соответствующий человеческому мозгу.

С учётом заявлений о 10-кратной экономии электроэнергии и 1/3 стоимости от стоимости Xeon, это заявление звучит очень сильно. Но Prodigу — не бумажный продукт-однодневка. Tachyum разработала не только сам процессор, но и всю необходимую ему сопутствующую инфраструктуру, включая и компилятор, в котором реализованы оптимизации в рамках «минимального перемещения данных».

Новинка разрабона с использованием 7-нм техпроцесса, максимальное количество ядер с вышеописанной архитектурой — 64. Помимо самих ядер, кристалл T864 содержит восьмиканальный контроллер DDR5, контроллер PCI Express 5.0 на 64 (а не 72, как ожидалось ранее) линии и два сетевых интерфейса 400GbE. При тактовой частоте 4 ГГц Prodigy развивает 8 Тфлопс на стандартных вычислениях FP32, 1 Пфлоп на задачах обучения ИИ и 4 Петаопа в инференс-задачах.

Самая старшая версия, Tachyum Prodigy T16128, предлагает уже 128 ядер с частотой до 4 ГГц, 12 каналов памяти DDR5-4800 (но только 1DPC и до 512 Гбайт суммарно), 48 линий PCI Express 5.0 и два контроллера 400GbE. Производительность в HPC-задачах составит 16 Тфлопс, а в ИИ — 262 Тфлопс на обучении и тренировке. 

Системные платы для Prodigy представлены, как минимум, в двух вариантах: полноразмерные четырёхпроцессорные для сегмента HPC и компактные однопроцессорные для модульных систем высокой плотности. Полноразмерный вариант имеет 64 слота DIMM и поддерживает модули DDR5 объёмом до 512 Гбайт, что даёт 32 Тбайт памяти на вычислительный узел.

Сам узел полностью совместим со стандартами 19″ и Open Compute V3, он может иметь высоту 1U или 2U и поддерживает питание напряжением 48 Вольт. Плата имеет собственный BIOS UEFI, но для удалённого управления в ней реализован открытый стандарт OpenBMC.

Tachyum исповедует концепцию универсальности, но всё-таки узлы для HPC-систем на базе Prodigy могут быть нескольких типов — универсальные вычислительные, узлы хранения данных, а также узлы управления. В качестве «дисковой подсистемы» разработчики выбрали SSD-накопители в формате NF1, подобные представленному ещё в 2018 году накопителю Samsung.

Таких накопителей в корпусе системы может быть от одного до 36; поскольку NF1 существенно крупнее M.2, поддерживаются модели объёмом до 32 Тбайт, что даёт почти 1,2 Пбайт на узел. Стойка с модулями Prodigy будет вмещать до 50 модулей высотой 1U или до 25 высотой 2U. Согласно идее о минимизации дистанций при перемещении данных, сетевой коммутатор на 128 или 256 портов 100GbE устанавливается в середине стойки.

Такая конфигурация работает в системе с числом стоек до 16, более масштабные комплексы предполагается соединять между собой посредством коммутатора высотой 2U c 64 портами QSFP-DD, причём поддержка скорости 800 Гбит/с появится уже в 2022 году. 512 стоек могут объединяться посредством высокопроизводительного коммутатора CLOS, он имеет высоту 21U и также получит поддержку 800 Гбит/с в дальнейшем.

Компания активно поддерживает открытые стандарты: применён загрузчик Core-Boot, разработаны драйверы устройств для Linux, компиляторы и отладчики GCC, поддерживаются открытые приложения, такие, как LAMP, Hadoop, Sparc, различные базы данных. В первом квартале 2021 года ожидается поддержка Java, Python, TensorFlow, PyTorch, LLVM и даже операционной системы FreeBSD.

Любопытно, что существующее программное обеспечение на системах Tachyum Prodigy может быть запущено сразу в виде бинарных файлов x86, ARMv8 или RISC-V — разумеется, с пенальти. Производительность ожидается в пределах 60 ‒ 75% от «родной архитектуры», для достижения 100% эффективности всё же потребуется рекомпиляция. Но в рамках контрактной поддержки компания обещает помощь в этом деле для своих партнёров.

Разумеется, пока речи о полномасштабном производстве новых систем не идёт. Эталонные платформы Tachyum обещает во второй половине следующего года. Как обычно, сначала инженерные образцы получают OEM/ODM-партнёры компании и системные интеграторы, а массовые поставки должны начаться в 4 квартале 2021 года. Однако ПЛИС-эмуляторы Prodigy появятся уже в октябре этого года, инструментарий разработки ПО — и вовсе в августе.

Планы у Tachyum поистине наполеоновские, но её разработки интересны и содержат целый ряд любопытных идей. В чём-то новые процессоры можно сравнить с Fujitsu A64FX, которые также позволяют создавать гомогенные и универсальные вычислительные комплексы. Насколько удачной окажется новая платформа, говорить пока рано.

Постоянный URL: http://servernews.ru/1014281
05.02.2020 [17:16], Алексей Степин

Процессоры Tachyum Prodigy станут основой суперкомпьютера

Словацкая компания Tachyum, разработчик семейства процессоров Prodigy, смогла добиться определённых успехов в продвижении своих технологий. Если верить опубликованному заявлению, данные процессоры станут основой нового суперкомпьютера, который должен войти в строй в 2021 году.

Амбиции у Tachyum впечатляющие: разработчик замахнулся на создание 64-ядерного процессора для серверов и кластерных систем, который, по его мнению, мог бы потеснить на рынке Intel Xeon и AMD EPYC.

Tachyum действительно повезло — первый же клиент у молодого стартапа, впервые заявившего о себе лишь в 2017 году, оказался заказчиком платформы AI/HPC, причём приготовления в месте размещения нового суперкомпьютера должны начаться уже в этом году. К 2021 году вся инфраструктура должна быть сформирована к началу массовых поставок чипов Prodigy T864. Этот процессор будет производиться с использованием 7-нм техпроцесса на мощностях TSMC.

Если верить компании-разработчику, Prodigy T864 сможет обеспечить уровень производительности выше, нежели у текущего поколения Intel Xeon, будучи при этом в 3 раза дешевле и в 10 раз экономичнее. Tachyum обещает работу всех 64 ядер на частоте 4 ГГц при уровне тепловыделения 180 Ватт, а этим не могут похвастаться даже AMD EPYC 7742 и 7H12 (3,4 и 3,3 ГГц, 225 и 280 Ватт, соответственно). Кроме того, новинка, по имеющимся данным, должна поддерживать память DDR5 и иметь 72 линии PCIe 5.0, а также порты 400GbE.

Проект весьма амбициозный, и, если Prodigy действительно будет обладать подобными характеристиками, это может снизить стоимость владения (TCO) в четыре раза в сравнении с аналогичными системами на базе классических процессоров Intel, AMD или IBM.

Постоянный URL: http://servernews.ru/1003041
29.08.2019 [18:06], Геннадий Детинич

Компания Tachyum ― «убийца» Intel Xeon ― присоединилась к консорциуму CXL

Как гласит официальный пресс-релиз словацкой компании Tachyum, этот европейский разработчик процессоров общего назначения присоединился к консорциуму Compute Express Link (CXL). По иронии судьбы, CXL продвигает группа компаний во главе с Intel, а Tachyum разработала процессорную архитектуру, которая «должна заменить процессоры Intel Xeon».

Более того, амбиции Tachyum настолько велики, что она призывает выбросить Xeon на свалку истории.

Словацкий стартап Tachyum объявил о себе в 2017 году (компания создана в 2016 году). 

На конференции Hot Chips 2018 компания Tachyum представила проект 7-нм 64-ядерного процессора Prodigy общего назначения, производительность выше, чем у Intel Xeon, а потребление в 10 раз меньше. Также CPU Tachyum Prodigy должны быть 3 раза дешевле решений Intel в пересчёте на показатель MIPS (миллион операций в секунду). Из заявленных интерфейсов можно отметить шину PCIe 5.0 (72 линии) и порты 400 GbE.

Из недостатков ― производство процессора ожидается не раньше следующего года на мощностях TSMC. Попросту говоря, он существует пока только на бумаге.

Новой инициативой Tachyum стало присоединение к консорциуму CXL и, очевидно, приведёт к интеграции в процессор Prodigy совместимого линка. Это не так уж трудно. Интерфейс CXL опирается на спецификации PCI Express 5.0 и использует линии этой шины. Назначение CXL ― создать согласованную среду для работы процессоров и ускорителей (специализированных процессоров) при обращении к кешам и памяти. 

Постоянный URL: http://servernews.ru/993220
Система Orphus