Материалы по тегу: tachyum
04.08.2022 [15:54], Владимир Мироненко
Разработчик серверных чипов Prodigy с невероятными характеристиками обвинил в своих бедах CadenceКак сообщает The Register, cтартап Tachyum подал в суд на Cadence Design Systems, обвинив компанию в саботаже при выполнении контракта на поставку IP-блоков для будущих 5-нм серверных процессоров Prodigy. По словам Tachyum, старшие 128-ядерные CPU Prodigy с частотой 5,7 ГГц будут втрое быстрее AMD EPYC 7763 и NVIDIA H100. В иске утверждается, что заключённая в 2019 году сделка на предоставление решений Cadence для процессоров Prodigy, была сорвана, поскольку Cadence не смогла предоставить необходимые технологии для вывода продукта на рынок. Заказанные Tachyum блоки не относятся к разряду новшеств, и инженеры Cadence уверяли Tachyum, что стандартные компоненты могли быть без труда интегрированы в процессор. Однако график поставок был нарушен, и дошло даже до того, что Cadence посоветовала Tachyum не использовать её компоненты или вообще приобрести аналоги у других поставщиков. ![]() Источник изображения: Tachyum Стартап добавил в иске, что Cadence усугубила ущерб, прекратив доступ Tachyum к ПО eDAcard, тем самым вынудив понести расходы на лицензирование другого ПО и переобучение своих инженеров. Срыв сроков и прочие препятствия привели к задержке выхода Prodigy примерно на два года. Tachyum потребовал возместить упущенную выгоду в размере $206 млн и ещё $27 млн дополнительных затрат на поиск альтернативных решений в сжатые сроки. ![]() Источник изображения: Tachyum Tachyum также указала, что из-за срыва сроков она потеряла возможность получения заказов на поставку чипов для испанского суперкомпьютера MareNostrum 5 стоимостью €151,41 млн. В итоге Барселонский суперкомпьютерный центр (BSC), с которым был подписан меморандум о взаимопонимании, предпочёл компанию Atos. Последняя выбрала ускорители NVIDIA и процессоры Intel, поскольку ни одна европейская компания не могла бы поставить чипы, отвечающие ключевым критериям отбора. В иске Tachyum отмечает, что тогдашний генеральный директор Cadence Лип-Бу Тан (Lip-Bu Tan) входил в совет директоров двух конкурентов Tachyum — SambaNova и Nuvia (поглощена Qualcomm) — и активно участвовал в фондах Walden International и Walden Catalyst, которые инвестировали в другие «кремниевые» стартапы. Ещё один член совета директоров Cadence, Янг Сон (Young Sohn), также является директором одного из этих инвестфондов. По мнению Tachyum, налицо явный конфликт интересов.
14.06.2022 [00:00], Алексей Степин
Tachyum о процессоре Prodigy: 128 VLIW-ядер с частотой 5,7 ГГц будут потреблять 950 ВтВ виде платформы прототипирования на базе FPGA процессор Tachyum Prodigy существует и успешно запускает Linux, но четыре мощных ПЛИС симулируют лишь 8 ядер, тогда как Tachyum говорит о максимальной конфигурации реальных процессоров, содержащей 128 ядер и 16 каналов DDR5 с предельной ПСП на уровне 921,6 Гбайт/с и объёмом 8 Тбайт на процессор. Но даже нацеленность на использование продвинутого техпроцесса TSMC N5P не решает одной важной проблемы, свойственной всем процессорам типа VLIW. Для достижения действительно высокой производительности им обычно нужна либо тщательнейшая оптимизация кода во время компиляции, либо высокая тактовая частота, которая позволит компенсировать простои исполнительного конвейера. Tachyum как минимум отчасти полагается на второй, экстенсивный путь и говорит о частоте 5,7 ГГц — это очень много даже по меркам новейших процессоров на базе архитектур x86 и Arm. ![]() Система симуляции кремния Tachuym Prodigy. Слева расположена плата с FPGA. Источник: Tachyum И если модель начального уровня Prodigy T832-LP, располагая всего 32 ядрами и работая на частоте 3,2 ГГц, будет обладать теплопакетом 180 Вт, то аналогичный процессор, разогнанный до 5,7 ГГц, добирается до 300 Вт, а флагманский T16128-AIX — и вовсе до 950 Вт! И всё это несмотря на использование 5-нм технологических норм. Иными словами, потребуется серьезнейшая система охлаждения, особенно для двух- и четырёхпроцессорных серверов на базе Prodigy. Немецкий ресурс Golem.de опубликовал цифры производительности новинок: вышеупомянутый 128-ядерный чип должен развивать до 90 Тфлопс в классическом режиме FP64 и 12 Пфлопс/Попс в сценариях инференса и обучения нейросетей. Для сравнения, AMD Instinct MI250X развивает 95,7 Тфлопс в FP64-вычислениях при мощности в районе 560 Вт, а 700-Вт SXM-версия NVIDIA H100 предложит до 60 Тфлопс в FP64-расчётах на Tensor-ядрах и 2–4 Пфлопс/Попс на вычислениях смешанной точности в зависимости от формата данных. ![]() Будущий модельный ряд процессоров Tachyum Prodigy. Источник: Golem.de Иными словами, как и было сказано, VLIW не отличается высокой энергоэффективностью, но у Prodigy есть одно качество, которого нет ни у Instinct, ни у Hopper — он может работать, как процессор общего назначения, выполняя любой код. Как и было рассказано ранее, каждое ядро будет содержать два 1024-битных блока векторных вычислений и 4096-битный блок матричных вычислений, а также по 64 Кбайт L1d- и L1i-кеша, 1 Мбайт L2-кеша и виртуальный L3-кеш, формируемый из L2-кешей простаивающих соседних ядер. Архитектура Tachyum как таковая не предусматривает внеочередного исполнения, но оптимизация на уровне компилятора допускает до 4 внеочередных инструкций (4-way out-of-order issues). А благодаря ряду оптимизаций Prodigy должен продемонстрировать высочайшую степень параллелизма. Лучше всего архитектура должна показать себя с «родным» кодом, но сможет исполнять и код x86, Arm и RISC-V, правда, на текущий момент ценой потери производительности на уровне 30–40% в случае бинарной трансляции в Qemu. ![]() Спецификации Prodigy T16128. Источник: Tachyum Поставка первых реальных процессоров Prodigy первого поколения намечена на конец этого или начало следующего года. Если всё пойдёт по плану, первые пробные кристаллы Prodigy будут выпущены в августе. Их площадь может не превысить 500 мм2. Полноценные образцы должны появиться в декабре, и если их работоспособность подтвердится тестированием, массовое производство может начаться уже в первой половине 2023 года. До появления реальных чипов сложно сказать, сможет ли новинка избежать судьбы Transmeta Crusoe и Intel Itanium. Пока что сколько-то массовые серверные VLIW-процессоры по большому счёту представлены на рынке только российскими «Эльбрусами», новое поколение которых должно было выйти в этом году. В планах Tachyum уже фигурирует Prodigy 2, который будет разработан с использованием процесса TSMC N3, станет вдвое производительнее при прежнем потреблении, а также получит поддержку PCI Express 6.0.
06.06.2022 [15:19], Сергей Карасёв
Tachyum начала приём заказов на тестовую платформу Prodigy EvaluationСловацкая компания Tachyum, разработчик семейства процессоров Prodigy, сообщает о начале приёма предварительных заказов на аппаратное решение Prodigy Evaluation Platform. Эта платформа будет выпущена ограниченной серией в текущем году и станет доступна ряду квалифицированных заказчиков и партнёров. Решение Prodigy Evaluation представляет собой сервер в форм-факторе 2U, предназначенный для тестирования универсальных чипов Prodigy. Помимо собственно процессора, платформа содержит память DDR5. ![]() Источник изображения: Tachyum Допускается установка до четырёх высокопроизводительных процессоров Prodigy в различных конфигурациях. Такие чипы, по сути, объединяют возможности CPU, GPU и TPU. Они содержат до 128 ядер, работающих на частоте до 5,7 ГГц. Процессоры подходят для решения различных ресурсоёмких задач в сфере облаков, высокопроизводительных вычислений, ИИ-систем, машинного обучения и пр. Платформа Prodigy Evaluation использует воздушное охлаждение. Она будет поставляться с прикладным программным обеспечением. Заказы принимаются до 31 июля 2022 года.
19.05.2022 [02:15], Игорь Осколков
Tachyum готова всего за €500 млн построить монструозный ИИ-суперкомпьютер производительностью 1 ЗфлопсTachyum продолжает рассказывать о том, как хороши её грядущие процессоры Prodigy. Вчера компания анонсировала две референсные системы, которые, по словам разработчиков, будут значительно быстрее и энергоэффективнее всех ныне существующих суперкомпьютерных платформ, даже самых производительных. Более того, платформа Tachyum якобы уже сейчас может масштабироваться до зеттафлопсного уровня. ![]() Изображения: Tachyum Первая система Prodigy Rack с воздушным охлаждением включает 24 2U-узла, каждый их которых содержит четыре процессора Prodigy среднего уровня — суммарно 96 CPU на стойку. В сравнении с кластером из четырёх NVIDIA DGX H100, включающем 32 ускорителя H100 (SXM), решение Tachyum обещает быть до 6,5 раз производительнее в HPC-приложениях, а в ИИ-нагрузках — до 12,5 раз быстрее (без уточнения точности вычислений). При этом по производительности и совокупной стоимости владения (TCO) оно до 16 раз лучше по сравнению с решением NVIDIA. Вторая референсная система Prodigy Rack, на этот раз с жидкостным охлаждением, включает 36 1U-узлов. Узлы тоже четырёхпроцессорные, но уже с флагманскими 128-ядерными CPU Prodigy, работающими на частоте 5,7 ГГц. У этой системы разница в производительности с решением NVIDIA составляет до 13,5 и 27 раз для HPC- и ИИ-нагрузок соответственно, а по показателю TCO — до 10 раз. Впрочем, на бумаге сравнивать между собой два всё ещё не вышедших продукта можно сколько угодно. ![]() Тем не менее, Tachyum предлагает Словакии построить за €70 млн новый суперкомпьютер, который в ИИ-задачах будет иметь производительность 128 Эфлопс, а в HPC — 500 Пфлопс (FP64). Эта гипотетическая система получит более 1,6 Пбайт RAM и 100-Пбайт хранилище (10 стоек), а её энергопотребление составит 9 МВт. В случае платформы с воздушным охлаждением на вычислительную часть потребуется 197 стоек, а с СЖО можно уложиться и 48 стоек. Суперкомпьютер Tachyum должен быть всемеро быстрее суперкомпьютера NVIDIA Eos и в 25 раз производительнее машины Fugaku, нынешнего лидера TOP500. В данном случае речь идёт об ИИ-нагрузках, хотя к методике подсчёта Tachyum есть вопросы, поскольку для Eos, например, заявлено 9 Пфлопс для FP16-расчётов, а результат Fugaku в HPL-AI на вычислениях смешанной точности составляет 2 Эфлопс. ![]() FPGA-эмулятор Tachyum Prodigy Если и такого суперкомпьютера окажется недостаточно, то Tachyum готова за €500 млн построить настоящего монстра с FP64-производительностью на уровне 4 Эфлопс, а ИИ — сразу 1 Зфлопс (зеттафлопс). Именно до такого уровня, по словам компании, могут масштабироваться её Prodigy-системы первого поколения. Потреблять такая машина должна менее 70 МВт. Но, честно говоря, пока что всё это звучит слишком хорошо, чтобы быть правдой.
11.05.2022 [21:40], Игорь Осколков
Tachyum анонсировала универсальные процессоры Prodigy: 128 ядер с частотой 5,7 ГГц, которые втрое быстрее AMD EPYC 7763 и NVIDIA H100Словацкая компания Tachyum официально представила серверные процессоры Prodigy, над которыми она трудилась несколько лет. По словам создателей, это первые в мире по-настоящему универсальные чипы, которые способны одновременно заменить CPU, GPU и TPU. Более того, Tachyum заявляет, что её процессоры не только быстрее всех остальных, но и дешевле и энергоэффективнее. Универсальность Prodigy заключается в том числе в возможности запускать бинарные файлы, собранные для архитектур x86-64, Arm и RISC-V в дополнение к нативным для данной 64-бит ISA приложениям. Tachyum говорит, что её чипы подойдут для задач ИИ и HPC, а также будут привлекательными для гиперскейлеров. Тестовые образцы компания начнёт рассылать уже в этом году, а старт массового производства намечен на первую половину 2023-го. Кроме того, компания предлагает IP-блоки TPU для инференс-систем IoT/Edge. ![]() Изображения: Tachyum Старшая в семействе новых 5-нм CPU, которое включает восемь устройств, модель имеет 128 унифицированных ядер, работающих на частоте 5,7 ГГц. По предварительным данным, у каждого ядра есть по 64 Кбайт L1-кеша для данных и инструкций, а также 128 Мбайт L2+L3. В деталях об архитектуре и микроархитектуре новинок пока не рассказывается, но упоминается внеочередное исполнение и возможность выполнения до четырёх инструкций за такт, а также поддержка виртуализации и расширенных RAS-функций. У каждого ядра есть два 1024-бит векторных блока и один 4096-бит матричный блок. Процессор снабжён 16-ю контроллерами памяти с поддержкой модулей DDR5-7200 суммарным объёмом до 8 Тбайт. При этом есть возможность создавать двух- и четырёхпроцессорные системы. Связь с внешним миром обеспечивают 32 контроллера PCIe, которые суммарно дают 64 линии PCIe 5.0. TDP для данной модели не указывается, но компания говорит о возможности использования воздушного и жидкостного охлаждения. Базовые характеристики впечатляют, но ещё более удивительными выглядят заявления разработчиков о производительности будущего флагмана. В SPECrate 2017 Int он примерно вчетверо быстрее Xeon Platinum 8380 и втрое быстрее EPYC 7763, старших моделей процессоров Intel и AMD текущего поколения. Более того, компания обещает, что FP64-производительность новинок будет втрое больше, чем у грядущих ускорителей NVIDIA H100, то есть составит порядка 180 Тфлопс. А в FP8-вычислениях производительность будет выше, чем у H100, сразу в шесть раз — 24 Пфлопс! При этом новинки, со слов Tachyum, будут энергоэффективнее всех этих чипов. Для Prodigy заявлена поддержка форматов FP64, FP32, TF32, BF16, INT8, FP8 и некоего TAI, а также работа с т.н. разреженными (sparsed) вычислениями, которые важны для ИИ-нагрузок. Правда, пока что анонс можно назвать «бумажным», поскольку детальные характеристики чипов компания не предоставила, ограничившись лишь рассказами о том, как они хороши. Тем не менее, о прогрессе разработки Tachyum докладывает регулярно. На текущий момент компания предлагает разработчикам аппаратный эмулятор на базе FPGA — всего 8 ядер Prodigy, но с возможностью масштабирования до 64 ядер. Этот эмулятор компания сама использует для отладки ПО. Она уже адаптировала ядро Linux и базовое окружение, UEFI, KVM/QEMU, GCC, а также успешно сделала порт FreeBSD для своей архитектуры.
01.09.2021 [20:25], Алексей Степин
На прототипе уникального серверного процессора Tachyum Prodigy успешно запущен LinuxКомпания Tachyum, нацелившаяся ни много ни мало на соперничество с AMD, Ampere и Intel в сегменте серверных процессоров, добилась очевидного прогресса в разработке проекта Prodigy. Пока этот процессор существует лишь в виде реализации на ПЛИС, но даже в такой виде он уже способен запустить Linux. Проект Prodigy выглядит, напомним, весьма амбициозно: речь идёт о создании полноценного «большого» процессора для ЦОД и серверов, причём процессора 128-ядерного. Разработка продвигается небыстро, поскольку речь идёт о чрезвычайно сложном CPU. Лишь два месяца назад компания отчиталась о поставке I/O-плат для аппаратных эмуляторов Prodigy, однако сейчас достигнута серьёзная веха. ![]() Системная плата комплекса эмуляции Tachyum Prodigy Следует отметить, что речи пока не идёт о «настоящем» кремнии Prodigy, а лишь об FPGA-реализации этой архитектуры. Такой аппаратный эмулятор Tachyum протестировала ещё в начале прошлого года. Системная плата эмулятора несёт четыре мощных программируемых матрицы, способных имитировать работу восьми ядер Prodigy. Она дополнена платами ввода/вывода, а вся система предназначается для установки в стандартную 19" стойку. ![]() Основные возможности нового процессора Даже наличие ПЛИС-прототипа не гарантирует успешную работу на нём высокоуровневого кода, ведь в ранних реализациях архитектуры неизбежных ошибки и недоработки. Надо сказать, что загрузчик UEFI для Prodigy существовал и ранее, и вместе с его анонсом была объявлена поддержка со стороны ядра Linux, но лишь к сегодняшнему дню комплексы эмуляции Tachyum Prodigу, можно сказать, достигли нужной степени зрелости. ![]() Архитектура Prodigy изначально разрабатывается, как универсальная Тестовая система смогла успешно загрузить Linux и простую пользовательскую программу, после чего выполнить отключение. По сути, перед нами доказательство того, что базовые функции Prodigy работают стабильно: процессор отрабатывает прерывания и исключения, переключает режимы и имеет корректные тайминги. А значит, Tachyum и её партнёры, наконец-то, могут перейти к разработке системного и, в меньшей степени, пользовательского ПО для новой платформы. Сам процессор Prodigy сможет работать не только с «родным» кодом, но и запускать код для x86, ARM и RISC-V, что облегчит выход на рынок. Разработчики утверждают, что их детище сможет обеспечить рекордное соотношение цены к производительности, будучи на порядок более экономичным, нежели традиционные серверные процессоры. В настоящее время тестовая система уже доступна заказчикам. Появление первых референсных системных плат с настоящими процессорами Prodigy намечено на первый квартал 2022 года.
23.07.2021 [14:00], Владимир Мироненко
Tachyum утроила капитализацию и готовится к выпуску 128-ядерных процессоров ProdigyСловацкая компания Tachyum, разработчик универсальных процессоров для ЦОД, призванных стать конкурентами чипам Intel, объявила о завершении раунда финансирования серии B, который возглавил частный инвестор IPM Group в сотрудничестве с Across Private Investments. В результате раунда рыночная стоимость Tachyum долларах США выросла в три раза. Правда, точные суммы компания не указала. Собранные средства будут использованы для завершения проекта по созданию 128-ядерных процессоров Prodigy, поскольку компания переходит от успешной демонстрации прототипа на основе FPGA к финальной стадии разработки Tape-out, а затем к производству чипов. В дальнейшем Tachyum планирует провести раунд финансирования серии C, который позволит получить капитал, необходимый для достижения прибыльности. ![]() Сообщается, что чип Prodigy предложит высочайшую скорость вычислений и широкие возможности энергосбережения для гиперскейлеров, телеком-индустрии, частных и публичных облаков. Снижение энергопотребления процессорных ядер Prodigy по сравнению с текущим поколением Intel Xeon в 10 раз резко сократит выбросы углерода дата-центрами, при этом Prodigy втрое дешевле по сравнению с теми же чипами (при аналогичной производительности). Tachyum также является одним из основателей компании I4DI (Innovations for Digital Infrastructure), которая построит в Словакии самый быстрый в мире ИИ-суперкомпьютер на базе Prodigy.
24.03.2021 [13:14], Сергей Карасёв
Tachyum готовится к началу поставок эмулятора для процессора ProdigyСловацкая компания Tachyum, разработчик семейства процессоров Prodigy, сообщает о подготовке специального аппаратного эмулятора, позволяющего оценить возможности прототипов готовящихся чипов. Об изделиях Prodigy мы уже рассказывали. Компания проектирует чипы, которые объединят до 128 ядер. Процессоры, как ожидается, будут использоваться в крупных центрах обработки данных, высокопроизводительных платформах искусственного интеллекта и пр. ![]() Итак, сообщается, что Tachyum завершает внутреннее тестирование аппаратного эмулятора Prodigy, который позволит заинтересованным сторонам произвести замеры производительности и приступить к разработке программного обеспечения. Эмулятор построен на основе перепрограммируемых вентильных матриц (FPGA), а также плат ввода/вывода. Такое решение рассчитано на установку в стойку. ![]() Отмечается, что эмулятор с четырьмя модулями FPGA имитирует работу восьми вычислительных ядер процессора Prodigy. Соединяя такие изделия при помощи кабелей, можно воспроизводить работу Prodigy в той или иной конфигурации. В скором времени аппаратные эмуляторы станут доступны первым заказчикам. Собственно процессоры Prodigy компания Tachyum ранее обещала выпустить в течение нынешнего года.
21.12.2020 [18:41], Алексей Степин
128-ядерные супепроцессоры Tachyum Prodigy стали на шаг ближе к реальностиЛетом уходящего года компания Tachyum объявила о том, что собирается отправить Xeon «на свалку истории». Сделать это должен 128-ядерный процессор нового поколения Prodigy. Хотя массово он пока не производится, компания продолжает активно работать над проектом и совсем недавно объявила начало предзаказов на эмуляторы нового процессора, как программные, так и базирующиеся на ПЛИС. Также она продемонстрировала рабочий UEFI для будущих CPU. ![]() Молодая словацкая компания замахнулась на многое. Её процессор должен получить до 128 ядер, работающих на частоте до 4 ГГц. Чтобы «накормить» его данными, предусмотрен 12-канальный контроллер памяти DDR5. С периферией Prodigy будет общаться посредством 48 линий PCIe 5.0, но также получит и два контроллера Ethernet класса 400G. Характеристики весьма впечатляют. ![]() Разработчики заявляют, что Prodigy найдёт своё место в системах класса Big Data и мощных системах машинного обучения. Если верить Tachyum, производительность разрабатываемого процессора должна достигнуть 16 и 8 Тфлопс на классичесих вычислениях FP32/FP64. В режиме машинного обучения и инференса возможности новой архитектуры выглядят ещё внушительнее, поскольку речь идёт о цифре 262 Тфлопс. ![]() Столь громкие анонсы в истории вычислительной техники часто заканчивались «на бумаге», но Tachyum действительно работает над реализацией Prodigy. Как это обычно бывает, новая процессорная архитектура отрабатывается разработчиками с помощью эмуляции — как чисто программной, так и базирующейся на мощных ПЛИС. Это позволяет понять возможности и особенности поведения архитектуры, пусть и работающей с меньшей производительностью. ![]() В начале декабря Tachyum объявила об открытии предзаказов на ПЛИС-эмулятор Prodigy, позволяющий начать разработку программного обеспечения для будущих систем на базе нового процессора уже сейчас. Поставки должны начаться в первом квартале 2021 года. В середине месяца Tachyum анонсировала и возможность заказа программного эмулятора Prodigy. Главная ценность такого эмулятора — более низкая стоимость в сравнении с вариантом на базе ПЛИС. Любой процессор неработоспособен без сопутствующего системного программного обеспечения — BIOS или, что сейчас встречается намного чаще, UEFI. В начале месяца Tachyum объявила о том, что передаст OEM и ODM-партнёрам UEFI, разработанное для новой архитектуры. При этом ПО будет поставляться не только в бинарном виде, разработчики получат и исходные коды. ![]() К настоящему времени, таким образом, компания предлагает программные и ПЛИС-эмуляторы нового процессора, и сопутствующее программное обеспечение. К чести Tachym, разработан не только UEFI — имеется и ядро Linux с поддержкой новой архитектуры, набор средств разработки, включая компиляторы (в том числе, для ИИ-задач) и отладчики кода. Успешно продемонстрирована возможность работы на Prodigy бинарного кода, созданного для архитектур x86, ARM и RISC-V. Первые чипы Prodigy должны появиться уже в следующем году. Если запуск будет успешным, Tachym может сильно изменить привычную картину мира в сфере HPC и ИИ, ведь новая архитектура обещает быть производительнее классических Xeon и EPYC при на порядок более низком энергопотреблении, втрое более низкой стоимостью в пересчёте на MIPS, и вчетверо более низкой стоимостью владения. Более того, Prodigy угрожает даже ускорителям, обеспечивая сравнимый или более высокий уровень производительности в задачах, где последние традиционно сильны, например, в системах машинного обучения. Остаётся лишь пожелать Tachyum удачи в столь смелом начинании.
25.06.2020 [21:10], Алексей Степин
ISC 2020: Tachyum анонсировала 128-ядерные ИИ-процессоры Prodigy и будущий суперкомпьютер на их основеМашинное обучение в последние годы развивается и внедряется очень активно. Разработчики аппаратного обеспечения внедряют в свои новейшие решения поддержку оптимальных для ИИ-систем форматов вычислений, под этот круг задач создаются специализированные ускорители и сопроцессоры. Словацкая компания Tachyum достаточно молода, но уже пообещала выпустить процессор, который «отправит Xeon на свалку истории». О том, что эти чипы станут основой для суперкомпьютеров нового поколения, мы уже рассказывали читателям, а на конференции ISC High Performance 2020 Tachyum анонсировала и сами процессоры Prodigy, и ИИ-комплекс на их основе. Запуск готовых сценариев машинного интеллекта достаточно несложная задача, с ней справляются даже компактные специализированные чипы. Но обучение таких систем требует куда более внушительных ресурсов. Такие ресурсы Tachyum может предоставить: на базе разработанных ею процессоров Prodigy она создала дизайн суперкомпьютера с мощностью 125 Пфлопс на стойку и 4 экзафлопса на полный комплекс, состоящий из 32 стоек высотой 52U. Основой для новой машины является сервер-модуль собственной разработки Tachyum, системная плата которого оснащается четырьмя чипами Prodigy. Каждый процессор, по словам разработчиков, развивает до 625 Тфлопс, что дает 2,5 Пфлопс на сервер. Компания обещает для новых систем трёхкратный выигрыш по параметру «цена/производительность» и четырёхкратный — по стоимости владения. При этом энергопотребление должно быть на порядок меньше, нежели у традиционных систем такого класса. Архитектура Prodigy представляет существенный интерес: это не узкоспециализированный чип, вроде разработок NVIDIA, а универсальный процессор, сочетающий в себе черты ЦП, ГП и ускорителя ИИ-операций. Структура кристалла построена вокруг концепции «минимального перемещения данных». При разработке Tachyum компания принимала во внимание задержки, вносимые расстоянием между компонентами процессора, и минимизировала их. Процессор Prodigy может выполнять за такт две 512-битные операции типа multiply-add, 2 операции load и одну операцию store. Соответственно то, что каждое ядро Prodigy имеет восемь 64-бит векторных блока, похожих на те, что реализованы в расширениях Intel AVX-512 IFMA (Integer Fused Multiply Add, появилось в Cannon Lake). Блок вычислений с плавающей точкой поддерживает двойную, одинарную и половинную точность по стандартам IEEE. Для ИИ-задач имеется также поддержка 8-битных типов данных с плавающей запятой. Векторные и матричные операции — сильная сторона Prodigy. На перемножении-сложении матриц размерностью 8 × 8 ядро развивает 1024 Флопс, используя 6 входных и 2 целевых регистра (в сумме есть тридцать два 512-бит регистра). Это не предел, разработчик говорит о возможности увеличения скорости выполнения этой операции вдвое. Tachyum обещает, что система на базе Prodigy станет первым в мире ИИ-кластером, способным запустить машинный интеллект, соответствующий человеческому мозгу. С учётом заявлений о 10-кратной экономии электроэнергии и 1/3 стоимости от стоимости Xeon, это заявление звучит очень сильно. Но Prodigу — не бумажный продукт-однодневка. Tachyum разработала не только сам процессор, но и всю необходимую ему сопутствующую инфраструктуру, включая и компилятор, в котором реализованы оптимизации в рамках «минимального перемещения данных». Новинка разрабона с использованием 7-нм техпроцесса, максимальное количество ядер с вышеописанной архитектурой — 64. Помимо самих ядер, кристалл T864 содержит восьмиканальный контроллер DDR5, контроллер PCI Express 5.0 на 64 (а не 72, как ожидалось ранее) линии и два сетевых интерфейса 400GbE. При тактовой частоте 4 ГГц Prodigy развивает 8 Тфлопс на стандартных вычислениях FP32, 1 Пфлоп на задачах обучения ИИ и 4 Петаопа в инференс-задачах. Самая старшая версия, Tachyum Prodigy T16128, предлагает уже 128 ядер с частотой до 4 ГГц, 12 каналов памяти DDR5-4800 (но только 1DPC и до 512 Гбайт суммарно), 48 линий PCI Express 5.0 и два контроллера 400GbE. Производительность в HPC-задачах составит 16 Тфлопс, а в ИИ — 262 Тфлопс на обучении и тренировке. Системные платы для Prodigy представлены, как минимум, в двух вариантах: полноразмерные четырёхпроцессорные для сегмента HPC и компактные однопроцессорные для модульных систем высокой плотности. Полноразмерный вариант имеет 64 слота DIMM и поддерживает модули DDR5 объёмом до 512 Гбайт, что даёт 32 Тбайт памяти на вычислительный узел. Сам узел полностью совместим со стандартами 19″ и Open Compute V3, он может иметь высоту 1U или 2U и поддерживает питание напряжением 48 Вольт. Плата имеет собственный BIOS UEFI, но для удалённого управления в ней реализован открытый стандарт OpenBMC. Tachyum исповедует концепцию универсальности, но всё-таки узлы для HPC-систем на базе Prodigy могут быть нескольких типов — универсальные вычислительные, узлы хранения данных, а также узлы управления. В качестве «дисковой подсистемы» разработчики выбрали SSD-накопители в формате NF1, подобные представленному ещё в 2018 году накопителю Samsung. Таких накопителей в корпусе системы может быть от одного до 36; поскольку NF1 существенно крупнее M.2, поддерживаются модели объёмом до 32 Тбайт, что даёт почти 1,2 Пбайт на узел. Стойка с модулями Prodigy будет вмещать до 50 модулей высотой 1U или до 25 высотой 2U. Согласно идее о минимизации дистанций при перемещении данных, сетевой коммутатор на 128 или 256 портов 100GbE устанавливается в середине стойки. Такая конфигурация работает в системе с числом стоек до 16, более масштабные комплексы предполагается соединять между собой посредством коммутатора высотой 2U c 64 портами QSFP-DD, причём поддержка скорости 800 Гбит/с появится уже в 2022 году. 512 стоек могут объединяться посредством высокопроизводительного коммутатора CLOS, он имеет высоту 21U и также получит поддержку 800 Гбит/с в дальнейшем. Компания активно поддерживает открытые стандарты: применён загрузчик Core-Boot, разработаны драйверы устройств для Linux, компиляторы и отладчики GCC, поддерживаются открытые приложения, такие, как LAMP, Hadoop, Sparc, различные базы данных. В первом квартале 2021 года ожидается поддержка Java, Python, TensorFlow, PyTorch, LLVM и даже операционной системы FreeBSD. Любопытно, что существующее программное обеспечение на системах Tachyum Prodigy может быть запущено сразу в виде бинарных файлов x86, ARMv8 или RISC-V — разумеется, с пенальти. Производительность ожидается в пределах 60 ‒ 75% от «родной архитектуры», для достижения 100% эффективности всё же потребуется рекомпиляция. Но в рамках контрактной поддержки компания обещает помощь в этом деле для своих партнёров. Разумеется, пока речи о полномасштабном производстве новых систем не идёт. Эталонные платформы Tachyum обещает во второй половине следующего года. Как обычно, сначала инженерные образцы получают OEM/ODM-партнёры компании и системные интеграторы, а массовые поставки должны начаться в 4 квартале 2021 года. Однако ПЛИС-эмуляторы Prodigy появятся уже в октябре этого года, инструментарий разработки ПО — и вовсе в августе. Планы у Tachyum поистине наполеоновские, но её разработки интересны и содержат целый ряд любопытных идей. В чём-то новые процессоры можно сравнить с Fujitsu A64FX, которые также позволяют создавать гомогенные и универсальные вычислительные комплексы. Насколько удачной окажется новая платформа, говорить пока рано. |
|