Материалы по тегу: prodigy

04.10.2023 [19:19], Алексей Степин

8 Зфлопс и сотни Пбайт DRAM для ИИ: Tachyum пообещала построить невиданный суперкомпьютер на чипах Prodigy, которых пока никто не видел

Компания Tachyum, разработавшая, по её утверждению, новый тип универсальных процессоров, сочетающих в себе свойства CPU, GPU и TPU заявила о первом крупном заказе на поставку этих чипов, известных под именем Prodigy. Процессоры будут использованы для создания HPC/ИИ-системы производительностью более 50 Эфлопс (точность не указана), а в ИИ-задачах и вовсе обещаны 8 Зфлопс.

Благодаря характеристикам Prodigy, новая система в 25 раз превзойдёт быстрейшие современные суперкомпьютеры, вошедшие в строй в этом году, а в области ИИ сможет использовать модели, превосходящие ChatGPT4 по сложности в 25 тыс. раз. Столь серьёзный прирост производительности, по словам разработчиков, обещает прорывы во многих научных и технических отраслях. Детали контракта, к сожалению, не разглашаются. Известно лишь, что компания-заказчик располагается в США.

 Источник изображений здесь и далее: Tachyum

Источник изображений здесь и далее: Tachyum

Как сказано в официальном пресс-релизе Tachyum, человеческий мозг состоит из примерно 100 млрд нейронов и 200 триллионов синаптических связей межу ними. Если принять одно такое соединение за несколько байт, полная имитация мозга потребует 100 Тбайт памяти. Компания говорит о системе с сотнями петабайт DRAM, что заведомо превзойдёт возможности мозга.

Начало работ над новым суперкомпьютером запланировано на 2024 год, в строй машина должна войти уже в 2025 году. Вот некоторые из её технических характеристик:

  • 8 Зфлопс при обучении больших языковых моделей (LLM);
  • 16 Зфлопс при обработке видео и изображений;
  • Возможность вместить более 100 тыс. моделей PALM2 (530 млрд параметров) или 25 тыс. моделей ChatGPT4 (1,7 трлн параметров);
  • Модернизируемая подсистема памяти объёмом сотни петабайт и флеш-хранилище объёмом порядка экзабайт;
  • Четырёхпроцессорные узлы с водяным охлаждением и 400G-интерконнектом (RoCE) и возможностью модернизации до 800G.

В программной части предполагается использование нового типа данных Tachyum AI (TAI), обещающего выдающуюся эффективность именно в обработке видео и LLM. А универсальная природа процессора Prodigy должна сделать ЦОД на его основе более простым и требующим меньше разнообразного оборудования, что должно положительно сказаться как на стоимости постройки, так и на эксплуатационных расходах.

Напомним, что не так давно Tachyum объявила об изменении характеристик Prodigy: количество ядер было увеличено со 128 до 192, объём кеша вырос соответственно со 128 до 192 Мбайт. Были расширены также коммуникационные средства чипа: число трансиверов SerDes подросло с 64 до 96. Площадь кристалла при использовании 5-нм техпроцесса должна составить 600 мм2.

Однако есть одно существенное «но»: несмотря на внушительные цифры производительности и заявления Tachyum, процессоры Prodigy существуют только на бумаге и в виде эмулируемой с помощью FPGA платформы с небольшим количеством ядер. Похоже, с их воплощением в кремний имеются проблемы. Остаётся надеяться, что они будут успешно решаться: демонстрация первых образцов Prodigy всё ещё запланирована на 2023 год.

Постоянный URL: http://servernews.ru/1094007
17.08.2023 [15:33], Сергей Карасёв

Tachyum увеличила количество ядер невыпущенного супепроцессора Prodigy в полтора раза — до 192 шт.

Словацкая компания Tachyum, разработчик семейства процессоров Prodigy, объявила о том, что ей удалось увеличить расчётное количество ядер своего изделия на 50 % — со 128 до 192 шт. Это стало возможным благодаря применению новых средств автоматизированного проектирования (EDA).

О разработке чипов Prodigy стало известно ещё в 2020 году. Эти суперпроцессоры, по словам создателей, объединяют возможности CPU, GPU и TPU. Они предназначены для решения ресурсоёмких задач в сфере облачных и высокопроизводительных вычислений (HPC), ИИ-систем, машинного обучения и пр.

 Источник изображения: Tachyum

Источник изображения: Tachyum

Помимо 50-% увеличения числа ядер, на столько же выросло количество блоков SerDes — с 64 до 96. При этом площадь кристалла показала относительно небольшую прибавку: она теперь составляет 600 мм2 вместо прежних 500 мм2. Теоретически возможно добавление дополнительных ядер с попутным увеличением площади ло 858 мм2, но в этом случае возникнут ограничения в пропускной способности памяти.

Чип уже использует 16-канальный интерфейс DDR5-7200 и поддерживает работу с 32 модулями DIMM. В новой версии реализована поддержка DDR5-6400, а размер кеша L2/L3 увеличен со 128 до 192 Мбайт. Однако, несмотря на все улучшения, Prodigy пока существует только на бумаге. Компания говорит лишь, что демонстрация первых процессоров по-прежнему запланирована на 2023 год.

Постоянный URL: http://servernews.ru/1091629
04.08.2022 [15:54], Владимир Мироненко

Разработчик серверных чипов Prodigy с невероятными характеристиками обвинил в своих бедах Cadence

Как сообщает The Register, cтартап Tachyum подал в суд на Cadence Design Systems, обвинив компанию в саботаже при выполнении контракта на поставку IP-блоков для будущих 5-нм серверных процессоров Prodigy. По словам Tachyum, старшие 128-ядерные CPU Prodigy с частотой 5,7 ГГц будут втрое быстрее AMD EPYC 7763 и NVIDIA H100.

В иске утверждается, что заключённая в 2019 году сделка на предоставление решений Cadence для процессоров Prodigy, была сорвана, поскольку Cadence не смогла предоставить необходимые технологии для вывода продукта на рынок. Заказанные Tachyum блоки не относятся к разряду новшеств, и инженеры Cadence уверяли Tachyum, что стандартные компоненты могли быть без труда интегрированы в процессор. Однако график поставок был нарушен, и дошло даже до того, что Cadence посоветовала Tachyum не использовать её компоненты или вообще приобрести аналоги у других поставщиков.

 Источник изображения: Tachyum

Источник изображения: Tachyum

Стартап добавил в иске, что Cadence усугубила ущерб, прекратив доступ Tachyum к ПО eDAcard, тем самым вынудив понести расходы на лицензирование другого ПО и переобучение своих инженеров. Срыв сроков и прочие препятствия привели к задержке выхода Prodigy примерно на два года. Tachyum потребовал возместить упущенную выгоду в размере $206 млн и ещё $27 млн дополнительных затрат на поиск альтернативных решений в сжатые сроки.

 Источник изображения: Tachyum

Источник изображения: Tachyum

Tachyum также указала, что из-за срыва сроков она потеряла возможность получения заказов на поставку чипов для испанского суперкомпьютера MareNostrum 5 стоимостью €151,41 млн. В итоге Барселонский суперкомпьютерный центр (BSC), с которым был подписан меморандум о взаимопонимании, предпочёл компанию Atos. Последняя выбрала ускорители NVIDIA и процессоры Intel, поскольку ни одна европейская компания не могла бы поставить чипы, отвечающие ключевым критериям отбора.

В иске Tachyum отмечает, что тогдашний генеральный директор Cadence Лип-Бу Тан (Lip-Bu Tan) входил в совет директоров двух конкурентов Tachyum — SambaNova и Nuvia (поглощена Qualcomm) — и активно участвовал в фондах Walden International и Walden Catalyst, которые инвестировали в другие «кремниевые» стартапы. Ещё один член совета директоров Cadence, Янг Сон (Young Sohn), также является директором одного из этих инвестфондов. По мнению Tachyum, налицо явный конфликт интересов.

Постоянный URL: http://servernews.ru/1071558
14.06.2022 [00:00], Алексей Степин

Tachyum о процессоре Prodigy: 128 VLIW-ядер с частотой 5,7 ГГц будут потреблять 950 Вт

В виде платформы прототипирования на базе FPGA процессор Tachyum Prodigy существует и успешно запускает Linux, но четыре мощных ПЛИС симулируют лишь 8 ядер, тогда как Tachyum говорит о максимальной конфигурации реальных процессоров, содержащей 128 ядер и 16 каналов DDR5 с предельной ПСП на уровне 921,6 Гбайт/с и объёмом 8 Тбайт на процессор. Но даже нацеленность на использование продвинутого техпроцесса TSMC N5P не решает одной важной проблемы, свойственной всем процессорам типа VLIW.

Для достижения действительно высокой производительности им обычно нужна либо тщательнейшая оптимизация кода во время компиляции, либо высокая тактовая частота, которая позволит компенсировать простои исполнительного конвейера. Tachyum как минимум отчасти полагается на второй, экстенсивный путь и говорит о частоте 5,7 ГГц — это очень много даже по меркам новейших процессоров на базе архитектур x86 и Arm.

 Система симуляции кремния Tachuym Prodigy. Слева расположена плата с FPGA. Источник: Tachyum

Система симуляции кремния Tachuym Prodigy. Слева расположена плата с FPGA. Источник: Tachyum

И если модель начального уровня Prodigy T832-LP, располагая всего 32 ядрами и работая на частоте 3,2 ГГц, будет обладать теплопакетом 180 Вт, то аналогичный процессор, разогнанный до 5,7 ГГц, добирается до 300 Вт, а флагманский T16128-AIX — и вовсе до 950 Вт! И всё это несмотря на использование 5-нм технологических норм. Иными словами, потребуется серьезнейшая система охлаждения, особенно для двух- и четырёхпроцессорных серверов на базе Prodigy.

Немецкий ресурс Golem.de опубликовал цифры производительности новинок: вышеупомянутый 128-ядерный чип должен развивать до 90 Тфлопс в классическом режиме FP64 и 12 Пфлопс/Попс в сценариях инференса и обучения нейросетей. Для сравнения, AMD Instinct MI250X развивает 95,7 Тфлопс в FP64-вычислениях при мощности в районе 560 Вт, а 700-Вт SXM-версия NVIDIA H100 предложит до 60 Тфлопс в FP64-расчётах на Tensor-ядрах и 2–4 Пфлопс/Попс на вычислениях смешанной точности в зависимости от формата данных.

 Будущий модельный ряд процессоров Tachyum Prodigy. Источник: Golem.de

Будущий модельный ряд процессоров Tachyum Prodigy. Источник: Golem.de

Иными словами, как и было сказано, VLIW не отличается высокой энергоэффективностью, но у Prodigy есть одно качество, которого нет ни у Instinct, ни у Hopper — он может работать, как процессор общего назначения, выполняя любой код. Как и было рассказано ранее, каждое ядро будет содержать два 1024-битных блока векторных вычислений и 4096-битный блок матричных вычислений, а также по 64 Кбайт L1d- и L1i-кеша, 1 Мбайт L2-кеша и виртуальный L3-кеш, формируемый из L2-кешей простаивающих соседних ядер.

Архитектура Tachyum как таковая не предусматривает внеочередного исполнения, но оптимизация на уровне компилятора допускает до 4 внеочередных инструкций (4-way out-of-order issues). А благодаря ряду оптимизаций Prodigy должен продемонстрировать высочайшую степень параллелизма. Лучше всего архитектура должна показать себя с «родным» кодом, но сможет исполнять и код x86, Arm и RISC-V, правда, на текущий момент ценой потери производительности на уровне 30–40% в случае бинарной трансляции в Qemu.

 Спецификации Prodigy T16128. Источник: Tachyum

Спецификации Prodigy T16128. Источник: Tachyum

Поставка первых реальных процессоров Prodigy первого поколения намечена на конец этого или начало следующего года. Если всё пойдёт по плану, первые пробные кристаллы Prodigy будут выпущены в августе. Их площадь может не превысить 500 мм2. Полноценные образцы должны появиться в декабре, и если их работоспособность подтвердится тестированием, массовое производство может начаться уже в первой половине 2023 года.

До появления реальных чипов сложно сказать, сможет ли новинка избежать судьбы Transmeta Crusoe и Intel Itanium. Пока что сколько-то массовые серверные VLIW-процессоры по большому счёту представлены на рынке только российскими «Эльбрусами», новое поколение которых должно было выйти в этом году. В планах Tachyum уже фигурирует Prodigy 2, который будет разработан с использованием процесса TSMC N3, станет вдвое производительнее при прежнем потреблении, а также получит поддержку PCI Express 6.0.

Постоянный URL: http://servernews.ru/1067939
Система Orphus