Материалы по тегу: tachyum
21.12.2024 [14:00], Сергей Карасёв
Для невыпущенного суперчипа Tachyum Prodigy выпустили 1600-страничное руководство по оптимизации производительностиСловацкая компания Tachyum, разрабатывающая процессоры Prodigy с уникальной архитектурой, объявила о выпуске руководства по оптимизации производительности этих чипов. Точнее, для FPGA-эмулятора Prodigy, поскольку самих чипов всё ещё нет. Огромный документ на 1600 страниц содержит подробную информацию о том, как в полной мере воспользоваться потенциалом новинки. Первая информация о разработке Prodigy появилась в 2019–2020 гг. Эти суперпроцессоры, как утверждается, объединяют возможности CPU, GPU и TPU. Они предназначены для решения различных ресурсоёмких задач, связанных в том числе с ИИ и машинным обучением. Сроки выпуска Prodigy несколько раз пересматривались: сначала выход чипов был перенесён с 2021-го на 2022 год, затем — на 2023 год, а впоследствии — на 2024-й. В соответствии с текущими планами Tachyum намерена начать отгрузку образов чипов в 2025 году. Подготовленное руководство для изделий Prodigy, как заявляет компания, содержит рекомендации по созданию высокопроизводительного ПО для этой платформы. Документ описывает конкретные методы оптимизации, включая управление ограничениями диспетчеризации, улучшение процедур работы памяти и пр. Кроме того, описаны способы обработки операций кеширования и доступа к специальным регистрам для тонкой настройки с целью достижения максимальной производительности. В руководстве рассматриваются особенности чипов. Архитектура набора инструкций Prodigy (ISA) представляет собой смесь RISC и CISC, но не включает какие-либо сложные и/или длинные и неэффективные инструкции переменной длины. Все инструкции имеют ширину 32 или 64 бит, а некоторые из них содержат функции доступа к памяти для дальнейшего повышения производительности. Изделия Prodigy объединяют до 192 ядер с тактовой частотой до 5 ГГц и выше. Реализованы 16 каналов памяти DDR5-7200 с возможностью использования до 32 Тбайт ОЗУ в расчёте на процессорный разъём. Поддерживаются 96 линий PCIe 5.0. Планируемая технология производства — 5 нм. В конце 2023 года Tachyum получила заказ на поставку чипов Prodigy для создания суперкомпьютера с ИИ-производительностью до 8 Зфлопс.
04.10.2023 [19:19], Алексей Степин
8 Зфлопс и сотни Пбайт DRAM для ИИ: Tachyum пообещала построить невиданный суперкомпьютер на чипах Prodigy, которых пока никто не виделКомпания Tachyum, разработавшая, по её утверждению, новый тип универсальных процессоров, сочетающих в себе свойства CPU, GPU и TPU заявила о первом крупном заказе на поставку этих чипов, известных под именем Prodigy. Процессоры будут использованы для создания HPC/ИИ-системы производительностью более 50 Эфлопс (точность не указана), а в ИИ-задачах и вовсе обещаны 8 Зфлопс. Благодаря характеристикам Prodigy, новая система в 25 раз превзойдёт быстрейшие современные суперкомпьютеры, вошедшие в строй в этом году, а в области ИИ сможет использовать модели, превосходящие ChatGPT4 по сложности в 25 тыс. раз. Столь серьёзный прирост производительности, по словам разработчиков, обещает прорывы во многих научных и технических отраслях. Детали контракта, к сожалению, не разглашаются. Известно лишь, что компания-заказчик располагается в США. Как сказано в официальном пресс-релизе Tachyum, человеческий мозг состоит из примерно 100 млрд нейронов и 200 триллионов синаптических связей межу ними. Если принять одно такое соединение за несколько байт, полная имитация мозга потребует 100 Тбайт памяти. Компания говорит о системе с сотнями петабайт DRAM, что заведомо превзойдёт возможности мозга. Начало работ над новым суперкомпьютером запланировано на 2024 год, в строй машина должна войти уже в 2025 году. Вот некоторые из её технических характеристик:
В программной части предполагается использование нового типа данных Tachyum AI (TAI), обещающего выдающуюся эффективность именно в обработке видео и LLM. А универсальная природа процессора Prodigy должна сделать ЦОД на его основе более простым и требующим меньше разнообразного оборудования, что должно положительно сказаться как на стоимости постройки, так и на эксплуатационных расходах. Напомним, что не так давно Tachyum объявила об изменении характеристик Prodigy: количество ядер было увеличено со 128 до 192, объём кеша вырос соответственно со 128 до 192 Мбайт. Были расширены также коммуникационные средства чипа: число трансиверов SerDes подросло с 64 до 96. Площадь кристалла при использовании 5-нм техпроцесса должна составить 600 мм2. Однако есть одно существенное «но»: несмотря на внушительные цифры производительности и заявления Tachyum, процессоры Prodigy существуют только на бумаге и в виде эмулируемой с помощью FPGA платформы с небольшим количеством ядер. Похоже, с их воплощением в кремний имеются проблемы. Остаётся надеяться, что они будут успешно решаться: демонстрация первых образцов Prodigy всё ещё запланирована на 2023 год.
17.08.2023 [15:33], Сергей Карасёв
Tachyum увеличила количество ядер невыпущенного супепроцессора Prodigy в полтора раза — до 192 шт.Словацкая компания Tachyum, разработчик семейства процессоров Prodigy, объявила о том, что ей удалось увеличить расчётное количество ядер своего изделия на 50 % — со 128 до 192 шт. Это стало возможным благодаря применению новых средств автоматизированного проектирования (EDA). О разработке чипов Prodigy стало известно ещё в 2020 году. Эти суперпроцессоры, по словам создателей, объединяют возможности CPU, GPU и TPU. Они предназначены для решения ресурсоёмких задач в сфере облачных и высокопроизводительных вычислений (HPC), ИИ-систем, машинного обучения и пр. Помимо 50-% увеличения числа ядер, на столько же выросло количество блоков SerDes — с 64 до 96. При этом площадь кристалла показала относительно небольшую прибавку: она теперь составляет 600 мм2 вместо прежних 500 мм2. Теоретически возможно добавление дополнительных ядер с попутным увеличением площади ло 858 мм2, но в этом случае возникнут ограничения в пропускной способности памяти. Чип уже использует 16-канальный интерфейс DDR5-7200 и поддерживает работу с 32 модулями DIMM. В новой версии реализована поддержка DDR5-6400, а размер кеша L2/L3 увеличен со 128 до 192 Мбайт. Однако, несмотря на все улучшения, Prodigy пока существует только на бумаге. Компания говорит лишь, что демонстрация первых процессоров по-прежнему запланирована на 2023 год.
04.08.2022 [15:54], Владимир Мироненко
Разработчик серверных чипов Prodigy с невероятными характеристиками обвинил в своих бедах CadenceКак сообщает The Register, cтартап Tachyum подал в суд на Cadence Design Systems, обвинив компанию в саботаже при выполнении контракта на поставку IP-блоков для будущих 5-нм серверных процессоров Prodigy. По словам Tachyum, старшие 128-ядерные CPU Prodigy с частотой 5,7 ГГц будут втрое быстрее AMD EPYC 7763 и NVIDIA H100. В иске утверждается, что заключённая в 2019 году сделка на предоставление решений Cadence для процессоров Prodigy, была сорвана, поскольку Cadence не смогла предоставить необходимые технологии для вывода продукта на рынок. Заказанные Tachyum блоки не относятся к разряду новшеств, и инженеры Cadence уверяли Tachyum, что стандартные компоненты могли быть без труда интегрированы в процессор. Однако график поставок был нарушен, и дошло даже до того, что Cadence посоветовала Tachyum не использовать её компоненты или вообще приобрести аналоги у других поставщиков. Стартап добавил в иске, что Cadence усугубила ущерб, прекратив доступ Tachyum к ПО eDAcard, тем самым вынудив понести расходы на лицензирование другого ПО и переобучение своих инженеров. Срыв сроков и прочие препятствия привели к задержке выхода Prodigy примерно на два года. Tachyum потребовал возместить упущенную выгоду в размере $206 млн и ещё $27 млн дополнительных затрат на поиск альтернативных решений в сжатые сроки. Tachyum также указала, что из-за срыва сроков она потеряла возможность получения заказов на поставку чипов для испанского суперкомпьютера MareNostrum 5 стоимостью €151,41 млн. В итоге Барселонский суперкомпьютерный центр (BSC), с которым был подписан меморандум о взаимопонимании, предпочёл компанию Atos. Последняя выбрала ускорители NVIDIA и процессоры Intel, поскольку ни одна европейская компания не могла бы поставить чипы, отвечающие ключевым критериям отбора. В иске Tachyum отмечает, что тогдашний генеральный директор Cadence Лип-Бу Тан (Lip-Bu Tan) входил в совет директоров двух конкурентов Tachyum — SambaNova и Nuvia (поглощена Qualcomm) — и активно участвовал в фондах Walden International и Walden Catalyst, которые инвестировали в другие «кремниевые» стартапы. Ещё один член совета директоров Cadence, Янг Сон (Young Sohn), также является директором одного из этих инвестфондов. По мнению Tachyum, налицо явный конфликт интересов.
21.12.2020 [18:41], Алексей Степин
128-ядерные супепроцессоры Tachyum Prodigy стали на шаг ближе к реальностиЛетом уходящего года компания Tachyum объявила о том, что собирается отправить Xeon «на свалку истории». Сделать это должен 128-ядерный процессор нового поколения Prodigy. Хотя массово он пока не производится, компания продолжает активно работать над проектом и совсем недавно объявила начало предзаказов на эмуляторы нового процессора, как программные, так и базирующиеся на ПЛИС. Также она продемонстрировала рабочий UEFI для будущих CPU. Молодая словацкая компания замахнулась на многое. Её процессор должен получить до 128 ядер, работающих на частоте до 4 ГГц. Чтобы «накормить» его данными, предусмотрен 12-канальный контроллер памяти DDR5. С периферией Prodigy будет общаться посредством 48 линий PCIe 5.0, но также получит и два контроллера Ethernet класса 400G. Характеристики весьма впечатляют. Разработчики заявляют, что Prodigy найдёт своё место в системах класса Big Data и мощных системах машинного обучения. Если верить Tachyum, производительность разрабатываемого процессора должна достигнуть 16 и 8 Тфлопс на классичесих вычислениях FP32/FP64. В режиме машинного обучения и инференса возможности новой архитектуры выглядят ещё внушительнее, поскольку речь идёт о цифре 262 Тфлопс. Столь громкие анонсы в истории вычислительной техники часто заканчивались «на бумаге», но Tachyum действительно работает над реализацией Prodigy. Как это обычно бывает, новая процессорная архитектура отрабатывается разработчиками с помощью эмуляции — как чисто программной, так и базирующейся на мощных ПЛИС. Это позволяет понять возможности и особенности поведения архитектуры, пусть и работающей с меньшей производительностью. В начале декабря Tachyum объявила об открытии предзаказов на ПЛИС-эмулятор Prodigy, позволяющий начать разработку программного обеспечения для будущих систем на базе нового процессора уже сейчас. Поставки должны начаться в первом квартале 2021 года. В середине месяца Tachyum анонсировала и возможность заказа программного эмулятора Prodigy. Главная ценность такого эмулятора — более низкая стоимость в сравнении с вариантом на базе ПЛИС. Любой процессор неработоспособен без сопутствующего системного программного обеспечения — BIOS или, что сейчас встречается намного чаще, UEFI. В начале месяца Tachyum объявила о том, что передаст OEM и ODM-партнёрам UEFI, разработанное для новой архитектуры. При этом ПО будет поставляться не только в бинарном виде, разработчики получат и исходные коды. К настоящему времени, таким образом, компания предлагает программные и ПЛИС-эмуляторы нового процессора, и сопутствующее программное обеспечение. К чести Tachym, разработан не только UEFI — имеется и ядро Linux с поддержкой новой архитектуры, набор средств разработки, включая компиляторы (в том числе, для ИИ-задач) и отладчики кода. Успешно продемонстрирована возможность работы на Prodigy бинарного кода, созданного для архитектур x86, ARM и RISC-V. Первые чипы Prodigy должны появиться уже в следующем году. Если запуск будет успешным, Tachym может сильно изменить привычную картину мира в сфере HPC и ИИ, ведь новая архитектура обещает быть производительнее классических Xeon и EPYC при на порядок более низком энергопотреблении, втрое более низкой стоимостью в пересчёте на MIPS, и вчетверо более низкой стоимостью владения. Более того, Prodigy угрожает даже ускорителям, обеспечивая сравнимый или более высокий уровень производительности в задачах, где последние традиционно сильны, например, в системах машинного обучения. Остаётся лишь пожелать Tachyum удачи в столь смелом начинании.
25.06.2020 [21:10], Алексей Степин
ISC 2020: Tachyum анонсировала 128-ядерные ИИ-процессоры Prodigy и будущий суперкомпьютер на их основеМашинное обучение в последние годы развивается и внедряется очень активно. Разработчики аппаратного обеспечения внедряют в свои новейшие решения поддержку оптимальных для ИИ-систем форматов вычислений, под этот круг задач создаются специализированные ускорители и сопроцессоры. Словацкая компания Tachyum достаточно молода, но уже пообещала выпустить процессор, который «отправит Xeon на свалку истории». О том, что эти чипы станут основой для суперкомпьютеров нового поколения, мы уже рассказывали читателям, а на конференции ISC High Performance 2020 Tachyum анонсировала и сами процессоры Prodigy, и ИИ-комплекс на их основе. Запуск готовых сценариев машинного интеллекта достаточно несложная задача, с ней справляются даже компактные специализированные чипы. Но обучение таких систем требует куда более внушительных ресурсов. Такие ресурсы Tachyum может предоставить: на базе разработанных ею процессоров Prodigy она создала дизайн суперкомпьютера с мощностью 125 Пфлопс на стойку и 4 экзафлопса на полный комплекс, состоящий из 32 стоек высотой 52U. Основой для новой машины является сервер-модуль собственной разработки Tachyum, системная плата которого оснащается четырьмя чипами Prodigy. Каждый процессор, по словам разработчиков, развивает до 625 Тфлопс, что дает 2,5 Пфлопс на сервер. Компания обещает для новых систем трёхкратный выигрыш по параметру «цена/производительность» и четырёхкратный — по стоимости владения. При этом энергопотребление должно быть на порядок меньше, нежели у традиционных систем такого класса. Архитектура Prodigy представляет существенный интерес: это не узкоспециализированный чип, вроде разработок NVIDIA, а универсальный процессор, сочетающий в себе черты ЦП, ГП и ускорителя ИИ-операций. Структура кристалла построена вокруг концепции «минимального перемещения данных». При разработке Tachyum компания принимала во внимание задержки, вносимые расстоянием между компонентами процессора, и минимизировала их. Процессор Prodigy может выполнять за такт две 512-битные операции типа multiply-add, 2 операции load и одну операцию store. Соответственно то, что каждое ядро Prodigy имеет восемь 64-бит векторных блока, похожих на те, что реализованы в расширениях Intel AVX-512 IFMA (Integer Fused Multiply Add, появилось в Cannon Lake). Блок вычислений с плавающей точкой поддерживает двойную, одинарную и половинную точность по стандартам IEEE. Для ИИ-задач имеется также поддержка 8-битных типов данных с плавающей запятой. Векторные и матричные операции — сильная сторона Prodigy. На перемножении-сложении матриц размерностью 8 × 8 ядро развивает 1024 Флопс, используя 6 входных и 2 целевых регистра (в сумме есть тридцать два 512-бит регистра). Это не предел, разработчик говорит о возможности увеличения скорости выполнения этой операции вдвое. Tachyum обещает, что система на базе Prodigy станет первым в мире ИИ-кластером, способным запустить машинный интеллект, соответствующий человеческому мозгу. С учётом заявлений о 10-кратной экономии электроэнергии и 1/3 стоимости от стоимости Xeon, это заявление звучит очень сильно. Но Prodigу — не бумажный продукт-однодневка. Tachyum разработала не только сам процессор, но и всю необходимую ему сопутствующую инфраструктуру, включая и компилятор, в котором реализованы оптимизации в рамках «минимального перемещения данных». Новинка разрабона с использованием 7-нм техпроцесса, максимальное количество ядер с вышеописанной архитектурой — 64. Помимо самих ядер, кристалл T864 содержит восьмиканальный контроллер DDR5, контроллер PCI Express 5.0 на 64 (а не 72, как ожидалось ранее) линии и два сетевых интерфейса 400GbE. При тактовой частоте 4 ГГц Prodigy развивает 8 Тфлопс на стандартных вычислениях FP32, 1 Пфлоп на задачах обучения ИИ и 4 Петаопа в инференс-задачах. Самая старшая версия, Tachyum Prodigy T16128, предлагает уже 128 ядер с частотой до 4 ГГц, 12 каналов памяти DDR5-4800 (но только 1DPC и до 512 Гбайт суммарно), 48 линий PCI Express 5.0 и два контроллера 400GbE. Производительность в HPC-задачах составит 16 Тфлопс, а в ИИ — 262 Тфлопс на обучении и тренировке. Системные платы для Prodigy представлены, как минимум, в двух вариантах: полноразмерные четырёхпроцессорные для сегмента HPC и компактные однопроцессорные для модульных систем высокой плотности. Полноразмерный вариант имеет 64 слота DIMM и поддерживает модули DDR5 объёмом до 512 Гбайт, что даёт 32 Тбайт памяти на вычислительный узел. Сам узел полностью совместим со стандартами 19″ и Open Compute V3, он может иметь высоту 1U или 2U и поддерживает питание напряжением 48 Вольт. Плата имеет собственный BIOS UEFI, но для удалённого управления в ней реализован открытый стандарт OpenBMC. Tachyum исповедует концепцию универсальности, но всё-таки узлы для HPC-систем на базе Prodigy могут быть нескольких типов — универсальные вычислительные, узлы хранения данных, а также узлы управления. В качестве «дисковой подсистемы» разработчики выбрали SSD-накопители в формате NF1, подобные представленному ещё в 2018 году накопителю Samsung. Таких накопителей в корпусе системы может быть от одного до 36; поскольку NF1 существенно крупнее M.2, поддерживаются модели объёмом до 32 Тбайт, что даёт почти 1,2 Пбайт на узел. Стойка с модулями Prodigy будет вмещать до 50 модулей высотой 1U или до 25 высотой 2U. Согласно идее о минимизации дистанций при перемещении данных, сетевой коммутатор на 128 или 256 портов 100GbE устанавливается в середине стойки. Такая конфигурация работает в системе с числом стоек до 16, более масштабные комплексы предполагается соединять между собой посредством коммутатора высотой 2U c 64 портами QSFP-DD, причём поддержка скорости 800 Гбит/с появится уже в 2022 году. 512 стоек могут объединяться посредством высокопроизводительного коммутатора CLOS, он имеет высоту 21U и также получит поддержку 800 Гбит/с в дальнейшем. Компания активно поддерживает открытые стандарты: применён загрузчик Core-Boot, разработаны драйверы устройств для Linux, компиляторы и отладчики GCC, поддерживаются открытые приложения, такие, как LAMP, Hadoop, Sparc, различные базы данных. В первом квартале 2021 года ожидается поддержка Java, Python, TensorFlow, PyTorch, LLVM и даже операционной системы FreeBSD. Любопытно, что существующее программное обеспечение на системах Tachyum Prodigy может быть запущено сразу в виде бинарных файлов x86, ARMv8 или RISC-V — разумеется, с пенальти. Производительность ожидается в пределах 60 ‒ 75% от «родной архитектуры», для достижения 100% эффективности всё же потребуется рекомпиляция. Но в рамках контрактной поддержки компания обещает помощь в этом деле для своих партнёров. Разумеется, пока речи о полномасштабном производстве новых систем не идёт. Эталонные платформы Tachyum обещает во второй половине следующего года. Как обычно, сначала инженерные образцы получают OEM/ODM-партнёры компании и системные интеграторы, а массовые поставки должны начаться в 4 квартале 2021 года. Однако ПЛИС-эмуляторы Prodigy появятся уже в октябре этого года, инструментарий разработки ПО — и вовсе в августе. Планы у Tachyum поистине наполеоновские, но её разработки интересны и содержат целый ряд любопытных идей. В чём-то новые процессоры можно сравнить с Fujitsu A64FX, которые также позволяют создавать гомогенные и универсальные вычислительные комплексы. Насколько удачной окажется новая платформа, говорить пока рано. |
|