Материалы по тегу: cpu
21.12.2024 [14:00], Сергей Карасёв
Для невыпущенного суперчипа Tachyum Prodigy выпустили 1600-страничное руководство по оптимизации производительностиСловацкая компания Tachyum, разрабатывающая процессоры Prodigy с уникальной архитектурой, объявила о выпуске руководства по оптимизации производительности этих чипов. Точнее, для FPGA-эмулятора Prodigy, поскольку самих чипов всё ещё нет. Огромный документ на 1600 страниц содержит подробную информацию о том, как в полной мере воспользоваться потенциалом новинки. Первая информация о разработке Prodigy появилась в 2019–2020 гг. Эти суперпроцессоры, как утверждается, объединяют возможности CPU, GPU и TPU. Они предназначены для решения различных ресурсоёмких задач, связанных в том числе с ИИ и машинным обучением. Сроки выпуска Prodigy несколько раз пересматривались: сначала выход чипов был перенесён с 2021-го на 2022 год, затем — на 2023 год, а впоследствии — на 2024-й. В соответствии с текущими планами Tachyum намерена начать отгрузку образов чипов в 2025 году. ![]() Источник изображения: Tachyum Подготовленное руководство для изделий Prodigy, как заявляет компания, содержит рекомендации по созданию высокопроизводительного ПО для этой платформы. Документ описывает конкретные методы оптимизации, включая управление ограничениями диспетчеризации, улучшение процедур работы памяти и пр. Кроме того, описаны способы обработки операций кеширования и доступа к специальным регистрам для тонкой настройки с целью достижения максимальной производительности. В руководстве рассматриваются особенности чипов. Архитектура набора инструкций Prodigy (ISA) представляет собой смесь RISC и CISC, но не включает какие-либо сложные и/или длинные и неэффективные инструкции переменной длины. Все инструкции имеют ширину 32 или 64 бит, а некоторые из них содержат функции доступа к памяти для дальнейшего повышения производительности. Изделия Prodigy объединяют до 192 ядер с тактовой частотой до 5 ГГц и выше. Реализованы 16 каналов памяти DDR5-7200 с возможностью использования до 32 Тбайт ОЗУ в расчёте на процессорный разъём. Поддерживаются 96 линий PCIe 5.0. Планируемая технология производства — 5 нм. В конце 2023 года Tachyum получила заказ на поставку чипов Prodigy для создания суперкомпьютера с ИИ-производительностью до 8 Зфлопс.
12.12.2024 [12:50], Сергей Карасёв
144-ядерный Arm-процессор Fujitsu Monaka получит 3.5D-упаковку от BroadcomКорпорация Fujitsu, по сообщению ресурса Tom's Hardware, продемонстрировала прототип серверного процессора Monaka для дата-центров. Это изделие проектируется с прицелом на НРС-платформы, а также на ЦОД, ориентированные на решение ресурсоёмких задач в области ИИ. О проекте Monaka стало известно в начале 2023 года. Тогда говорилось, что разработка изделия является частью программы, курируемой японской Организацией по развитию новых энергетических и промышленных технологий (NEDO). Процессор основан на архитектуре Arm с набором инструкций Armv9-A и поддержкой масштабируемых векторных расширений SVE2. Как теперь сообщается, для чипа Monaka предусмотрено использование технологии Broadcom 3.5D eXtreme Dimension System in Package (SiP). Конструкция процессора включает четыре 36-ядерных вычислительных чиплета, изготовленных по 2-нм технологии TSMC. Таким образом, суммарное количество ядер достигает 144. Эти чиплеты монтируются поверх «плиток» SRAM с использованием гибридного медного соединения (HCB). Блоки SRAM, выполняющие функции кеш-памяти, производятся по 5-нм техпроцессу TSMC. Кроме того, имеется крупный чиплет ввода-вывода, в состав которого входят контроллеры DDR5 (12 каналов) и PCI Express 6.0/CXL 3.0. Процессор Monaka нацелен на широкий спектр рабочих нагрузок в дата-центрах. Для чипа не предусмотрено использование памяти HBM — вместо этого будет применяться DDR5, возможно, в реализациях MR-DIMM и MCR-DIMM. Упомянуты расширенные функции безопасности, включая Confidential Computing Architecture (CCA). Monaka предстоит конкурировать с процессорами AMD EPYC и Intel Xeon. Одним из главных преимуществ нового изделия перед этими чипами, по всей видимости, станет более высокая энергетическая эффективность. Fujitsu намерена начать продажи Monaka в течение 2027 финансового года, который у компании продлится с 1 апреля 2026-го до 31 марта 2027-го.
11.12.2024 [23:47], Владимир Мироненко
BadRAM: для обхода защиты виртуальных машин в процессорах AMD EPYC достаточно оборудования стоимостью всего $10
amd
cpu
ddr4
ddr5
dram
epyc
hardware
виртуализация
информационная безопасность
уязвимость
шифрование
Исследователи Лёвенского католического университета (Бельгия), Любекского университета (Германия) и Бирмингемского университета (Великобритания) обнаружили, что система защиты виртуальных машин от атак с использованием вредоносного гипервизора AMD SEV-SNP (Secure Nested Paging), не так безопасна, как утверждает разработчик, пишет The Register. Технологии Secure Encrypted Virtualization (SEV) предоставляют доверенную среду исполнения (TEE), призванную обеспечить защиту виртуальных машин от незаконных попыток вмешательства со стороны тех, кто имеет доступ к оборудованию ЦОД. Механизм SEV-SNP реализован в процессорах AMD EPYC, начиная с 7003 (Milan). Аналогичные механизмы есть и у конкурентов: Intel Software Guard Extensions (SGX) и Trusted Domain Extensions (TDX), а также Arm Confidential Compute Architecture (CCA). Все эти технологии отвечают за шифрование памяти и изоляцию ресурсов. Исследователи разработали способ обхода SEV-SNP, который они назвали BadRAM (CVE-2024-21944 и AMD-SB-3015). Для атаки требуется оборудование стоимостью около $10, включая Raspberry Pi Pico, разъём DDR и батарею на 9 В. Атака BadRAM требует наличие физического доступа к оборудованию. Она основана на манипуляциях с чипом SPD (Serial Presence Detect), который передаёт данные о модуле DDR4/DDR5 во время загрузки системы. Манипулируя SPD, злоумышленники создают адреса-фантомы для физической памяти, благодаря которым можно незаметно получить доступ к данным в виртуальной машине. «Мы удваиваем видимый в системе объём DIMM, чтобы обмануть контроллер памяти CPU и заставить его использовать дополнительные «фантомные» биты адресации, — объясняют авторы исследования. — Два разных физических адреса теперь ссылаются на одно и то же местоположение DRAM». С помощью таких фантомов злоумышленники могут обойти защиту памяти, раскрывая конфиденциальные данные или вызывя сбои. BadRAM позволяет подделать критически важные отчёты удалённой аттестации и вставлять необнаруживаемые бэкдоры в любую виртуальную машину, защищённую SEV-SNP. Атака может быть реализована и без физического доступа к оборудованию, поскольку некоторые поставщики DRAM оставляют чип SPD разблокированным, что противоречит спецификациям JEDEC. Авторы исследования обнаружили по крайней мере два DDR4-модуля Corsair без должной защиты SPD. Память DDR3 тоже может быть взломана путём замены чипа SPD. «BadRAM полностью подрывает доверие к технологии защищённой зашифрованной виртуализации AMD (SEV-SNP), которая широко используется крупными поставщиками облачных услуг, включая Amazon AWS, Google Cloud и Microsoft Azure», — сообщил The Register Джо Ван Балк (Jo Van Bulck), профессор лаборатории DistriNet на кафедре компьютерных наук KU Leuven. Исследователи отметили, что решения SGX и TDX Intel не имеют такой уязвимости, поскольку в них реализованы контрмеры против создания псевдонимов (alias) памяти. Arm CCA, судя по спецификации, тоже не имеет проблем, но для проверки этого у исследователей не было коммерческих чипов. Полный доклад об атаке исследователи планируют представить в мае 2025 года на конференции IEEE Symposium on Security and Privacy. Исследователи уведомили AMD о найденных проблемах в феврале 2024 года. «AMD рекомендует использовать модули памяти, которые блокируют SPD, а также следовать передовым практикам в области физической безопасности систем. AMD также выпустила обновления прошивок защиты от уязвимости», — сообщили в AMD ресурсу The Register в ответ на просьбу прокомментировать публикацию исследователей.
20.11.2024 [10:56], Сергей Карасёв
Microsoft представила инстансы Azure HBv5 на основе уникальных чипов AMD EPYC 9V64H с памятью HBM3Компания Microsoft на ежегодной конференции Ignite для разработчиков, IT-специалистов и партнёров анонсировала облачные инстансы Azure HBv5 для HPC-задач, которые предъявляют наиболее высокие требования к пропускной способности памяти. Новые виртуальные машины оптимизированы для таких приложений, как вычислительная гидродинамика, автомобильное и аэрокосмическое моделирование, прогнозирование погоды, исследования в области энергетики, автоматизированное проектирование и пр. Особенность Azure HBv5 заключается в использовании уникальных процессоров AMD EPYC 9V64H (поколения Genoa). Эти чипы насчитывают 88 вычислительных ядер Zen4, тактовая частота которых достигает 4 ГГц. Ближайшим родственником является изделие EPYC 9634, которое содержит 84 ядра (168 потоков) и функционирует на частоте до 3,7 ГГц. По данным ресурса ComputerBase.de, чип EPYC 9V64H также фигурирует под именем Instinct MI300C: по сути, это процессор EPYC, дополненный памятью HBM3. При этом клиентам предоставляется возможность кастомизации характеристик. Отметим, что ранее x86-процессоры с набортной памятью HBM2e были доступны в серии Intel Max (Xeon поколения Sapphire Rapids). Каждый инстанс Azure HBv5 объединяет четыре процессора EPYC 9V64H, что в сумме даёт 352 ядра. Система предоставляет доступ к 450 Гбайт памяти HBM3, пропускная способность которой достигает 6,9 Тбайт/с. Задействован интерконнект NVIDIA Quantum-2 InfiniBand со скоростью передачи данных до 200 Гбит/с в расчёте на CPU. Применены сетевые адаптеры Azure Boost NIC второго поколения, благодаря которым пропускная способность сети Azure Accelerated Networking находится на уровне 160 Гбит/с. Для локального хранилища на основе NVMe SSD заявлена скорость чтения информации до 50 Гбайт/с и скорость записи до 30 Гбайт/с. Отмечается, что по показателю пропускной способности памяти виртуальные машины Azure HBv5 примерно в 8 раз превосходят новейшие альтернативы bare-metal и cloud, в 20 раз опережают инстансы Azure HBv3 и Azure HBv2 (на базе EPYC Milan-X и EPYC Rome) и в 35 раз обходят HPC-серверы возрастом 4–5 лет, жизненный цикл которых приближается к завершению. Машины Azure HBv5 станут доступны в I половине 2025 года.
19.11.2024 [11:47], Сергей Карасёв
Esperanto и NEC займутся созданием HPC-решений на базе RISC-VСтартап Esperanto Technologies и корпорация NEC объявили о заключении соглашения о сотрудничестве в области НРС. Речь идёт о создании программных и аппаратных решений следующего поколения, использующих открытую архитектуру RISC-V. Напомним, Esperanto разрабатывает высокопроизводительные RISC-V-чипы для задач НРС и ИИ. Первым продуктом компании стало изделие ET-SoC-1, которое объединяет 1088 энергоэффективных ядер ET-Minion и четыре высокопроизводительных ядра ET-Maxion. Решение предназначено для инференса рекомендательных систем, в том числе на периферии. В августе 2023 года стало известно о подготовке чипа ET-SoC-2 с высокопроизводительными ядрами RISC-V с векторными расширениями. В рамках соглашения о сотрудничестве, как отмечается, будут объединены опыт и экспертизы NEC в области проектирования суперкомпьютеров и создания специализированного софта для HPC-задач с технологиями Esperanto в сфере высокопроизводительных энергоэффективных чипов на основе набора инструкций RISC-V. При этом упоминаются достижения NEC по направлению векторных процессоров: японская компания проектировала уникальные изделия SX-Aurora, но их разработка была остановлена в 2023 году. ![]() Источник изображения: Esperanto «Используя глубокий опыт и экспертные знания NEC в области HPC, а также открытый набор инструкций RISC-V в сочетании с вычислительной технологией Esperanto, мы сможем разрабатывать масштабируемые и эффективные решения для ИИ и высокопроизводительных вычислений», — отметил Арт Свифт (Art Swift), президент и генеральный директор Esperanto.
11.11.2024 [11:43], Сергей Карасёв
AMD наращивает долю на рынке серверных чипов на фоне проблем IntelКомпания AMD быстро укрепляет позиции на рынке процессоров с архитектурой х86. Причём, как сообщает ресурс Tom's Hardware, ссылаясь на данные аналитиков Mercury Research, речь идёт обо всех ключевых сегментах — серверном, настольном и мобильном. По итогам III квартала 2024 года доля AMD на глобальном рынке CPU с учётом всех сегментов достигла 24,0 % в штучном выражении. Для сравнения: во II четверти 2024-го этот показатель равнялся 21,3 %, а годом ранее — 23,1 %. Если рассматривать продажи в денежном исчислении, то AMD заняла 26,5 % против 24,2 % во II квартале текущего года и 25,9 % в III квартале 2023-го. AMD наращивает долю на рынке серверных чипов: показатель достиг 24,2 % в натуральном выражении. Во II четверти 2024 года компания контролировала 24,1 % сегмента, а годом ранее — 23,3 %. Если оценивать отгрузки в деньгах, то доля AMD зафиксирована на отметке 33,9 %. Кварталом ранее это значение составляло 33,8 %, а год назад — 31,2 %. В исследовании отмечается, что Intel остаётся лидером в области серверных процессоров с архитектурой х86: доля корпорации в III квартале 2024 года равна 75,8 %. Тем не менее, AMD смогла реализовать больше чипов высокого класса, на что указывает более высокая доля рынка в денежном выражении по сравнению с натуральным. Кроме того, впервые подразделение дата-центров AMD превзошло по выручке группу DCAI в составе Intel — $3,549 млрд против $3,3 млрд по итогам III квартала 2024 года. Отчёт не включает заказные чипы AMD, которые устанавливаются в игровые консоли, а также процессоры для оборудования IoT. Успехи AMD отчасти связаны с проблемами Intel, которая оказалась в очень сложном положении: она борется с жёсткой конкуренцией, а прогресс в сфере ИИ оставляет желать лучшего. Intel вынуждена сокращать тысячи сотрудников по всему миру, уменьшать офисные площади и отказываться от неактуальных продуктов ради улучшения финансовых показателей.
11.11.2024 [11:29], Сергей Карасёв
США запретили TSMC выпускать передовые чипы для китайских ИИ-компанийTSMC, по сообщению The Register, полностью прекратит выпуск передовых изделий для китайских заказчиков, которые занимаются разработкой аппаратных ИИ-решений, включая ускорители на базе GPU. Данная мера, как утверждается, продиктована необходимостью соблюдения экспортных требований США. Власти США последовательно вводят различные санкции, призванные ограничить возможности китайской полупроводниковой индустрии. Речь идёт о закупках чипов NVIDIA, памяти HBM и других компонентов. А нидерландской компании ASML запрещено поставлять в Китай оборудование для DUV-литографии, на котором можно изготавливать 5- и 7-нм продукцию. Теперь новые ограничительные меры в отношении клиентов из КНР вводит TSMC. Этот контрактный производитель объявил о том, что с 11 ноября 2024 года прекращает отгружать чипы, произведённые по 7-нм и более совершенным технологиям, китайским заказчикам, которые занимаются разработкой ИИ-устройств и GPU. Напомним, что в октябре TSMC уведомила американские власти о том, что некий китайский клиент, по всей видимости, пытается обойти экспортный контроль в отношении Huawei, размещая заказы на изделия, схожие с ИИ-ускорителем Ascend 910B. Это продукт был разработан Huawei в качестве альтернативы NVIDIA A100. Решение Ascend 910B представляет собой следующее поколение 7-нм чипа Ascend 910. По имеющейся информации, TSMC, следуя экспортным ограничения США, прекратила все поставки изделий этому неназванному клиенту. Решение TSMC ограничит возможности китайских компаний по использованию технологий с нормами 7-нм и менее при создании ИИ-устройств. Вместе с тем, подчёркивается, что правила не распространяются на китайских клиентов, которые заказывают у TSMC 7-нм чипы для других приложений, таких как мобильные устройства и системы связи. Как отмечает TrendForce, решение TSMC «отражает осторожную позицию гиганта контрактного производства в глобальной цепочке поставок полупроводников на фоне разгорающейся войны в сфере микрочипов между двумя мировыми сверхдержавами».
25.10.2024 [13:24], Сергей Карасёв
От тостера до ЦОД: RISC-V International ратифицировала унифицированный профиль RVA23 для процессоров будущегоОрганизация RISC-V International объявила о ратификации профиля RVA23. Это значимое событие, которое, как ожидается, поможет открытой архитектуре RISC-V укрепить позиции по отношению к Arm и x86, избегая при этом потенциальных проблем, связанных с лицензированием. Профили RVA необходимы для обеспечения переносимости ПО между различными аппаратными реализациями. Таким образом, разработчики софта могут избежать привязки к конкретному поставщику аппаратных решений. Иными словами, одно и то же приложение сможет функционировать на любых устройствах, оснащённых процессорами с архитектурой RISC-V. Профиль RVA23 стандартизирует набор инструкций ISA (Instruction Set Architecture). Ключевой задачей является устранение фрагментации внутри экосистемы RISC-V. Отмечается, что в рамках ратификации профиль RVA23 прошёл длительный процесс разработки, рассмотрения и утверждения в многочисленных рабочих группах. ![]() Источник изображения: pixabay.com RVA23 делает обязательными такие функции, как векторные операции, инструкции с плавающей запятой и атомарные инструкции, которые необходимы во многих сферах, включая НРС, машинное обучение и ИИ. В частности, векторные расширения ускоряют рабочие нагрузки с интенсивными математическими расчётами, включая криптографию, (де-)компрессию, обучение ИИ и пр. Важным компонентом RVA23 является поддержка гипервизоров. Это позволяет виртуализировать корпоративные рабочие нагрузки как на локальных серверах, так и в облаке. Таким образом, может быть ускорена разработка оборудования, ОС и прикладных программ для архитектуры RISC-V. Поддержка виртуализации также улучшит безопасность мобильных приложений путём разделения защищённых и незащищённых компонентов.
25.10.2024 [00:35], Игорь Осколков
NVIDIA за год отгрузила более 1 млрд RISC-V ядерВ рамках саммита RISC-V 2024 компания NVIDIA поделилась любопытной статистикой — за год в составе GPU и других ускорителей она отгрузила более 1 млрд ядер RISC-V собственной разработки, передаёт TechPowerUp. Они входят в состав GSP (GPU System Processor), который отвечает за управление GPU и иные служебные функции. В состав GSP входит от 10 до 40 ядер, в зависимости от сложности чипа, которым он управляет. Компания переключилась на разработку нового GSP на базе RISC-V в 2016 году. До этого более десяти лет NVIDIA использовала для GSP проприетарный процессор Falcon, возможностей и гибкости которого со временем стало не хватать. Вместо покупки и доработки готовых ядер от сторонних вендоров (Arm, MIPS, Synopsys ARC) или попыток улучшить Falcon, компания решила обратиться к открытой архитектуре RISC-V и к настоящему моменту разработала три типа ядер. Так, NV-RISCV32 представляет собой самое простое 32-бит ядро без внеочередного исполнения, работающее на частоте до 1,8 ГГц и имеющее производительность до 1,8 CoreMark/МГц. NV-RVV является NV-RISCV32 с 1024-бит векторными расширениями. А NV-RISCV64 — это уже более серьёзное 64-бит ядро с поддержкой внеочередного исполнения и SMP, частотой 2 ГГц и производительностью 5 CoreMark/МГц. Кроме того, NVIDIA разработала более 20 расширений ISA под специфические задачи. Впервые GSP на базе RISC-V появился в поколении Turing в 2018 году. Сейчас GSP отвечает за управление питанием и ресурсами ускорителя, безопасность, межчиповое взаимодействие, управление видеокодеками, вывод видео, работу с NVDLA и т.д. Google выбрала похожий путь — в её ИИ-ускорителях TPU используются ядра SiFive. Впрочем, сейчас есть уже и «большие» ИИ-ускорители, построенные исключительно на ядрах RISC-V: Meta✴ MTIA первого и второго поколений, InspireSemi Thunderbird, Tenstorrent Wormhole и Grayskull, а также Esperanto ET-SoC-1 и ET-SoC-2.
11.10.2024 [00:35], Владимир Мироненко
AMD представила серверные процессоры EPYC 9005 Turin и ускорители Instinct MI325XКомпания AMD представила ряд новых решений, включая серверные процессоры серии EPYC 9005 (Turin) и ускорители Instinct MI325X, которые, по словам компании, устанавливают новый стандарт производительности для ЦОД. Процессоры AMD EPYC 5-го поколения под кодовым названием Turin производятся с использованием техпроцесса 3 нм и 4 нм TSMC. Они предлагают тактовую частоту до 5,0 ГГц и от 8 до 192 ядер. AMD сообщила, что новая серия обеспечивает прирост показателя IPC на 17 % по сравнению с EPYC Genoa для корпоративных и облачных рабочих нагрузок и до 37 % в ИИ- и HPC-задачах по сравнению с Zen 4. Серия AMD EPYC 9005 включает 64-ядерный AMD EPYC 9575F, специально разработанный для ИИ-платформ на базе ускорителей, которым требуются максимальные возможности CPU. Турбочастота может достигать 5 ГГц, тогда как решение конкурента ограничено 3,8 ГГц — он до 28 % быстрее обрабатывает и передаёт данные ускорителям, что важно для требовательных рабочих нагрузок ИИ. В серии AMD EPYC 9005 доступны две версии чипов: 128-ядерная версия с классическими ядрами Zen5 и 192-ядерная версия с Zen5c. Оба варианта EPYC 9005 используют сокет SP5 и совместимы с некоторыми существующими платформами для Genoa (Zen4). Новинки поддерживают 12-канальную память DDR5-6400, а также предлагают полноценные обработку инструкций AVX-512 (целиком 512 бит за раз). Как сообщает компания, флагманский процессор серии EPYC 9965 имеет 192 ядра Zen5c и тактовую частоту до 3,7 ГГц. Серверы на базе процессоров AMD EPYC 9965 обеспечивают по сравнению с серверами на базе процессоров Intel Xeon Platinum 8592+ (Emerald Rapids):
Также сообщается, что в сравнении с конкурентом 192-ядерный процессор EPYC 9965 обеспечивает до 3,7 раза большую производительность на end-to-end рабочих нагрузках ИИ, таких как TPCx-AI, которые имеют решающее значение для эффективного подхода к генеративному ИИ. Что касается AMD Instinct MI325X, то новый ускоритель, построенный на архитектуре AMD CDNA 3, имеет 256 Гбайт памяти HBM3e с пропускной способностью 6,0 Тбайт/с, что соответственно в 1,8 и 1,3 раза больше, чем у NVIDIA H200. Ускоритель обеспечивает 2,6 Пфлопс производительности в режиме FP8, 1,3 Пфлопс производительности в режиме FP16. Как утверждает AMD, по сравнению с H200 новый ускоритель в 1,3 раза быстрее в задачах инференса ИИ-модели Mistral 7B (FP16), в 1,2 раза — Llama 3.1 70B (FP8), в 1,4 раза — Mixtral 8x7B (FP16). Ускорители AMD Instinct MI325X будут доступны с I квартала 2025 года. AMD также анонсировала следующее поколение ускорителей серии AMD Instinct MI350 на основе архитектуры AMD CDNA 4, разработанные для обеспечения 35-кратного улучшения производительности инференса по сравнению с ускорителями на базе AMD CDNA 3. Серия AMD Instinct MI350 получит до 288 Гбайт памяти HBM3e на ускоритель и поддержку форматов FP6/FP4. Новинка будет доступна во II половине 2025 года. |
|