Материалы по тегу: arm
|
22.08.2018 [13:00], Геннадий Детинич
Раскрыты спецификации ARM-процессоров Fujitsu A64FX для суперкомпьютера Post-KПримерно через три года начнётся коммерческая эксплуатация суперкомпьютера Post-K, который компании Fujitsu и RIKEN разрабатывают на смену предыдущей совместной системы суперкомпьютера K (начал работать в 2011 году). Новая система Post-K обещает 100-кратно поднять производительность на уровне приложений. И сделано это будет благодаря переходу Fujitsu на ARM-совместимые ядра и новую архитектуру с масштабируемыми векторными инструкциями (Scalable Vector Extensions). ![]() На прошедшей на днях конференции Hot Chips 30 (2018) компания Fujitsu впервые обнародовала спецификации новых процессоров, которые получили обозначение A64FX. Ни «A», ни «64», ни «FX» не имеют отношение к компании AMD, хотя в названии новых суперпроцессоров Fujitsu что-то немного согревает душу. Это процессоры с поддержкой 64-разрядных команд ARM и векторных инструкций длиной до 512 бит. Каждый процессор Fujitsu A64FX будет нести 48 вычислительных ядер и 4 вспомогательных ядра, разделённые на четыре блока, соединённых внутренней кольцевой шиной. Для связи с другими процессорами Fujitsu использует две линии внешнего интерфейса Tofu с пропускной способностью 28 Гбит/с. Строение процессора и внешний скоростной интерфейс обещают значительное наращивание параллелизма в вычислениях.
Fujitsu Каждый из 13-ядерных блоков поддержан кеш-памятью L2 объёмом 8 Мбайт. Кроме этого каждый из блоков напрямую обращается к модулю стековой памяти HBM2 объёмом 8 Гбайт. Суммарный объём памяти HBM2 у каждого процессора насчитывает 32 Гбайт, а общая скорость доступа достигает 1024 Гбайт/с. Поскольку память HBM2 можно рассматривать в качестве кеш-памяти третьего уровня, все или большинство операций выполняются в процессоре, что обещает отличный прирост производительности. ![]() Процессор Fujitsu A64FX выпускается с использованием 7-нм техпроцесса, очевидно, что на линиях компании TSMC. Он насчитывает 8,7 млрд транзисторов. Пиковая производительность процессора для операций с двойной точностью достигает 2,7 терафлопс. Процессор без потерь на переход может вычислять операции с одинарной точностью и половинной, соответственно, в два и четыре раза быстрее. Также, за что надо благодарить тему машинного обучения, процессор A64FX оптимизирован для обработки 16- и 8-битных целочисленных значений. ![]()
09.11.2017 [13:07], Сергей Карасёв
Начались коммерческие поставки 10-нм серверных чипов Qualcomm Centriq 2400Компания Qualcomm Datacenter Technologies, подразделение Qualcomm Incorporated, объявила о старте коммерческих поставок первых в мире 10-нанометровых серверных процессоров — решений семейства Centriq 2400. О разработке чипов Centriq 2400 стало известно ещё в декабре прошлого года. Позднее Qualcomm раскрыла детали об этих изделиях. И вот теперь настало время массовых поставок процессоров.
Источник изображений: Qualcomm В основу Centriq 2400 положены 64-битные вычислительные ядра с кодовым именем Falkor, обладающие поддержкой команд ARMv8. Количество таких ядер в составе чипов может достигать 48. Максимальная тактовая частота — 2,6 ГГц. ![]() При изготовлении изделий применяется 10-нанометровая технология Samsung FinFET. Процессоры насчитывают до 18 млрд транзисторов. Каждая пара ядер снабжена 512 Кбайт общей кеш-памяти L2, а объём кеша L3 у чипов достигает 60 Мбайт. ![]() В состав Centriq 2400 вошли 6-канальный контроллер памяти с поддержкой DDR4-2667 МГц ECC (до двух модулей на канал), 32 линии PCI Express 3.0, интерфейсы SATA, USB и пр. ![]() Процессоры ориентированы на современные облачные платформы и центры обработки данных. Более подробную информацию о технических характеристиках можно найти здесь. Что касается стоимости, то изделие Qualcomm Centriq 2460, насчитывающее 48 вычислительных ядер, обойдётся заказчикам в 1995 долларов США.
02.11.2017 [12:12], Алексей Степин
Qualcomm готовит почву для серверного процессора CentriqКомпанию Qualcomm представлять не надо — множество смартфонов оснащены именно процессорами этого разработчика, и многие пользователи не без оснований считают их лучшими, ставя данную серию выше моделей Samsung Exynos или MediaTek. С другой стороны, архитектура ARM пусть и очень медленно, но всё же проникает на корпоративный рынок, а именно — в сектор серверных решений. Известны проекты таких компаний, как Cavium, Applied Micro и даже AMD. Не стоит удивляться тому, что Qualcomm, имея огромный опыт в разработке процессоров с архитектурой ARM, тоже решила откусить кусочек от готовящегося пирога. Уже в течение двух лет существуют слухи о серверном процессоре Qualcomm, но теперь эти слухи переходят в разряд фактов. Последние несколько месяцев представители компании довольно охотно рассказывали о новом процессоре класса SoC под названием Centriq 2400.
Шестиканальный контроллер памяти обещает отсутствие нехватки ПСП Так, теперь известно, что этот чип будет производиться с использованием 10-нанометрового техпроцесса, и главной целевой аудиторией этого продукта станут поставщики облачных услуг и владельцы крупных ЦОД, для которых очень важную роль играют такие параметры, как энергопотребление и энергоэффективность процессоров. Замах Qualcomm взяла серьезный: если верить заявлениям, система на базе одного процессора Centriq сможет предложить уровень производительности, эквивалентный решениям на базе пары процессоров Xeon с архитектурой Skylake. В отличие от Intel, Qualcomm не обязана тянуть за собой тяжкое наследие совместимости с процессорами настольного класса и использует в своей разработке всё лучшее, что было воплощено в чипах для смартфонов и планшетов. Centriq 2400 должен получить 24 процессорных ядра с кодовым названием Falkor. Это архитектура собственной разработки Qualcomm, но отвечающая всем требованиям стандарта ARMv8.
Выглядит Cenriq практически так же, как и обычные Xeon, Opteron или EPYC На диаграмме слово Duplex присутствует не зря, поскольку в целом можно говорить о 48 однопоточных ядрах, но в будущем компания планирует наращивать и количество ядер, и количество потоков на ядро. Интересен также тот факт, что Intel отказалась от кольцевой внутренней шины в новых Xeon, а Qualcomm, наоборот, пришла к этой идее. Контроллер памяти DDR4 у Centriq шестиканальный и дополненный, к тому же, средствами аппаратного сжатия данных. Имеется встроенная поддержка сетевых стандартов 10 и 100 GbE, 32 линии PCIe (скорее всего, 3.0) и функций южного моста, а также развитая подсистема управлением питанием. В рамках Open Compute Project компания уже разработала две референсные платформы формата 1OU — с одним либо с двумя процессорными разъёмами под Centriq. Пока это практически всё, что известно о Сentriq 2400. Кое-что было опубликовано нами ранее, но пока мы не знаем тактовых частот и сроков начала массовых поставок. Однако судя по имеющимся сведениям, Qualcomm решила заняться развитием серверной ветки ARM всерьёз и надолго.
23.08.2017 [12:40], Геннадий Детинич
Qualcomm поделилась деталями о 48-ядерных процессорах Centriq 2400Пять лет назад компания Qualcomm приступила к разработкам процессора для серверного рынка. Успешный разработчик уникальных вычислительных архитектур, совместимых с наборами команд ARM, вполне обоснованно решил перенести опыт создания SoC для смартфонов и планшетов в область высокопроизводительных серверных решений. К тому времени требования к серверным процессорам изменились в сторону снижения потребления и лучшей масштабируемости. Социальные сети и облачные сервисы создают настолько неравномерную нагрузку на вычислительные ресурсы ЦОД, что обычные x86-совместимые или RISC/UNIX-платформы перестают считаться эффективным инструментом для решения насущных задач. ![]() В декабре 2016 года Qualcomm сообщила о завершении разработки и начале пробных поставок процессора Centriq 2400 с числом ядер до 48 штук. На днях компания подтвердила график вывода новинки на рынок, который предусматривает массовые коммерческие поставки SoC Centriq 2400 позднее в текущем году. Также Qualcomm поделилась деталями о строении и архитектуре Centriq 2400. Ниже мы расскажем о ключевых особенностях разработки. ![]() Начнём с того, что внутренний согласованный интерфейс однокристальной сборки Centriq 2400 представляет собой сегментированную кольцевую шину. Компания Intel, как нам известно, в новых серверных и высокопроизводительных настольных процессорах перестанет использовать кольцевую шину в пользу ячеистой шины, что должно улучшить масштабируемость архитектуры для многоядерного окружения. Компания AMD использует другой принцип обмена данными между кластерами в процессорах на ядрах Zen. Все они соединены между собой двунаправленной шиной, топология которой ближе к кольцевой. Сегментированная кольцевая шина в составе Centriq 2400 использует преимущества кольцевой шины (простота, сравнительно низкое потребление) и элементы ячеистой сети внутри сегмента, что даёт возможность балансировать между скоростью, задержками и потреблением. ![]() Вычислительные ядра в составе Centriq 2400 самостоятельно разработаны инженерами компании и носят кодовое имя Falkor. Это 64-битные решения с поддержкой команд ARMv8, которые разбиты на модули из двух связанных ядер (дуплексное строение, по определению Qualcomm). Подобное строение позволяет выпускать SoC Centriq 2400 с заданным числом ядер и облегчает масштабирование вычислительной структуры в процессе выполнения задачи. Каждая пара ядер имеет разделяемую кеш-память L2 и разделяемый доступ к кольцевой шине Qualcomm System Bus (QSB). ![]() Для снижения потребления каждое ядро и кеш-память L2 имеют ряд состояний потребления энергии, которые контролируются на аппаратном уровне и могут переключаться с минимальными задержками. Вычислительные конвейеры Falkor имеют переменную длину с внеочередным исполнением команд. Это снижает вероятность простоя конвейеров в процессе работы с командами и инструкциями, не оптимизированными для немедленного исполнения. ![]() Иерархия кеш-памяти Falkor оптимизирована для обработки значительных массивов данных. Так, кеш-память первого уровня для приёма данных объёмом 32 Кбайт дополнена «несимметричной» кеш-памятью L1 для инструкций: 24 Кбайт L0 и 64 Кбайт L1 (всего 88 Кбайт). Всё это снабжено многоуровневым движком предварительной выборки, который динамически адаптируется под текущую нагрузку. В состав SoC Centriq 2400 вошли 6-канальный контроллер памяти с поддержкой DDR4-2667 МГц ECC (до двух модулей на канал), 32 линии PCI Express 3.0, интерфейсы SATA, USB и более специализированные сигнальные структуры. Также Centriq 2400 несёт интегрированный криптографический блок TrustZone и поддерживает аппаратную виртуализацию. В компании Qualcomm уверены, что данную разработку ждёт успешное будущее. |
|











