Материалы по тегу: arm

22.08.2018 [13:00], Геннадий Детинич

Раскрыты спецификации ARM-процессоров Fujitsu A64FX для суперкомпьютера Post-K

Примерно через три года начнётся коммерческая эксплуатация суперкомпьютера Post-K, который компании Fujitsu и RIKEN разрабатывают на смену предыдущей совместной системы суперкомпьютера K (начал работать в 2011 году). Новая система Post-K обещает 100-кратно поднять производительность на уровне приложений. И сделано это будет благодаря переходу Fujitsu на ARM-совместимые ядра и новую архитектуру с масштабируемыми векторными инструкциями (Scalable Vector Extensions).

На прошедшей на днях конференции Hot Chips 30 (2018) компания Fujitsu впервые обнародовала спецификации новых процессоров, которые получили обозначение A64FX. Ни «A», ни «64», ни «FX» не имеют отношение к компании AMD, хотя в названии новых суперпроцессоров Fujitsu что-то немного согревает душу. Это процессоры с поддержкой 64-разрядных команд ARM и векторных инструкций длиной до 512 бит. Каждый процессор Fujitsu A64FX будет нести 48 вычислительных ядер и 4 вспомогательных ядра, разделённые на четыре блока, соединённых внутренней кольцевой шиной. Для связи с другими процессорами Fujitsu использует две линии внешнего интерфейса Tofu с пропускной способностью 28 Гбит/с. Строение процессора и внешний скоростной интерфейс обещают значительное наращивание параллелизма в вычислениях.

 Fujitsu

Fujitsu

Каждый из 13-ядерных блоков поддержан кеш-памятью L2 объёмом 8 Мбайт. Кроме этого каждый из блоков напрямую обращается к модулю стековой памяти HBM2 объёмом 8 Гбайт. Суммарный объём памяти HBM2 у каждого процессора насчитывает 32 Гбайт, а общая скорость доступа достигает 1024 Гбайт/с. Поскольку память HBM2 можно рассматривать в качестве кеш-памяти третьего уровня, все или большинство операций выполняются в процессоре, что обещает отличный прирост производительности.

Процессор Fujitsu A64FX выпускается с использованием 7-нм техпроцесса, очевидно, что на линиях компании TSMC. Он насчитывает 8,7 млрд транзисторов. Пиковая производительность процессора для операций с двойной точностью достигает 2,7 терафлопс. Процессор без потерь на переход может вычислять операции с одинарной точностью и половинной, соответственно, в два и четыре раза быстрее. Также, за что надо благодарить тему машинного обучения, процессор A64FX оптимизирован для обработки 16- и 8-битных целочисленных значений.

Постоянный URL: http://servernews.ru/974338
09.11.2017 [13:07], Сергей Карасёв

Начались коммерческие поставки 10-нм серверных чипов Qualcomm Centriq 2400

Компания Qualcomm Datacenter Technologies, подразделение Qualcomm Incorporated, объявила о старте коммерческих поставок первых в мире 10-нанометровых серверных процессоров — решений семейства Centriq 2400.

О разработке чипов Centriq 2400 стало известно ещё в декабре прошлого года. Позднее Qualcomm раскрыла детали об этих изделиях. И вот теперь настало время массовых поставок процессоров.

 Источник изображений: Qualcomm

Источник изображений: Qualcomm

В основу Centriq 2400 положены 64-битные вычислительные ядра с кодовым именем Falkor, обладающие поддержкой команд ARMv8. Количество таких ядер в составе чипов может достигать 48. Максимальная тактовая частота — 2,6 ГГц.

При изготовлении изделий применяется 10-нанометровая технология Samsung FinFET. Процессоры насчитывают до 18 млрд транзисторов. Каждая пара ядер снабжена 512 Кбайт общей кеш-памяти L2, а объём кеша L3 у чипов достигает 60 Мбайт.

В состав Centriq 2400 вошли 6-канальный контроллер памяти с поддержкой DDR4-2667 МГц ECC (до двух модулей на канал), 32 линии PCI Express 3.0, интерфейсы SATA, USB и пр.

Процессоры ориентированы на современные облачные платформы и центры обработки данных. Более подробную информацию о технических характеристиках можно найти здесь.

Что касается стоимости, то изделие Qualcomm Centriq 2460, насчитывающее 48 вычислительных ядер, обойдётся заказчикам в 1995 долларов США.

Постоянный URL: http://servernews.ru/961262
02.11.2017 [12:12], Алексей Степин

Qualcomm готовит почву для серверного процессора Centriq

Компанию Qualcomm представлять не надо — множество смартфонов оснащены именно процессорами этого разработчика, и многие пользователи не без оснований считают их лучшими, ставя данную серию выше моделей Samsung Exynos или MediaTek. С другой стороны, архитектура ARM пусть и очень медленно, но всё же проникает на корпоративный рынок, а именно — в сектор серверных решений. Известны проекты таких компаний, как Cavium, Applied Micro и даже AMD.

Не стоит удивляться тому, что Qualcomm, имея огромный опыт в разработке процессоров с архитектурой ARM, тоже решила откусить кусочек от готовящегося пирога. Уже в течение двух лет существуют слухи о серверном процессоре Qualcomm, но теперь эти слухи переходят в разряд фактов. Последние несколько месяцев представители компании довольно охотно рассказывали о новом процессоре класса SoC под названием Centriq 2400.

 Шестиканальный контроллер памяти обещает отсутствие нехватки ПСП

Шестиканальный контроллер памяти обещает отсутствие нехватки ПСП

Так, теперь известно, что этот чип будет производиться с использованием 10-нанометрового техпроцесса, и главной целевой аудиторией этого продукта станут поставщики облачных услуг и владельцы крупных ЦОД, для которых очень важную роль играют такие параметры, как энергопотребление и энергоэффективность процессоров. Замах Qualcomm взяла серьезный: если верить заявлениям, система на базе одного процессора Centriq сможет предложить уровень производительности, эквивалентный решениям на базе пары процессоров Xeon с архитектурой Skylake.

В отличие от Intel, Qualcomm не обязана тянуть за собой тяжкое наследие совместимости с процессорами настольного класса и использует в своей разработке всё лучшее, что было воплощено в чипах для смартфонов и планшетов. Centriq 2400 должен получить 24 процессорных ядра с кодовым названием Falkor. Это архитектура собственной разработки Qualcomm, но отвечающая всем требованиям стандарта ARMv8.

 Выглядит Cenriq практически так же, как и обычные Xeon, Opteron или EPYC

Выглядит Cenriq практически так же, как и обычные Xeon, Opteron или EPYC

На диаграмме слово Duplex присутствует не зря, поскольку в целом можно говорить о 48 однопоточных ядрах, но в будущем компания планирует наращивать и количество ядер, и количество потоков на ядро. Интересен также тот факт, что Intel отказалась от кольцевой внутренней шины в новых Xeon, а Qualcomm, наоборот, пришла к этой идее. Контроллер памяти DDR4 у Centriq шестиканальный и дополненный, к тому же, средствами аппаратного сжатия данных. Имеется встроенная поддержка сетевых стандартов 10 и 100 GbE, 32 линии PCIe (скорее всего, 3.0) и функций южного моста, а также развитая подсистема управлением питанием.

В рамках Open Compute Project компания уже разработала две референсные платформы формата 1OU — с одним либо с двумя процессорными разъёмами под Centriq. Пока это практически всё, что известно о Сentriq 2400. Кое-что было опубликовано нами ранее, но пока мы не знаем тактовых частот и сроков начала массовых поставок. Однако судя по имеющимся сведениям, Qualcomm решила заняться развитием серверной ветки ARM всерьёз и надолго.

Постоянный URL: http://servernews.ru/960898
23.08.2017 [12:40], Геннадий Детинич

Qualcomm поделилась деталями о 48-ядерных процессорах Centriq 2400

Пять лет назад компания Qualcomm приступила к разработкам процессора для серверного рынка. Успешный разработчик уникальных вычислительных архитектур, совместимых с наборами команд ARM, вполне обоснованно решил перенести опыт создания SoC для смартфонов и планшетов в область высокопроизводительных серверных решений. К тому времени требования к серверным процессорам изменились в сторону снижения потребления и лучшей масштабируемости. Социальные сети и облачные сервисы создают настолько неравномерную нагрузку на вычислительные ресурсы ЦОД, что обычные x86-совместимые или RISC/UNIX-платформы перестают считаться эффективным инструментом для решения насущных задач.

В декабре 2016 года Qualcomm сообщила о завершении разработки и начале пробных поставок процессора Centriq 2400 с числом ядер до 48 штук. На днях компания подтвердила график вывода новинки на рынок, который предусматривает массовые коммерческие поставки SoC Centriq 2400 позднее в текущем году. Также Qualcomm поделилась деталями о строении и архитектуре Centriq 2400. Ниже мы расскажем о ключевых особенностях разработки.

Начнём с того, что внутренний согласованный интерфейс однокристальной сборки Centriq 2400 представляет собой сегментированную кольцевую шину. Компания Intel, как нам известно, в новых серверных и высокопроизводительных настольных процессорах перестанет использовать кольцевую шину в пользу ячеистой шины, что должно улучшить масштабируемость архитектуры для многоядерного окружения. Компания AMD использует другой принцип обмена данными между кластерами в процессорах на ядрах Zen. Все они соединены между собой двунаправленной шиной, топология которой ближе к кольцевой. Сегментированная кольцевая шина в составе Centriq 2400 использует преимущества кольцевой шины (простота, сравнительно низкое потребление) и элементы ячеистой сети внутри сегмента, что даёт возможность балансировать между скоростью, задержками и потреблением.

Вычислительные ядра в составе Centriq 2400 самостоятельно разработаны инженерами компании и носят кодовое имя Falkor. Это 64-битные решения с поддержкой команд ARMv8, которые разбиты на модули из двух связанных ядер (дуплексное строение, по определению Qualcomm). Подобное строение позволяет выпускать SoC Centriq 2400 с заданным числом ядер и облегчает масштабирование вычислительной структуры в процессе выполнения задачи. Каждая пара ядер имеет разделяемую кеш-память L2 и разделяемый доступ к кольцевой шине Qualcomm System Bus (QSB).

Для снижения потребления каждое ядро и кеш-память L2 имеют ряд состояний потребления энергии, которые контролируются на аппаратном уровне и могут переключаться с минимальными задержками. Вычислительные конвейеры Falkor имеют переменную длину с внеочередным исполнением команд. Это снижает вероятность простоя конвейеров в процессе работы с командами и инструкциями, не оптимизированными для немедленного исполнения.

Иерархия кеш-памяти Falkor оптимизирована для обработки значительных массивов данных. Так, кеш-память первого уровня для приёма данных объёмом 32 Кбайт дополнена «несимметричной» кеш-памятью L1 для инструкций: 24 Кбайт L0 и 64 Кбайт L1 (всего 88 Кбайт). Всё это снабжено многоуровневым движком предварительной выборки, который динамически адаптируется под текущую нагрузку.

В состав SoC Centriq 2400 вошли 6-канальный контроллер памяти с поддержкой DDR4-2667 МГц ECC (до двух модулей на канал), 32 линии PCI Express 3.0, интерфейсы SATA, USB и более специализированные сигнальные структуры. Также Centriq 2400 несёт интегрированный криптографический блок TrustZone и поддерживает аппаратную виртуализацию. В компании Qualcomm уверены, что данную разработку ждёт успешное будущее.

Постоянный URL: http://servernews.ru/957426