Материалы по тегу: процессоры

27.08.2019 [11:00], Геннадий Детинич

Huawei Ascend 910: китайская альтернатива ИИ-платформам NVIDIA

Как всем уже известно, на конференции Hot Chips 31 компания Huawei представила самый мощный в мире ИИ-процессор Ascend 910. Процессоры для ИИ каждый разрабатывает во что горазд, но все разработчики сравнивают свои творения с ИИ-процессорами компании NVIDIA (а NVIDIA с процессорами Intel Xeon). Такова участь пионера. NVIDIA одной из первых широко начала продвигать свои модифицированные графические архитектуры в качестве ускорителей для решения задач с машинным обучением.

Гибкость GPU звездой взошла над косностью x86-совместимой архитектуры, но во время появления новых подходов и методов тренировки машинного обучения, где пока много открытых дорожек, она рискует стать одной из немногих. Компания Huawei со своими платформами вполне способна стать лучшей альтернативой решениям NVIDIA. Как минимум, это произойдёт в Китае, где Huawei готовится выпускать и надеется найти сбыт для миллионов процессоров для машинного обучения.

Мы уже публиковали анонс наиболее мощного ускорителя для ML чипа Huawei Ascend 910. Сейчас посмотрим на это решение чуть пристальнее. Итак, Ascend 910 выпускается компанией TSMC с использованием второго поколения 7-нм техпроцесса (7+ EUV). Это техпроцесс характеризуется использованием сканеров EUV для изготовления нескольких слоёв чипа. На конференции Huawei сравнивала Ascend 910 с ИИ-решением NVIDIA на архитектуре Volta, выпущенном TSMC с использованием 12-нм FinFET техпроцесса. Выше на картинке приводятся данные для Ascend 910 и Volta, с нормализацией к 12-нм техпроцессу. Площадь решения Huawei на кристалле в 2,5 раза больше, чем у NVIDIA, но при этом производительность Ascend 910 оказывается в 4,7 раза выше, чем у архитектуры Volta.

Также на схеме видно, что Huawei заявляет о крайне высокой масштабируемости архитектуры. Ядра DaVinci, лежащие в основе Ascend 910, могут выпускаться в конфигурации для оперирования скалярными величинами (16), векторными (16 × 16) и матричными (16 × 16 × 16). Это означает, что архитектура и ядра DaVinci появятся во всём спектре устройств от IoT и носимой электроники до суперкомпьютеров (от платформ с принятием решений до машинного обучения). Чип Ascend 910 несёт матричные ядра, как предназначенный для наиболее интенсивной работы.

Ядро DaVinci в максимальной конфигурации (для Ascend 910) содержит 4096 блоков Cube для вычислений с половинной точностью (FP16). Также в ядро входят специализированные блоки для обработки скалярных (INT8) и векторных величин. Пиковая производительность Ascend с 32 ядрами DaVinci достигает 256 терафлопс для FP16 и 512 терафлопс для целочисленных значений. Всё это при потреблении до 350 Вт. Альтернатива от NVIDIA на тензорных ядрах способна максимум на 125 терафлопс для FP16. Для решения задач ML чип Huawei оказывается в два раза производительнее.

Помимо ядер DaVinci на кристалле Ascend 910 находятся несколько других блоков, включая контроллер памяти HBM2, 128-канальный движок для декодирования видеопотоков. Мощный чип для операций ввода/вывода Nimbus V3 выполнен на отдельном кристалле на той же подложке. Рядом с ним для механической прочности всей конструкции пришлось расположить два кристалла-заглушки, каждый из которых имеет площадь 110 мм2. С учётом болванок и четырёх чипов HBM2 площадь всех кристаллов достигает 1228 мм2.

Для связи ядер и памяти на кристалле создана ячеистая сеть в конфигурации 6 строк на 4 колонки со скоростью доступа 128 Гбайт/с на каждое ядро для одновременных операций записи и чтения. Для соединения с соседними чипами предусмотрена шина со скоростью 720 Гбит/с и два линка RoCE со скоростью 100 Гбит/с. К кеш-памяти L2 ядра могут обращаться с производительностью до 4 Тбайт/с. Скорость доступа к памяти HBM2 достигает 1,2 Тбайт/с.

В каждый полочный корпус входят по 8 процессоров Ascend 910 и блок с двумя процессорами Intel Xeon Scalable. Спецификации полки ниже на картинке. Решения собираются в кластер из 2048 узлов суммарной производительностью 512 петафлопс для операций FP16. Кластеры NVIDIA DGX Superpod обещают производительность до 9,4 петафлопс для сборки из 96 узлов. В сравнении с предложением Huawei это выглядит бледно, но создаёт стимул рваться вперёд.

Постоянный URL: http://servernews.ru/993066
24.08.2019 [06:14], Андрей Галадей

IBM передала наработки по архитектуре Power сообществу

Корпорация IBM сообщила, что переводит архитектуру набора команд (ISA) Power в разряд открытых решений. То есть, за неё не нужно будет платить, как это было в последние 6 лет. Отмечается, что с 2013 года действовал консорциум OpenPOWER, который лицензировал связанную с Power интеллектуальную собственность. Но теперь все наработки и патенты будут переданы сообществу безвозмездно.

pixabay.com

pixabay.com

Сама же организация OpenPOWER Foundation будет переподчинена Linux Foundation, что позволит создать площадку для развития архитектуры без привязки к чипмейкеру или иной компании. Как отмечается, OpenPOWER Foundation включает в себя более 350 компаний, а сообществу передали свыше 3 млн строк кода системных прошивок, спецификаций и схем. Всё это позволит создавать Power-совместимые чипы всем желающим.

Помимо собственно процессоров, компания передала сообществу и смежные технологии для разработки расширений на основе интерфейсов OpenCAPI (Open Coherent Accelerator Processor Interface) и OMI (Open Memory Interface). Первая технология должна устранить «узкие места» во взаимодействии CPU, GPU, ASIC, а также других чипов и контроллеров. Вторая же должна ускорить оперативную память. Это позволит создавать на базе архитектуры Power специализированные чипы для искусственного интеллекта.

Важно отметить, что процессоры Power позволяют создавать современные серверы и суперкомпьютеры. К примеру, суперкомпьютеры Summit и Sierra работают как раз на таких чипах. А это, на минуточку, первый и второй номера в мировом рейтинге таких систем.

Напомним, на процессорах с архитектурой Power (хотя и специализированных) работали в том числе и консоли Sony PlayStation 3, Xbox 360, а также старые ПК и ноутбуки Apple.

Постоянный URL: http://servernews.ru/992942
27.07.2019 [15:15], Геннадий Детинич

Alibaba представила 16-ядерный RISC-V процессор XT 910 для «умной» периферии и edge-платформ

На днях дочернее подразделение корпорации Alibaba Group компания Pingtouge Semiconductor на тематической конференции в Шанхае представила первый фирменный процессор для «умной» периферии. Китайская разработка XuanTie 910 оказалось уникальной по целому ряду причин, о которых мы поговорим ниже. Но прежде обозначим главное, на чём настаивают китайские источники. Процессор XuanTie 910 поможет китайским компаниям всех уровней сбросить зависимость от ядер ARM и других проприетарных разработок (читай ― сведут на нет опасность санкций со стороны США), поскольку ядра XuanTie 910 используют открытую архитектуру RISC-V с открытым набором команд.

Производительность моделей процессоров семейства XuanTie 910 может варьироваться в широких пределах. 64-бит ядра собираются в кластеры по четыре штуки. В процессоре может быть до четырёх таких кластеров, то есть в максимальной конфигурации XuanTie 910 имеет 16 ядер RISC-V. Больше вряд ли необходимо, но в случае надобности разработчики наверняка смогут увеличить число ядер в процессоре. Относительно небольшое число ядер в процессорах XuanTie 910 объясняется назначением платформы ― стать основой вещей с подключением к Интернету, ассистентов (умных колонок и прочего), самоуправляемых автомобилей, периферии с подключением к сетям 5G, платформ с элементами ИИ и тому подобных решений для пограничных (edge) вычислений и платформ.

По словам разработчиков, XuanTie 910 сегодня является самым производительным решением на архитектуре RISC-V. Это решение на частоте 2,5 ГГц, изготовленное с использованием 12-нм техпроцесса, как заявлено, обеспечивает производительность на уровне 7,1 CoreMark/МГц, что на 40 % больше, чем для существующих сегодня конкурирующих процессоров на архитектуре RISC-V. Если точнее, то сравнение было с 64-бит ядром SiFive U74, которое достигает 5,1 CoreMark/МГц (на ядро). Оно тоже позиционируется как самое мощное решение RISC-V, способное исполнять полноценные ОС вроде Linux. Для сравнения — отечественный процессор Байкал-Т1, согласно нашим прошлогодним тестам, имеет производительность 5,4 CoreMark/МГц (на ядро). 

onties.com

onties.com

Удивительным в этом сообщении наших коллег с EE Times представляется информация о 12-нм техпроцессе, который был задействован для производства XuanTie 910. Этот техпроцесс широко использует только компания GlobalFoundries. В этом случае Alibaba 100-процентно подставляется под санкции США, что нивелирует всякий смысл выбора открытой архитектуры. Впрочем, выводы делать рано, подождём подробности.

Из других интересных особенностей ядер XuanTie 910 отметим 12-уровневый конвейер с внеочередным исполнением команд. За один цикл конвейер может исполнять сразу до 8 инструкций, причём и инструкции загрузки (load), и сохранения (store). Важно, что разработчики добавили в архитектуру RISC-V и процессор 50 новых расширенных инструкций для лучшей работы арифметических операций, доступа к памяти и поддержки многоядерности. Эти инструкции и ряд других решений китайцы сделают достоянием сообщества разработчиков с открытым кодом.

Всё (или почти всё) будет выложено на GitHub, вероятно, в сентябре. Компании важно получить как можно более широкую поддержку со стороны независимых программистов, чему открытость RISC-V будет только способствовать.  Примечательно, что новость о выходе XT 910 исчезла с сайта  RISC-V Foundation через несколько часов после выхода. 

Среди других заметных китайских участников RISC-V Foundation есть Huawei, MediaTek, Huami (партнёр Xiaomi), а также инвестгруппа Xiamen SIG. Сейчас Китай активно развивает импортозамещение. Согласно планам правительства, в 2020 году 40% спроса на полупроводниковую продукцию должны удовлетворить местные производители. В прошлом году, по данным TrendForce, лишь 15% пришлось на «домашние» процессоры. 

Постоянный URL: http://servernews.ru/991463
05.06.2019 [12:29], Геннадий Детинич

Европейской Комиссии представили первый дизайн RISC-V процессора для панъевропейских суперкомпьютеров

Как мы сообщали, в ноябре прошлого года Европейский Союз озвучил намерение прийти к эксафлопсным суперкомпьютерам своим собственным путём. В качестве основы для будущих европейских HPC-платформ для ЦОД, суперрасчётов и автотранспортного рынка была выбрана открытая архитектура RISC-V. Разработкой процессоров и платформ занялся консорциум European Processor Initiative (EPI) с 26 участниками проекта. Это компании и научные учреждения в Европе, включая Atos, CEA, Barcelona Supercomputing Center, ETH Zürich, BMW и других.

На днях сообщество разработчиков EPI сделало первый важный шаг на пути к будущей общеевропейской супервычислительной платформе. По информации интернет-ресурса Data Centre Dynamics, Европейской Комиссии представлен первый архитектурный дизайн RISC-V процессора для панъевропейских суперкомпьютеров. На первом этапе это решение Rhea EP271x на базе RISC-V со встроенной матрицей FPGA. Вошли ли в процессор ядра ARM, не уточняется. Первоначально такие планы были, но не в окончательной редакции. Массовое производство Rhea EP271x стартует позже, возможно уже в следующем году. Первые системы на этом процессоре ожидаются в 2021 году, и они будут до эксафлопсного уровня. Европейские системы с производительностью свыше одного эксафлопса ожидаются в 2022 или в 2023 году.

Группа EPI разрабатывает целый диапазон процессоров на RISC-V от малопотребляющих решений для автомобильной электроники до сверхпроизводительных процессоров для ИИ и суперкомпьютеров. Также создаётся программная и инфраструктурная экосистемы, включая PCIe-адаптеры, blade-серверы и HPC blade. В то же время в Европе не откажутся от заимствования HPC-технологий и платформ. К 2020 году на «импортных» суперплатформах планируется создать (купить) две системы с производительностью до эксафлопсного уровня и две или три системы производительностью несколько петафлопс. В 2022 или в 2023 годах планируется создать две системы эксафлопсного уровня, одна из которых будет на «европейской» платформе. К 2027 году, если квантовые вычислители смогут адаптироваться для работы в области HPC, в Европе может появиться система уровня «после эксафлопс».

Постоянный URL: http://servernews.ru/988683
13.05.2019 [15:20], Алексей Разин

Слухи: процессоры AMD EPYC (Rome) получат эпическое превосходство над Intel Xeon

Интерес аудитории к новым процессорам AMD велик, и не в последнюю очередь он обусловлен надеждой на изменение расстановки сил на рынке x86-совместимых процессоров. Сама компания Intel свою долю в серверном сегменте оценивает в 90 %, если верить продемонстрированным инвесторам на прошлой неделе презентациям. AMD рассчитывает преодолеть десятипроцентный рубеж к середине следующего года, если экспансия процессоров EPYC и дальше пойдёт существующими темпами.

Неделю назад своим представлением о развитии событий поделился Чарли Демерджян (Charlie Demerjian), основатель известного сайта SemiAccurate и автор множества прогнозов, точность которых иногда оставляет желать лучшего. Поскольку указанный информационный ресурс с некоторых пор делится новостями только с подписчиками, вносящими абонентскую плату, конференция Susquehanna с участием основателя сайта позволила очевидцам получить часть информации «в обход кассы».

Подчеркнём, что за достоверность информации несёт ответственность только первоисточник, в роли которого выступает один из участников указанной конференции, поделившийся импровизированной стенограммой выступления Чарли Демерджяна. Тезисы, озвученные Чарли, перечислены на страницах ресурса Reddit:

  • Корпорация Intel страдает от дефицита 14-нм процессоров из-за всплесков спроса на серверные процессоры, а также тенденции к увеличению количества ядер, которая приводит к росту площади кристаллов. Скачки спроса на серверные процессоры были обусловлены появлением новых ревизий, частично устраняющих уязвимости Spectre и Meltdown, а также стремлением клиентов сделать запасы процессоров до введения повышенных пошлин со стороны США.
  • В прошлом Intel заказывала у TSMC выпуск своих продуктов по 65-нм и 40-нм технологии, но сделано это было, якобы, ради ограничения производственных возможностей конкурентов, которые тоже делили с заказами Intel конвейер TSMC.
  • По мнению Чарли, 10-нм технология Intel обречена на провал. Использование новых материалов и литографических приёмов при создании процессоров Cannon Lake привело к тому, что у них не работает встроенная графика, а уровень выхода годной продукции не превышает нескольких процентов. Даже в текущем поколении 10-нм продукты Intel имеют уровень брака в два раза выше, чем выпускаемые по 14-нм технологии.
  • Израильское предприятие Intel, где был налажен выпуск 10-нм продуктов, перепрофилируется на выпуск 14-нм изделий. В целом, выпуском 10-нм процессоров Intel будет заниматься одна фабрика вместо четырёх, запланированных изначально.
  • Объёмы выпуска 10-нм процессоров будут ограничены и в будущем, а главное, они не смогут предложить более высокое быстродействие по сравнению с 14-нм собратьями. Источник утверждает, что по этой причине 10-нм техпроцесс будет использоваться лишь для выпуска мобильных процессоров и ограниченного ассортимента серверных. Даже рядом с Ice Lake-SP будут расположены более производительные 14-нм процессоры Cooper Lake.

Нашлось место в прогнозах Чарли и некоторым тезисам, имеющим отношение к развитию процессоров AMD семейства EPYC:

  • Прошлогодние 14-нм процессоры Naples отстают от нынешних Intel Cascade Lake всего на 10–15 %. С выходом Rome преимущество перейдёт на сторону AMD, поскольку эти процессоры будут на 60 % быстрее Cascade Lake. Процессоры Intel Cooper Lake окажутся на 30 % быстрее Cascade Lake, а 10-нм Ice Lake-SP превзойдут их же на 50 %. Проблема для Intel заключается в том, что в 2020 году у AMD уже будут готовы процессоры Milan с архитектурой Zen 3, которые окажутся в два раза быстрее Cascade Lake.
  • В целом, как утверждает источник, до конца 2021 года AMD будет демонстрировать уверенное преимущество в 50–60 % по уровню быстродействия. По крайней мере, в серверном сегменте.
  • Другим важным преимуществом станет себестоимость продукции AMD. Выпускаемые по второму поколению 7-нм технологии TSMC процессоры Milan получат компоновку из пятнадцати отдельных кристаллов. Это не только надёжнее, чем монолитный кристалл (с точки зрения плотности дефектов), но и дешевле в производстве.

Обсуждаются первоисточником и совсем уж причудливые сценарии вроде возможности выделения производственных мощностей Intel в самостоятельный бизнес. Другое дело, что пока репутации компании нанесён ущерб неудачами с 10-нм техпроцессом, выгодной такая реструктуризация стать не может. Более того, автор утверждает, что все клиенты Intel, которые заказывали компании выпуск 10-нм процессоров, в итоге от её контрактных услуг отказались. Среди них, например, были компании LG, Cisco и Panasonic.

Постоянный URL: http://servernews.ru/987339
19.04.2019 [12:38], Геннадий Детинич

Процессоры на MIPS тоже станут умными и обучаемыми

За последние десять лет жизнь изрядно потрепала архитектуру MIPS. Десять лет назад она начала резко терять популярность на волне интереса к архитектуре ARM и в 2012 году была приобретена компанией Imagination Technologies. Но и с Imagination не сложилось. В 2017 году компания Apple заявила об отказе от графических ядер PowerVR и, тем самым, обанкротила Imagination и пустила по миру разработки MIPS. В 2018 году патенты MIPS и наборы команд купила молодая компания Wave Computing, которая специализировалась не на процессорах, а на ускорителях ИИ. Наконец, в конце 2018-го компания Wave Computing объявляет о планах сделать архитектуру MIPS свободной от лицензирования и уже в марте этого года выпускает первый бесплатный релиз MIPS R6. Но и о себе Wave не забыла. На днях компания выпустила лицензированный продукт TritonAI, который поможет сделать процессоры на архитектуре MIPS умными и обучаемыми.

Поскольку архитектура MIPS в основном ориентирована на периферийные платформы, что не исключает её масштабирование до уровня ЦОД, пакет TritonAI ориентирован в первую очередь на периферийные (пограничные) обучаемые системы и системы с функцией принятия решений. Сама архитектура MIPS при этом остаётся свободной от лицензирования в пределах представленных релизов, хотя определённые ядра компания Wave Computing будет также распространять на условиях лицензии.

Благодаря фирменной технологии WaveFlow платформа TritonAI будет поддерживать произвольные ИИ-алгоритмы, что делает её весьма гибким решением. В общем случае разработчик обещает поддержку ускорения вычислений как целочисленных данных 8/16/32/int, так и bfloat16, а также 32 FP. По умолчанию TritonAI поддерживает ускорение работы ИИ фрейморка Google TensorFlow в ОС Linux. Возможно портирование других фреймворков, например, Caffe2. Для 8-битных целочисленных операций производительность достигает одного PetaTOP на одном ядре в комбинациях матриц 4 × 4 или 8 × 8 для запуска ускорения работы алгоритмов популярных свёрточных нейронных сетей (Convolutional Neural Network, CNN). В рамках 7-нм техпроцесса исполнение CNN на платформе TritonAI может масштабироваться до 8 TOPS/Вт и обеспечить свыше 10 TOPS/мм2 на типичном техпроцессе с обычным вольтажом.

Что касается изменения масштабов платформы, то она допускает работу на массиве от 1 до 6 ядер MIPS с аппаратной поддержкой до 4 автономных вычислительных потоков на каждое ядро. Это масштаб изменения от пограничного устройства, например, из разряда вещей с подключением к Интернету до ускорителей в центрах по обработке данных. Архитектура ядер бесплатна, ИИ за деньги. Это формула успеха? Посмотрим.

Постоянный URL: http://servernews.ru/986145
16.04.2019 [12:30], Геннадий Детинич

Fujitsu приступила к производству суперкомпьютера Post-K

Японский Институт физико-химических исследований RIKEN и компания Fujitsu с октября 2014 года разрабатывают основу для суперкомпьютеров нового поколения. В 2012 году RIKEN и Fujitsu ввели в строй также совместно разработанный суперкомпьютер «K». Новый проект и платформа под названием «Post-K» призваны в 100 раз повысить скорость вычислений на уровне приложений. Система Post-K должна быть введена в строй в 2021 или 2022 году. На днях Fujitsu сообщила, что все стадии разработки проекта завершены, и компания приступила к производству нового суперкомпьютера.

В основе платформы Post-K лежат разработанные Fujitsu 50- и 52-ядерные процессоры A64FX. Вычислительными процессами в A64FX занимаются по 48 ядер, а 2 и 4 других ядра обслуживают коммуникационные и периферийные потребности платформы. В состав узла входит только один процессор, тогда как в стойку помещается 384 узла.

Производительность одного процессора Fujitsu A64FX достигает 2,7 терафлопс на операциях с плавающей запятой с двойной точностью. Решение может переключаться на вычисления с одинарной точностью и на целочисленные расчёты с 16- и 8-битными значениями. Впрочем, возможности подстроиться под расчёты у A64FX существенно шире ― процессор поддерживает масштабирование векторных операций вплоть до 512 бит.

Поддержка масштабируемых векторных инструкций (Scalable Vector Extensions) пришла вместе с новой архитектурой ― Armv8.2-A. Японцы сдались на милость ARM и, возможно, не прогадали. Будет интересно наблюдать, как к этому отнесутся клиенты компании. Дело в том, что во второй половине текущего года Fujitsu обещает начать коммерческие поставки компактных версий суперкомпьютеров на основе платформы Post-K. Эти решения придут на смену небольшим по размерам системам типа Fujitsu Supercomputer PRIMEHPC FX100.

Кроме вычислительных ядер под теплорассеивающей крышкой A64FX будут размещены четыре стека памяти HBM 2 суммарной ёмкостью 32 Гбайт и скоростью обмена с ядрами на уровне 1024 Гбайт/с. Все вычислительные ядра в процессоре разделены на четыре кластера, связанные друг с другом и с другими блоками кольцевой шиной. Внешний интерфейс A64FX представлен шиной Tofu с пропускной способностью 28 Гбит/с. Новая система, как предполагают в профильном японском министерстве, поможет в развитии программы «Общество 5.0» и в научных экспериментах.

Постоянный URL: http://servernews.ru/985938
08.04.2019 [19:28], Андрей Созинов

AMD EPYC «Rome» смогут предложить до 192 линий PCIe 4.0 в двухпроцессорных серверах

Согласно последним данным, компания AMD на выставке Computex 2019 в следующем месяце не только представит настольные процессоры Ryzen 3000, но и поделится подробностями о своих новых серверных чипах EPYC «Rome». Однако благодаря ресурсу ServeTheHome мы уже сейчас узнали об одной крайне важной особенности будущих серверных процессоров AMD.

Согласно сообщению источника, будущие процессоры EPYC «Rome» будут располагать большим числом линий PCI Express, чем предполагалось изначально. Во всяком случае, так может быть в серверах с двумя процессорами. Всё дело в том, что для обеспечения связи между процессорами можно использовать меньше линий PCI Express чем требовалось ранее за счёт перехода на более скоростной интерфейс PCIe 4.0.

Актуальные процессоры AMD EPYC первого поколения для связи друг с другом в двухсокетных конфигурациях используют четыре линии Infinity Fabric, обеспечивающих связь каждого кристалла со своим «собратом» в другом процессоре. И в данном случае каждая линия Infinity Fabric представляет собой интерфейс PCIe 3.0 x16. Поэтому двухпроцессорная конфигурация из тех же флагманских EPYC 7601 предлагает те же 128 линий PCIe 3.0, как и сервер на одном таком процессоре. По 64 линии от каждого процессора используются для их соединения, и по 64 остаются свободными.

Новые процессоры EPYC «Rome» также смогут использовать четыре линии Infinity Fabric для связи друг с другом. Но здесь будут использоваться линии PCIe 4.0 со вдвое большей пропускной способностью по сравнению с PCIe 3.0. Поэтому, общая пропускная способность соединения процессоров может быть избыточна в некоторых случаях.

И в таких случаях можно отключить одну или даже две линии Infinity Fabric, тем самым освобождая по 16 или 32 линии PCIe 4.0 для каждого из процессоров. В сумме с и так свободными линиями это даёт до 192 линий PCIe 4.0 на двухсокетный сервер, к которым можно подключать накопители, ускорители вычислений и прочее оборудование. Конечно, такой подход будет полезен не всем, ведь во многих случаях скорость обмена данным между процессорами важнее. Однако наличие возможности увеличить количество линий PCI Express делает новую платформу AMD более гибкой.

В целом наличие у процессоров AMD EPYC «Rome» столь большого числа линий PCI Express, да к тому же версии 4.0, выгодно отличает их от решений конкурента. Напомним, что даже новые чипы Xeon семейства Cascade Lake используют интерфейс PCIe 3.0. Процессоры Xeon Platinum 9200 (Cascade Lake-AP) способны обеспечить лишь 80 линий PCIe 3.0 в двухсокетной конфигурации. В свою очередь чипы Xeon Cascade Lake-SP имеют по 48 линий, так что два процессора обеспечат 96 линий, и только четыре чипа способны дать 192 линии PCIe 3.0.

Постоянный URL: http://servernews.ru/985514
01.04.2019 [20:50], Андрей Созинов

Образец флагманского 64-ядерного AMD EPYC «Rome» протестирован в SiSoftware

В этом году компания AMD должна начать продажи своих новых серверных процессоров EPYC «Rome», производимых по 7-нм техпроцессу и построенных на архитектуре Zen 2. На текущий момент производители серверов располагают образцами данных процессоров, а потому нет ничего удивительного, что иногда в Сети «всплывают» записи об их тестировании. Например, упоминание 64-ядерного EPYC «Rome» обнаружилось в базе данных тестового пакета SiSoftware.

В бенчмарке «засветился» процессор с кодовым названием AMD ZS1406E2VJUG5_22/14_N, который является тестовым образцом (Qualification Sample) процессора AMD EPYC с 64 ядрами и 128 потоками, то есть флагмана нового поколения. От финальной версии данный образец, скорее всего, отличается лишь тактовыми частотами. Новинка была протестирована в составе сервера Dell PowerEdge R7515.

Базовая тактовая частота протестированного CPU составляет всего 1,4 ГГц, а в режиме Turbo все его 64 ядра способны разгоняться до 2,2 ГГц. Не самые внушительные показатели, но это всё же инженерный образец, и в финальной версии частоты должны быть выше. К тому же, не стоит забывать, что и количество ядер тут отнюдь не маленькое, и это сказывается на частотах. Ещё тест SiSoftware определил наличие у новинки 512 Кбайт кеш-памяти второго уровня на ядро и 256 Мбайт общего кеша третьего уровня.

Сервер Dell на тестовом образце AMD ZS1406E2VJUG5_22/14_N прошёл лишь пару тестов пакета SiSoftware. В обоих случаях новинка показала очень высокие результаты и заслужила оценку «Отличная производительность». Конечно же, это были тесты, способные задействовать множество вычислительных потоков.

Постоянный URL: http://servernews.ru/985119
23.02.2019 [20:20], Геннадий Детинич

Анонс серверных платформ ARM Neoverse E1 и N1: шах и мат, Intel

Уж извините за столь кричащий заголовок, но ARM давно мечтает сказать нечто подобное в отношении серверных платформ Intel. Пока получается не очень. Как говорят в самой ARM, не вышло с первого раза, попробуем во второй. Не получится во второй раз, на третий точно всё будет как надо. А сейчас и повод-то отличный! Разработчики оригинальных ядер ARM из одноимённой компании ударили сразу с двух направлений: по масштабируемым сетевым платформам (Neoverse E1) и по масштабируемым серверным (Neoverse N1). Очевидно, что пока «мата» в этой партии явно не будет. Intel крепко держится за серверные платформы и одновременно тянет руки к периферийным как в виде распределённых вычислительных ресурсов в составе базовых станций, так и в виде обычных периферийных ЦОД. Тем не менее, шансы объявить Intel «шах» у ARM определённо есть.

Рассчитанную на несколько лет вперёд стратегию Neoverse компания ARM представила в середине октября прошлого года. Она предполагает три крупных этапа, в ходе которых будут выходить доступные для широкого лицензирования 64-битные ядра ARM Ares (7 нм), Zeus (7 и 5 нм) и Poseidon (5 нм). Планируется, что каждый год производительность решений будет возрастать на 30 %. Сама компания ARM, напомним, не выпускает процессоры и SoC, а лишь продаёт лицензии на ядра и архитектуру, которые клиенты компании обустраивают нужными им контроллерами и интерфейсами. У ARM настолько многочисленная армия клиентов, что она ожидает буквально цунами из сотен и тысяч миллиардов ядер в год уже в недалёком будущем. Когда-нибудь в этот водоворот ядер будут вовлечены и серверные платформы, а затем количество перейдёт в качество.

Разработка и анонс ядер Neoverse N1 ― это явление народу 7-нм ядер Ares. Процессоры могут нести от 4 до 128 ядер, объединённых согласованной ячеистой сетью. Платформа N1 может служить периферийным компьютером с 8-ядерным процессором с потреблением менее 20 Вт, а может стать сервером в ЦОД на 128-ядерных процессорах с потреблением до 200 Вт. Степень масштабируемости должна впечатлять. Кроме этого, как сообщают в ARM, производительность ядер N1 на облачных нагрузках в 2,5 раза выше, чем у 16-нм ядер предыдущего поколения Cosmos (Cortex-A72, A75 и A53). Кстати, прошлой осенью на платформе Cosmos компания Amazon представила фирменный процессор Graviton.

Производительность N1 при обработке целочисленных значений оказывается на 60 % больше, чем на ядрах Cortex-A72 Cosmos. При этом энергоэффективность ядер N1 также на 30 % выше, чем у ядер Cortex-A72. Как поясняют разработчики, платформа Neoverse N1 построена на «таких инфраструктурных расширениях, как виртуализация серверного класса, современная поддержка сервисов удалённого доступа, управление питанием и производительностью и профилями системного уровня».

Когерентная ячеистая сеть (Coherent Mesh Network, CMN), о которой выше уже говорилось, разработана с учётом высокого соответствия вычислительным возможностям ядер. По словам ARM, сеть обменивается с ядрами такой служебной информацией, которая позволяет устанавливать объём загрузки в память данных для упреждающей выборки, распределяет кеш между ядрами и определяет, как он может быть использован, а также делает много других вещей, которые способствуют оптимизации вычислений.

Интересно отметить, что в составе процессоров на платформе Neoverse N1 может быть существенно больше 128 ядер, но с оптимальной работой возникнут проблемы. Точнее, вычислительная производительность упрётся в пропускную способность памяти. Так, ARM рекомендует для CPU с числом ядер от 64 до 96 использовать 8-канальный контроллер DDR4, а для 96–128 ядерных версий ― контроллер памяти DDR5.

Платформа Neoverse E1 ― это решение для сетевых шлюзов, коммутаторов и сетевых узлов, которое, например, облегчит переход от сетей 4G к сетям 5G с их возросшей требовательностью к каналам передачи данных. Так, Neoverse E1 обещает рост пропускной способности в 2,7 раза, увеличение эффективности при передаче данных в 2,4 раза, а также более чем 2-кратный рост вычислительной мощности по сравнению с предыдущими платформами (ядрами). С масштабируемостью ядер E1 тоже всё в порядке, они позволят создать решение как для базовых станций начального уровня с потреблением менее 35 Вт, так и маршрутизатор с пропускной способностью в сотни гигабайт в секунду.

Что же, ARM расставила на доске новые фигуры. Будет интересно узнать, кто же начнёт игру?

Постоянный URL: http://servernews.ru/983268
Система Orphus