Материалы по тегу: cpu

01.07.2020 [20:50], Алексей Степин

IBM открыла ядро своих POWER-процессоров для суперкомпьютеров BlueGene/Q

Господству x86, пожалуй, куда больше угрожает семейство архитектур ARM, нежели POWER, однако в рамках проекта OpenPOWER экосистему можно назвать живой, тем более что среди активных вкладчиков есть европейская лаборатория открытых компьютерных архитектур. Архитектура POWER по решению IBM стала открытой ещё в августе прошлого года и сейчас плоды этого решения начинают появляться.

На проходящем сейчас саммите Linux Foundation Open Source было анонсировано новое открытое процессорное ядро A2I, базирующееся на этой архитектуре. Новая разработка предназначена для заказных и встраиваемых систем-на-чипе (SoC) сравнительно небольшой мощности.

A2I не поддерживает внеочередного исполнения инструкций, но мультипоточность в нём реализована, а главный упор сделан на увеличение пропускной способности по всем каналам передачи данных, что немаловажно для активно растущего сегмента периферийных вычислений.

В основу дизайна A2I легло ядро Edge-of-Network под названием PowerEN, которое использовалось в процессорах общего назначения POWER-A2 в составе HPC-систем и суперкомпьютеров серии IBM BlueGene/Q. Что удивительно, данное ядро не поддерживает спекулятивное исполнение команд, то есть оно не подвержено уязвимостям класса Spectre/Meltdown.

Сам дизайн A2I является модульным, что позволяет создавать оптимизированные под конкретную задачу SoC. Процессор может быть дополнен «вспомогательным исполнительным блоком» (Auxiliary Execution Unit), тесно связанным с основным ядром. Набор инструкций соответствует спецификациям PowerISA v2.06 в 64-битном варианте.

Порядок байт в системах Big Endian и Little Endian

Порядок байт в системах Big Endian и Little Endian

Изначально ядро данной серии разрабатывалось под 45-нм техпроцесс, но даже тогда оно имело площадь всего 2,9 мм2 и при частоте 2,3 ГГц укладывалось в теплопакет менее 1 Ватта; ожидается, что применение современных 7-нм производственных норм позволит довести эти показатели до 0,17 мм2 и 0,5 Ватта при частоте 4,2 ГГц. Четырёхъядерный чип с поддержкой SMT4 может уложиться в 2 Ватта.

Предусмотрены кеши инструкций и данных объёмом 16 Кбайт каждый, объём кешей других уровней, по-видимому, оставлен на усмотрение разработчика. Имеется встроенный MMU, способный адресовать до 4 Тбайт физической памяти. Процессор может работать в обоих режимах endian: big и little. Ядро A2I стало полностью открытым, и вся информация о нём содержится в соответствующем репозитории GitHub.

При этом надо понимать, что открыто только ядро, а не процессор POWER-A2 целиком. Последний состоял из 18 ядер, одно из которых было служебным, а ещё одно — запасным. L1-кеш был представлен SRAM, а L2 состоял из eDRAM. Помимо обычных ядер в нём имелись отдельные акселераторы для работы с XML, шифрования, компресии и обработки регулярных выражений, а также 4 канала 10GbE. По отзывам тех лет, процессор был невероятно сложным, но, как показала практика, в конечном итоге достаточно эффективным.

Постоянный URL: http://servernews.ru/1014711
01.07.2020 [14:08], Алексей Степин

Intel опубликовала первые сведения о новых инструкциях AMX

Изначально процессоры x86 были довольно простыми устройствами. Постепенно они обросли дополнительными наборами инструкций, начиная с MMX и заканчивая AVX-512. Но на AVX-512 прогресс не остановился, и x86 продолжает развиваться, что вполне логично на фоне активного наступления других архитектур. На днях Intel опубликовала сведения о наборе инструкций AMX, который будет реализован в Xeon Scalable следующего поколения.

Набор AMX (Advanced Matrix Extension) продолжает традицию снабжать современные процессоры инструкциями, облегчающими процесс вычислений для специфичных задач. Особенно для тех, что связаны с машинным интеллектом и обучением нейросетей. Первым таким набором Intel стали расширения AVX-512 VNNI (DL Boost), дебютировавшие в семействе Cascade Lake и предназначенные для векторных вычислений в формате INT8.

В Xeon Scalable Cooper Lake они получили поддержку формата bfloat16, также востребованного в системах машинного обучения, что позволило использовать CPU и для обучений нейросетей, а не только исполнения как прежде. Третьим же расширением в рамках инициативы Intel DL Boost станет AMX (Advanced Matrix Extension) — оно появится в четвёртом поколении процессоров Xeon Scalable Sapphire Rapids.

Также AMX можно назвать первым крупным расширенным набором команд со времён внедрения AVX-512. Оба варианта DL Boost строились на базе AVX-512, в то время как AMX является отдельным, независимым набором расширений. В целом, архитектура x86 затронута не будет, как это было и с AVX/AVX2, но процессоры получат новый регистровый файл с восемью тензорными регистрами («тайлами») максимальным размером в шестнадцать 64-байт строк (1 Кбайт на регистр, 8 Кбайт на файл).

Инструкции AMX будут синхронизированы с операциями load/store; использовать их можно будет одновременно с любым другим кодом, включая AVX2 и AVX-512. Также в AMX реализована новая концепция «ускорителей» (accelerators), которые и будут работать с вышеупомянутыми «тайлами». Сами «тайлы» заданы не жёстко и их можно конфигурировать через специальный регистр управления — задавать число строк и количество байт в строке для оптимального использования того или иного алгоритма.

В настоящее время набор AMX включает в себя всего 12 новых инструкций. Условно их можно разделить на три категории: инструкции конфигурирования, управление «тайлами» и работы с «тайлами». Стоит отметить, что «тайлы» могут использовать скалярное произведение (dot-product) векторов в форматах INT8 и BF16, реализованных ранее в Cascade Lake и Cooper Lake. Пока в спецификациях описан лишь один «ускоритель» — перемножение матриц «тайлов» (TMUL), однако это лишь начало.

Сейчас кристаллы с поддержкой AMX уже имеются лабораториях Intel. Компания сообщила о том, что «кремний» Sapphire Rapids успешно запущен и тестируется. Ожидать появления новых процессоров следует в 2021 году. А что касается AMX, то компания уже опубликовала подробную документацию на новые расширения. Скачать её можно с сайта Intel. Нужные сведения описаны в третьей главе документа и выделены зелёным цветом.

Постоянный URL: http://servernews.ru/1014687
25.06.2020 [21:10], Алексей Степин

ISC 2020: Tachyum анонсировала 128-ядерные ИИ-процессоры Prodigy и будущий суперкомпьютер на их основе

Машинное обучение в последние годы развивается и внедряется очень активно. Разработчики аппаратного обеспечения внедряют в свои новейшие решения поддержку оптимальных для ИИ-систем форматов вычислений, под этот круг задач создаются специализированные ускорители и сопроцессоры.

Словацкая компания Tachyum достаточно молода, но уже пообещала выпустить процессор, который «отправит Xeon на свалку истории». О том, что эти чипы станут основой для суперкомпьютеров нового поколения, мы уже рассказывали читателям, а на конференции ISC High Performance 2020 Tachyum анонсировала и сами процессоры Prodigy, и ИИ-комплекс на их основе.

Запуск готовых сценариев машинного интеллекта достаточно несложная задача, с ней справляются даже компактные специализированные чипы. Но обучение таких систем требует куда более внушительных ресурсов. Такие ресурсы Tachyum может предоставить: на базе разработанных ею процессоров Prodigy она создала дизайн суперкомпьютера с мощностью 125 Пфлопс на стойку и 4 экзафлопса на полный комплекс, состоящий из 32 стоек высотой 52U.

Основой для новой машины является сервер-модуль собственной разработки Tachyum, системная плата которого оснащается четырьмя чипами Prodigy. Каждый процессор, по словам разработчиков, развивает до 625 Тфлопс, что дает 2,5 Пфлопс на сервер. Компания обещает для новых систем трёхкратный выигрыш по параметру «цена/производительность» и четырёхкратный — по стоимости владения. При этом энергопотребление должно быть на порядок меньше, нежели у традиционных систем такого класса.

Архитектура Prodigy представляет существенный интерес: это не узкоспециализированный чип, вроде разработок NVIDIA, а универсальный процессор, сочетающий в себе черты ЦП, ГП и ускорителя ИИ-операций. Структура кристалла построена вокруг концепции «минимального перемещения данных». При разработке Tachyum компания принимала во внимание задержки, вносимые расстоянием между компонентами процессора, и минимизировала их.

Процессор Prodigy может выполнять за такт две 512-битные операции типа multiply-add, 2 операции load и одну операцию store. Соответственно то, что каждое ядро Prodigy имеет восемь 64-бит векторных блока, похожих на те, что реализованы в расширениях Intel AVX-512 IFMA (Integer Fused Multiply Add, появилось в Cannon Lake). Блок вычислений с плавающей точкой поддерживает двойную, одинарную и половинную точность по стандартам IEEE. Для ИИ-задач имеется также поддержка 8-битных типов данных с плавающей запятой.

Векторные и матричные операции — сильная сторона Prodigy. На перемножении-сложении матриц размерностью 8 × 8 ядро развивает 1024 Флопс, используя 6 входных и 2 целевых регистра (в сумме есть тридцать два 512-бит регистра). Это не предел, разработчик говорит о возможности увеличения скорости выполнения этой операции вдвое. Tachyum обещает, что система на базе Prodigy станет первым в мире ИИ-кластером, способным запустить машинный интеллект, соответствующий человеческому мозгу.

С учётом заявлений о 10-кратной экономии электроэнергии и 1/3 стоимости от стоимости Xeon, это заявление звучит очень сильно. Но Prodigу — не бумажный продукт-однодневка. Tachyum разработала не только сам процессор, но и всю необходимую ему сопутствующую инфраструктуру, включая и компилятор, в котором реализованы оптимизации в рамках «минимального перемещения данных».

Новинка разрабона с использованием 7-нм техпроцесса, максимальное количество ядер с вышеописанной архитектурой — 64. Помимо самих ядер, кристалл T864 содержит восьмиканальный контроллер DDR5, контроллер PCI Express 5.0 на 64 (а не 72, как ожидалось ранее) линии и два сетевых интерфейса 400GbE. При тактовой частоте 4 ГГц Prodigy развивает 8 Тфлопс на стандартных вычислениях FP32, 1 Пфлоп на задачах обучения ИИ и 4 Петаопа в инференс-задачах.

Самая старшая версия, Tachyum Prodigy T16128, предлагает уже 128 ядер с частотой до 4 ГГц, 12 каналов памяти DDR5-4800 (но только 1DPC и до 512 Гбайт суммарно), 48 линий PCI Express 5.0 и два контроллера 400GbE. Производительность в HPC-задачах составит 16 Тфлопс, а в ИИ — 262 Тфлопс на обучении и тренировке. 

Системные платы для Prodigy представлены, как минимум, в двух вариантах: полноразмерные четырёхпроцессорные для сегмента HPC и компактные однопроцессорные для модульных систем высокой плотности. Полноразмерный вариант имеет 64 слота DIMM и поддерживает модули DDR5 объёмом до 512 Гбайт, что даёт 32 Тбайт памяти на вычислительный узел.

Сам узел полностью совместим со стандартами 19″ и Open Compute V3, он может иметь высоту 1U или 2U и поддерживает питание напряжением 48 Вольт. Плата имеет собственный BIOS UEFI, но для удалённого управления в ней реализован открытый стандарт OpenBMC.

Tachyum исповедует концепцию универсальности, но всё-таки узлы для HPC-систем на базе Prodigy могут быть нескольких типов — универсальные вычислительные, узлы хранения данных, а также узлы управления. В качестве «дисковой подсистемы» разработчики выбрали SSD-накопители в формате NF1, подобные представленному ещё в 2018 году накопителю Samsung.

Таких накопителей в корпусе системы может быть от одного до 36; поскольку NF1 существенно крупнее M.2, поддерживаются модели объёмом до 32 Тбайт, что даёт почти 1,2 Пбайт на узел. Стойка с модулями Prodigy будет вмещать до 50 модулей высотой 1U или до 25 высотой 2U. Согласно идее о минимизации дистанций при перемещении данных, сетевой коммутатор на 128 или 256 портов 100GbE устанавливается в середине стойки.

Такая конфигурация работает в системе с числом стоек до 16, более масштабные комплексы предполагается соединять между собой посредством коммутатора высотой 2U c 64 портами QSFP-DD, причём поддержка скорости 800 Гбит/с появится уже в 2022 году. 512 стоек могут объединяться посредством высокопроизводительного коммутатора CLOS, он имеет высоту 21U и также получит поддержку 800 Гбит/с в дальнейшем.

Компания активно поддерживает открытые стандарты: применён загрузчик Core-Boot, разработаны драйверы устройств для Linux, компиляторы и отладчики GCC, поддерживаются открытые приложения, такие, как LAMP, Hadoop, Sparc, различные базы данных. В первом квартале 2021 года ожидается поддержка Java, Python, TensorFlow, PyTorch, LLVM и даже операционной системы FreeBSD.

Любопытно, что существующее программное обеспечение на системах Tachyum Prodigy может быть запущено сразу в виде бинарных файлов x86, ARMv8 или RISC-V — разумеется, с пенальти. Производительность ожидается в пределах 60 ‒ 75% от «родной архитектуры», для достижения 100% эффективности всё же потребуется рекомпиляция. Но в рамках контрактной поддержки компания обещает помощь в этом деле для своих партнёров.

Разумеется, пока речи о полномасштабном производстве новых систем не идёт. Эталонные платформы Tachyum обещает во второй половине следующего года. Как обычно, сначала инженерные образцы получают OEM/ODM-партнёры компании и системные интеграторы, а массовые поставки должны начаться в 4 квартале 2021 года. Однако ПЛИС-эмуляторы Prodigy появятся уже в октябре этого года, инструментарий разработки ПО — и вовсе в августе.

Планы у Tachyum поистине наполеоновские, но её разработки интересны и содержат целый ряд любопытных идей. В чём-то новые процессоры можно сравнить с Fujitsu A64FX, которые также позволяют создавать гомогенные и универсальные вычислительные комплексы. Насколько удачной окажется новая платформа, говорить пока рано.

Постоянный URL: http://servernews.ru/1014281
23.06.2020 [19:23], Алексей Степин

128 ядер ARM: Ampere Computing анонсировала процессоры Altra Max

На первый взгляд, позиции архитектуры x86 в мире высокопроизводительных вычислений выглядят незыблемыми: примерно 94% всех систем класса HPC используют в качестве основы процессоры Intel и ещё 2,2% занимает AMD. Однако запуск кластера Fugaku доказал, что ARM — соперник весьма и весьма опасный.

Система на базе процессоров Fujitsu A64FX использует именно архитектуру ARM. И наступление ARM продолжается и на других фронтах: к примеру, AWS предлагает инстансы на собственных ARM-процессорах Graviton2. Не дремлет Ampere Computing, анонсировавшая сегодня новые процессоры Altra и Altra Max.

Разработкой мощных многоядерных процессоров с архитектурой ARM компания занимается довольно давно: в конце прошлого года она уже рассказывала о втором поколении своих продуктов, чипах QuickSilver. В их основу лег дизайн ядра ARM Neoverse N1 (ARM v8.2+), количество самих ядер достигло 80, появилась поддержка интерфейса PCI Express 4.0, чего, например, до сих пор нет в процессорах Intel Xeon Scalable.

Серверные процессоры с архитектурой ARM доказали своё превосходство в энергоэффективности перед x86, что сделало их отличным выбором для облачных сервисов — в таких ЦОД плотность упаковки вычислительных мощностей максимальна и такие параметры, как удельная производительность, энергопотребление и тепловыделение играют крайне важную роль. Новые процессоры Ampere под кодовым именем Altra нацелены именно на этот сектор рынка.

В основе Altra также лежит ядро Neoverse N1 — оно же применено и в проекте Amazon Graviton2 — но Ampere Computing намеревается охватить с помощью Altra остальных крупных провайдеров облачных услуг, которые также заинтересованы в высокоплотных энергоэффективных ЦП. При этом утверждается, что Altra превосходит Graviton2; по крайней мере, на бумаге это выглядит убедительно.

Всего в серии Altra анонсировано 12 процессоров, с количеством ядер от 32 до 80, частотами от 1,7 до 3,3 ГГц и теплопакетами от 45 до 250 Ватт. Все они располагают восьмиканальным контроллером памяти DDR4-3200 (до 4 Тбайт на процессор) и предоставляют в распоряжение системы 128 линий PCI Express 4.0, чем пока могут похвастаться разве что AMD Rome. Применена очень простая система наименований: например, «Q72-30» означает, что перед нами 72 ядерный процессор поколения QuickSilver с частотой 3 ГГц.

Altra следует большинству современных тенденций в процессоростроении: процессоры располагают солидным массивом кешей (1 Мбайт на ядро, 32 Мбайт L3), ядра имеют два 128-битных блока инструкций SIMD, а также поддерживают популярные в задачах машинного интеллекта и инференс-комплексах форматы вычислений INT8 и FP16. Что касается удельной энергоэффективности, то ядро AMD Rome потребляет около 3 Ватт при полной нагрузке на частоте 3 ГГц, а для Altra Q80-30 этот показатель равен 2,6 Ватта; турборежима у Altra, впрочем, нет и максимальные частоты справедливы для всех ядер.

В настоящий момент компания поставляет образцы платформ Altra двух типов: однопроцессорную Mt. Snow и двухпроцессорную Mt. Jade. В число партнёров компании входят такие производители, как GIGABYTE и Wiwynn, заявлен также ряд контрактов с производителями более низких эшелонов. В основе Mt. Jade, вероятнее всего, лежит системная плата GIGABYTE MP32-AR0, о ней мы уже рассказывали нашим читателям.

Цены новых решений пока не разглашаются, однако, заинтересованные в процессорах Ampere провайдеры уже в течение двух месяцев тестируют новые платформы; в их число входят такие компании, как Packet и CloudFlare, причём Packet уже предоставляет своим клиентам «ранний доступ» к услугам, запускаемым на новых платформах Ampere. Более массовых поставок следует ожидать в августе и сентябре текущего года.

80 ядер — весьма солидное количество, даже в арсенале AMD таких процессоров ещё нет, семейство EPYC всё ещё ограничено 64 ядрами, но с SMT. Однако на достигнутом Ampere не останавливается и позднее в этом году планирует представить миру настоящего монстра — 128-ядерный процессор Altra Max, на базе всё той же архитектуры QuickSilver/Neoverse.

Этот чип имеет кодовое имя Mystique, он будет базироваться на новом дизайне кристалла, однако отличия здесь количественные, качественно это всё та же Altra, но с большим количеством ядер, оптимизированная с учётом возможностей сохранённой неизменной подсистемой памяти. Сохранится даже совместимость по процессорному разъёму. Образцы Altra Max если и существуют, то только в лаборатории Ampere Computing, а публичного появления сэмплов этих процессоров следует ожидать не ранее 4 квартала с началом производства в 2021 году.

Таким образом, можно утверждать, что технологическая ступень 7 нм компанией освоена. Она штурмует новую высоту — образцы процессоров Siryn, построенные с использованием 5-нм техпроцесса TSMC должны появиться ближе к концу следующего года. Некоторые блоки Siryn уже существуют в кремнии. Эти процессоры получат и новую платформу, а, возможно, и поддержку таких технологий, как PCI Express 5.0 и DDR5.

Постоянный URL: http://servernews.ru/1014076
18.06.2020 [16:00], Алексей Степин

Intel представила Xeon Cooper Lake, третье поколение Scalable-процессоров

Крупнейший в мире производитель процессоров с архитектурой x86, компания Intel, представила новую платформу, нацеленную на быстро растущий рынок машинного обучения, аналитики и периферийных вычислений. Хотя платформа состоит из нескольких компонентов, главным из них являются новые процессоры Intel Xeon Scalable — это уже третье поколение серии Scalable.

Первое поколение Xeon Scalable (Skylake) отличалось наличием поддержки векторных расширений с длиной 512 бит, хотя эта поддержка была наиболее полной в других процессорах с разъёмом LGA 3647, ныне почивших Xeon Phi 72xx. Во втором поколении Xeon Scalable, известном под кодовым именем Cascade Lake, появились расширения AVX-512 VNNI (Vector Neural Network Instructions, они же DL Boost), и это был первый реверанс в сторону машинного обучения со стороны Intel — расширения позволялил работать с INT8 и подходили для инференса.

Третье поколение, получившее имя Cooper Lake, ещё больше продвинулось в сторону поддержки нетипичных для традиционной архитектуры x86 форматов вычислений. Главным нововведением здесь является поддержка формата bfloat16, который часто используется в комплексах машинного обучения и системах принятия решений (инференс). Он требует меньше вычислительных мощностей, нежели традиционные форматы FP32/64, но при этом в большинстве случаев обеспечивает достаточную точность вычислений, а итоговый выигрыш в производительности может быть почти двухкратным.

Популярные фреймворки, такие как TensorFlow и Pytorch, уже давно поддерживают bfloat16, а Intel-оптимизированные версии доступны в комплекте Intel AI Analytics Toolkit. Компания также оптимизировала среды OpenVINO и ONNX с учётом возможностей новых процессоров Xeon Scalable. Собственно говоря, самое главное в Cooper Lake то, что их теперь можно использовать и для обучения нейронных сетей, а не только для инференса. Intel отдельно подчёркивает универсальность новых CPU.

Что касается самих процессоров, то максимальное количество ядер сохранилось, их в серии Xeon Gold 53xx/63xx и Xeon Platinum 83xx по-прежнему 28 при поддержке SMT2. Однако улучшения есть, и достаточно серьёзные. Серия Xeon Platinum поддерживает память до DDR4-3200 (1DPC) и DDR4-2933 (2DPC), хотя младшие пяти- и шеститысячники так же ограничены 2666 и 2933 MT/с. Зато все они поддерживают память Intel Optane DCPMM 2-го поколения. Число каналов память осталось прежним, их шесть.

Существенное отличие от Cascade Lake в том, что теперь у всех CPU есть 6 линий UPI — они могут может «бесшовно» устанавливаться в системы с четырьмя или восемью процессорными разъёмами. Другое важное отличие — серия 53xx теперь имеет два FMA-порта для AVX-512, а не один как раньше. Часть новинок поддерживает Intel Speed Select.

У «ёмких» моделей с суффиксом HL максимальный объём оперативной памяти достиг 4,5 Тбайт, а у базовых H — до 1,12 Тбайт. Несколько подросли тактовые частоты, в серии есть модели с частотной формулой 2,9 ‒ 4,3 ГГц, причём большая часть новинок имеет частоту в турборежиме более 4 ГГц. Исключение — модели с пониженным энергопотреблением.

Всё это делает новые процессоры привлекательными для крупных предприятий, облачных провайдеров и гиперскейлеров вообще. Если даже на секунду забыть все новововведения для ИИ, Cooper Lake всё равно останется многосокетной платформой, а это значит, что он подходит для работы с большими СУБД, анализа больших объёмов данных в реальном времени, OLTP и виртуализации. В области 4S/8S-платформ у Intel давно крепкие позиции, так что новинки наверняка приглянутся определённому кругу заказчиков. Но массовыми Cooper Lake в текущем виде не станут.

Основной системный чипсет — Intel C620A, то есть обновлённый Lewisburg. В серию пока входит всего три модели, две из которых поддерживают технологию Intel QAT, ускоряющую работы по компресии и шифрованию. Так это обновление уже имеющихся чипсетов, поддержки PCI Express 4.0 нет. Сами процессоры Xeon Scalable третьего поколения по-прежнему могут предоставить в распоряжение системы до 48 линий PCIe 3.0. С учётом того, что ориентированы они на 4-сокетные системы, этого может быть вполне достаточно.

Однако другие процессоры Xeon Scalable «Ice Lake», для одно-двухсокетных платформ Whitley, которые Intel планирует представить позднее в этом году, уже получат поддержку PCI Express 4.0. Также известно, что четвёртое поколение Xeon Scalable под именем Sapphire Rapids получит набор новых матричных расширений (Advanced Matrix Extensions, AMX), которые, вероятно, буду напоминать тензорные ядра. Она увидит свет уже в 2021 году. Для массовых одно- и двухсокетных платформ пока предлагается использовать Cascade Lake Refresh

Вместе с Intel Xeon Cooper Lake компания также анонсировала второе поколение памяти Intel Optane DCPMM 200, накопители  Intel D7-P5500 и D7-5600 с интерфейсом PCIe 4.0 и новую FPGA Intel Stratix 10 NX.

Постоянный URL: http://servernews.ru/1013585
12.06.2020 [20:10], Алексей Степин

Разработчикам ПО предложен бесплатный удалённый доступ к серверам Эльбрус

Любая платформа не имеет смысла без программного обеспечения, а программная часть должна учитывать архитектурные особенности системы для достижения наибольшей эффективности. Российские процессоры Эльбрус уникальны, а значит, инициатива компании-разработчика, МЦСТ, открывшей «сетевую лабораторию» поможет разработчикам ПО.

Российские процессоры Эльбрус используют архитектуру VLIW. Они также имеют механизм динамической бинарной трансляции, что позволяет запускать ПО для архитектуры x86, но ценой потери производительности. Вот почему разработка нативных программ, непосредственно работающих в системе с Эльбрус, или портирование так важны для успеха платформы.

Наиболее продвинутые модели процессоров Эльбрус имеют 8 ядер (Эльбрус-8C/CB), и в планах МЦСТ есть модели с 16 ядрами. Разработчики осознают всю важность программной части платформы, поэтому на базе Центра исследований и разработок МЦСТ и ИНЭУМ была открыта «сетевая лаборатория», включающая в себя несколько систем на базе этих процессоров, к которым можно получить удалённый доступ, причём бесплатный. Максимальный срок составляет 3 месяца, но он может быть продлён. 

При этом доступна не только текстовая консоль (через SSH), но и графическая, за счёт проброса X11 или VNC. Стенды являются многопользовательскими, поэтому права системного администратора не предоставляются, но в случае необходимости можно обратиться за получением уровня суперпользователя. А если требуется монопольный доступ к системе, её можно получить во временное пользование физически.

Для получения сетевого доступа достаточно заполнить заявку и копию открытого ключа в формате OpenSSH на адрес user@mcst.ru, а бланк заявки можно скачать с сайта МЦСТ. Отдельно оговаривается, что заявитель должен предоставить описание своего проекта, обязан изучить документацию и не может публиковать результаты без предварительного согласования. 

Постоянный URL: http://servernews.ru/1013303
01.06.2020 [19:39], Игорь Осколков

Intel пополнила семейство Atom C3000 Denverton новыми моделями: C3338R, C3436L, C3558R и C3758R

Серия процессоров Intel Atom C3000 появилась в 2017 году. Пробные партии были получены заказчиками ещё зимой, а официальный анонс состоялся в августе. Изначально серия включала 15 моделей, к которым осенью 2018-го добавилась ещё одна.

Ну а теперь в семействе Denverton появилось сразу четыре новинки, на этот раз с индексами L и R.

Intel Atom C3000, напомним, базируется на довольно старой по нынешним временам 14-нм архитектуре Goldmont. Данные чипы ориентированы на OEM-производителей и предназначены для встраиваемых и edge/IoT-решений, систем хранения данных и маломощных серверов, в том числе работающих в расширенном температурном диапазоне: -40°…+85° C.

Данные SoC имеют до 16 ядер (HT нет, но есть VT-x/VT-d), 1 или 2 канала памяти (до 265 Гбайт DDR-2400 ECC 256 Гбайт), до 20 линий PCIe 3.0, от 8 16 портов USB 3.0, 6–16 портов SATA3. Отличаются они наличием интегрированного сетевого контроллера, представляющего до четырёх 10GbE-портов с технологией QAT, которая включает встроенный аппаратный ускоритель для работы с криптографией, компрессией и обработки сетевого трафика, избавляющий ядра от лишней нагрузки.

В чём отличия новинок? Intel Atom C3338R по сравнению с C3338 имеют увеличенную на 300 МГц базовую частоту (1,8 ГГц), хотя турбо-частота осталась равна 2,2 ГГц. Он поддерживает вдвое больший объём памяти (256 Гбайт), а для четырёх портов 2,5GbE появилась поддержка QAT. Плата за всё это невелика: выросший на 2 Вт показатель TDP (10,5 Вт) и +$1 к стоимости ($37). На него во многом похож Intel Atom C3436L, который отличается вдвое большими числом ядер (4) и объёмом кеша (8 Мбайт), фиксированной частотой 1,3 ГГц и отсутствием Turbo-Boost. TDP у него равен 10,75 Вт, а вот ценник отличается заметно — за него просят уже $64.

Intel Atom C3558R от базового C3558 отличается 200-МГц приростом базовой частоты (2,4 ГГц), поддержкой памяти DDR4-2400 вместо DDR4-2133, возросшим до 20 числа PCIe-линий (впрочем, точная конфигурация HSIO-линий не раскрывается). Всё это обходится в плюс 1 Вт TDP (17 Вт) и выросшей на десяток долларов ценой — $96. Ровно тем же отличается и C3758R от C3758, не считая цены, которая возросла уже на $16, до $209.

В комментариях ServeTheHome, где и обратили внимание на этот тихий апдейт, отмечают, что от Intel не удалось получить сведения, имеют ли новые чипы аппаратные заплатки против Meltdown/Spectre.

Постоянный URL: http://servernews.ru/1012380
12.05.2020 [09:09], Илья Коваль

Китайские клоны AMD EPYC от Hygon переведут на 7-нм техпроцесс Samsung и TSMC

История с китайскими процессорами Hygon Dhyana, которые являются практически полными копиями AMD EPYC и Ryzen первого поколения на базе Zen 1, получила неожиданное продолжение после прошлогоднего анонса о прекращении дальнейшего сотрудничества в связи с запретом со стороны правительства США.

Китайский ресурс cnBeta сообщил, что в этом году ожидается выход следующего поколения процессоров Hygon. Причём они будут изготавливаться по 7-нм техпроцессу на фабриках Samsung и TSMC.

Источник изображения: Twitter, Serve The Home

Источник изображения: Twitter, Serve The Home

cnBeta приводит схему взаимодействия между AMD и Hygon, которая в целом совпадает с опубликованной ранее. В ней наиболее важно то, что все вносимые Hygon правки проверялись и одобрялись или отклонялись инженерами самой AMD, а финальный продукт отправлялся на «печать» в GlobalFoundries. Впоследствии выяснилось, что отличий модифицированных Zen 1 от оригинала было не так уж много, если не считать реализацию китайских национальных алгоритмов шифрования, а итоговая производительность чипов в среднем оказалась даже хуже, чем у EPYC и Ryzen первого поколения. Впрочем, на фоне других китайских разработок они смотрелись неплохо.

Теперь же, по словам cnBeta, Hygon собрала R&D-команду из более чем 500 инженеров и дальнейшие модификации Zen 1 может разрабатывать уже самостоятельно. Заявление довольно громкое и вызывает много вопросов. Но ещё больше вопросов возникает по поводу перевода чипов Hygon на 7-нм техпроцесс и дальнейшее их изготовление на фабриках Samsung и TSMC — отказ от услуг GlobalFoundries Китаю явно на пользу, но США в этом случае вряд ли останутся в стороне и попытаются найти рычаги влияния на фабрики.

Собственно говоря, вся эта история с Hygon всплыла в связи с недавним сообщением о том, что порядка 20% серверов, которые в этом году закупит China Telecom, будут использовать китайские процессоры: Hygon Dhyana и HiSilicon Kunpeng. Тогда возникли сомнения в корректности этой цифры как раз по причине того, что CPU Hygon основаны на AMD и производятся на GlobalFoundries. Что же, посмотрим, насколько нынешняя информация окажется верна. 

Постоянный URL: http://servernews.ru/1010656
23.04.2020 [21:04], Алексей Степин

SiPearl: европейские CPU для суперкомпьютеров получат ядра ARM Neoverse Zeus

Как мы уже сообщали в начале года, молодая компания SiPearl влилась в консорциум European Processor Initiative и разрабатывает процессоры для будущих европейских суперкомпьютеров нового поколения.

Какой будет архитектура этих процессоров, пока не вполне ясно: речь идёт о нескольких проектах, в частности, на базе RISC-V. Для расширения возможностей SiPearl подписала лицензионное соглашение с ARM, так что в основу будущих ЦП может лечь архитектура ARM Neoverse.

В железе Neoverse уже существует — это чипы Ampere QuickSilver. Сама архитектура Neoverse отличается масштабируемостью: в её рамках возможно создание процессоров с числом ядер от 4 до 128, она поддерживает все современные инфраструктурные расширения, что делает эту архитектуру хорошо подходящей в том числе и для кластерных систем и суперкомпьютеров.

В случае с SiPearl речь идёт о лицензировании более новых ядер «Zeus», которые могут производиться с использованием как 7-нм, так и 5-нм технологических процессов. Это второй этап продвижения платформы Neoverse — на первом доступными для широкого лицензирования были 7-нм ядра под кодовым названием «Ares». Ключевыми особенностями Neoverse можно назвать упор на высокую производительность при исполнении целочисленных операций и использование когерентной ячеистой сети (Coherent Mesh Network, CMN) для системы межсоединений.

Лицензирование поможет SiPearl ускорить разработку новых процессоров: первое поколение чипов будет выпущено уже в 2022 году. Напомним, что в рамках инициативы EPI по созданию европейских процессоров нового поколения прорабатываются и другие компоненты. В частности, ускоритель с конфигурируемой точностью вычислений, могущий работать с числами разрядностью от 32 до 256 бит.

Ожидается, что первый европейский суперкомпьютер экзафлопсного класса будет введён в строй в 2023 году.

Постоянный URL: http://servernews.ru/1009256
14.04.2020 [16:00], Алексей Степин

Курс на повышение: AMD анонсировала высокочастотные процессоры EPYC 7FX2

Процессоры AMD EPYC изрядно повлияли на серверный рынок: даже первое поколение предложило 32 ядра и неплохую производительность. О втором и говорить не приходится: 64 ядра в одном процессорном разъёме и усовершенствованная архитектура понравились многим. Чипы EPYC встречаются везде — от обычных серверов до суперкомпьютеров и облаков.

А сегодня компания представила новые варианты EPYC серии 7FX2 с повышенными тактовыми частотами.

Ранее в этом году мы уже рассказывали читателям, что в списке серверных систем ASUS были замечены процессоры AMD EPYC с повышенными тактовыми частотами. Как известно, даже в нашу эпоху оптимизации программного обеспечения под мультипоточность, остаются сферы, в которых бал по-прежнему правит тактовая частота. Это характерно либо для задач, которые плохо распараллеливаются в принципе, либо там, где требуется минимальная латентность любой ценой.

Эпическая сила: Zen набирает обороты

Эпическая сила: Zen набирает обороты

В модельном ряду EPYC похожих моделей до сегодняшнего дня не было. В сегменте чипов с малым количеством ядер максимальный показатель составлял лишь 3,35 ГГц; флагманский EPYC 7742 тоже мог похвастаться лишь 3,4 ГГц, да и то не для всех ядер в постоянном режиме работы. Но сегодняшним анонсом AMD закрыла это упущение, представив три новых процессора — EPYC 7F32, 7F52 и 7F72.

Новые процессоры EPYC 7FX2

Новые процессоры EPYC 7FX2

Символ F в названии явно указывает на Frequency, тактовую частоту, которой в данном случае AMD уделила наибольшее внимание. За количеством ядер в этой серии компания не гонится: новые процессоры имеют 8, 16 и 24 ядра соответственно. Это всё те же Rome с архитектурой Zen 2.

Однако частотные формулы тут куда более серьёзные, чем ранее: младшая модель, 7F32 имеет базовую частоту 3,7 ГГц при максимально возможной 3,9 ГГц, 16-ядерный 7F52 стартует с отметки 3,5 ГГц, но также способен повышать частоту ядер до 3,9 ГГц.  Старшая модель разгоняется с 3,2 до 3,7 ГГц – и это существенно быстрее старых 24-ядерных 7352 и 7402 с их базовыми 2,3 и 2,8 ГГц и максимальными 3,35 ГГц.

Теплопакеты, что интересно, удалось удержать в приемлемых рамках: компания говорит о значениях 180, 225 и 240 Ватт, соответственно. Объём кеша L3 составляет 128 Мбайт у восьмиядерного чипа и 256 Мбайт у 16-ядерного. А вот 24-ядерный 7F72 по соображениям тепловыделения ограничен 192 Мбайт, хотя и это солидный шаг вперёд — ранее 24-ядерные EPYC Rome имели лишь 128 Мбайт L3.

Лучшая в индустрии удельная производительность

Лучшая в индустрии удельная производительность, говорит AMD

Сочетание высоких тактовых частот и серьёзного объёма кешей делает новые процессоры AMD уникальными и отлично подходящими для самых разных задач. Сама компания говорит об их нацеленности на гиперконвергентную инфраструктуру, коммерческие задачи класса HPC и СУБД. AMD называет новинки лидерами по соотношению цены к производительности, и в этом она, похоже, права.

Процессоры EPYC отлично подходят для сферы супервычислений

Процессоры EPYC отлично подходят для сферы супервычислений

Если принять новые процессоры за единицу, то, согласно тестам AMD, конкурирующие Intel Xeon Gold и Platinum демонстрируют от 96% производительности новых EPYC до откровенно унизительных 32%. Самым сбалансированным решением на сегодня AMD считает EPYC 7F52: эта модель уступает конкурирующему с ней Xeon Gold 6246R лишь в максимальной частоте (3,9 ГГц против 4,1 ГГц), но во всём остальном превосходит, будучи при этом дешевле почти на $200. Правда, стоит учитывать, что официальные цены редко соответствуют реальным.

Новый комплекс SuperBlade на базе EPYC

Новый комплекс SuperBlade на базе EPYC

Крупные производители серверного и HPC-оборудования уже объявили о своих решениях на базе новых процессоров EPYC 7FX2. Компания HPE анонсировала новые серверы с сертификацией Nutanix HCI, IBM говорит о новых 48-ядерных решениях для облачных инстансов, а Dell — о новых серверах PowerEdge R6525 на базе EPYC 7F72.

AMD не отстаёт от плана

AMD не отстаёт от плана

Есть новинка и у Supermicro: это первый в истории компании высокоплотный (20 однопроцессорных лезвий) вычислительный комплекс SuperBlade, оснащённый процессорами AMD. Он поддерживает все процессоры AMD с теплопакетом вплоть до 280 Ватт и использует интерконнект InfiniBand 200G HDR.

В отличие от Intel, AMD с полным правом может говорить о том, что придерживается графика и не испытывает проблем с новыми архитектурами и процессорами. С новым анонсом серию серверных чипов Rome можно, в целом, считать завершённой. Но впереди у «красных» новые высоты, которые им ещё предстоит покорить — это Zen 3 «Milan» и Zen 4 «Genoa».

Постоянный URL: http://servernews.ru/1008391
Система Orphus