Материалы по тегу: архитектуры

24.10.2018 [22:22], Геннадий Детинич

Китай запустил третий за год прототип эксафлопсного суперкомпьютера

Как сообщает новостное агентство Синьхуа, Китай запустил третий прототип суперкомпьютера эксафлопсного уровня. Эта и две других системы, прототипы которых были запущены в течение прошедшего лета, должны войти в строй в 2020 году. Запуск прототипов позволяет обнаружить и устранить возможные недочёты проектирования, а также на практике уточнить будущие конфигурации и их потребности.

Запущенный на днях прототип станет предтечей эксафлопсной суперсистемы Shuguang. Разработкой суперкомпьютера занимается компания Dawning Information Industry (в китайской версии — Sugon, в русской — Рассвет). Система будет развёрнута в национальных суперкомпьютерных центрах в Шанхае и Шэньчжэне. В основе платформы ожидаются выпущенные в Китае x86-совместимые процессоры. Это важное условие, поскольку США вольны запретить (и запрещали раньше) ввозить в страну процессоры Intel Xeon.

Можно ожидать, что это будут процессоры компании Hygon на ядрах Zen по лицензии компании AMD. Более того, для суперкомпьютера эксафлопсного уровня логичнее использовать новейшие ядра AMD — Zen 2, а, скорее всего — Zen 3, учитывая нескорый ввод системы в эксплуатацию. Другое дело, что из-за каких-либо очередных санкций лицензия AMD может быть отозвана. Точно также под вопросом вероятное сотрудничество с компанией Intel как в плане поставок Xeon, так и с точки зрения заключения лицензионного договора на архитектуру. Но прототип создан, и Китай рассчитывает в скором будущем на x86-совместимый эксафлопсный суперкомпьютер.

Чтобы через два года ненароком не остаться у разбитого корыта без американских процессоров, два других эксафлопсных суперкомпьютера разработаны и запущены в виде прототипов на национальных процессорах. Одна из систем для Национального суперкомпьютерного центра Тяньцзиня, который расположен в Национальном университете науки и технологии обороны в Тяньцзине, станет машиной Tianhe-3 (Млечный путь 3). Платформа Tianhe-3 — это ARM-совместимая архитектура на базе разработок Phytium (Xiaomi).

Вторая система — это прототип суперкомпьютера Sunway для Национального суперкомпьютерного центра в Цзинане. Система Sunway использует RISC-архитектуру собственной разработки в процессорах ShenWei. На основе этих решений, например, работает система Sunway Taihulight производительностью 93 петафлопс, которая уже проходит модернизацию для достижения 200 петафлопс и больше. Удивительно другое: Китай не жалеет ресурсов, чтобы идти к новым вершинам тремя совершенно разными путями.

Постоянный URL: http://servernews.ru/977269
22.08.2018 [13:00], Геннадий Детинич

Раскрыты спецификации ARM-процессоров Fujitsu A64FX для суперкомпьютера Post-K

Примерно через три года начнётся коммерческая эксплуатация суперкомпьютера Post-K, который компании Fujitsu и RIKEN разрабатывают на смену предыдущей совместной системы суперкомпьютера K (начал работать в 2011 году). Новая система Post-K обещает 100-кратно поднять производительность на уровне приложений. И сделано это будет благодаря переходу Fujitsu на ARM-совместимые ядра и новую архитектуру с масштабируемыми векторными инструкциями (Scalable Vector Extensions).

На прошедшей на днях конференции Hot Chips 30 (2018) компания Fujitsu впервые обнародовала спецификации новых процессоров, которые получили обозначение A64FX. Ни «A», ни «64», ни «FX» не имеют отношение к компании AMD, хотя в названии новых суперпроцессоров Fujitsu что-то немного согревает душу. Это процессоры с поддержкой 64-разрядных команд ARM и векторных инструкций длиной до 512 бит. Каждый процессор Fujitsu A64FX будет нести 48 вычислительных ядер и 4 вспомогательных ядра, разделённые на четыре блока, соединённых внутренней кольцевой шиной. Для связи с другими процессорами Fujitsu использует две линии внешнего интерфейса Tofu с пропускной способностью 28 Гбит/с. Строение процессора и внешний скоростной интерфейс обещают значительное наращивание параллелизма в вычислениях.

Fujitsu

Fujitsu

Каждый из 13-ядерных блоков поддержан кеш-памятью L2 объёмом 8 Мбайт. Кроме этого каждый из блоков напрямую обращается к модулю стековой памяти HBM2 объёмом 8 Гбайт. Суммарный объём памяти HBM2 у каждого процессора насчитывает 32 Гбайт, а общая скорость доступа достигает 1024 Гбайт/с. Поскольку память HBM2 можно рассматривать в качестве кеш-памяти третьего уровня, все или большинство операций выполняются в процессоре, что обещает отличный прирост производительности.

Процессор Fujitsu A64FX выпускается с использованием 7-нм техпроцесса, очевидно, что на линиях компании TSMC. Он насчитывает 8,7 млрд транзисторов. Пиковая производительность процессора для операций с двойной точностью достигает 2,7 терафлопс. Процессор без потерь на переход может вычислять операции с одинарной точностью и половинной, соответственно, в два и четыре раза быстрее. Также, за что надо благодарить тему машинного обучения, процессор A64FX оптимизирован для обработки 16- и 8-битных целочисленных значений.

Постоянный URL: http://servernews.ru/974338
04.08.2018 [10:48], Геннадий Детинич

PLDA и HPE будут совместно разрабатывать блоки архитектуры Gen-Z

Как известно, в феврале опубликована финальная версия спецификации стандарта Gen-Z Core Specification 1.0. Завершение работ над спецификацией означает приближение выхода совместимых архитектур, решений и устройств. Стандарт Gen-Z относится к открытым разработкам, что подразумевает снижение порога стоимости для желающих принять участие в развитии данной экосистемы. К сожалению, не все компании придерживаются концепции открытых компьютерных архитектур и протоколов. Компании Intel и NVIDIA, например, так и не стали участниками консорциума Gen-Z, который в 2016 году организовали компании AMD, ARM, Broadcom, Cray, Dell EMC, Hewlett Packard Enterprise, Huawei, IDT, Micron, Samsung, SK Hynix, и Xilinx.

Память станет «центром вселенной» для интерфейса Gen-Z

Память станет «центром вселенной» для интерфейса Gen-Z

Напомним, стандарт Gen-Z призван изменить парадигму вычислительных платформ и уйти от ориентированной на процессоры архитектуры. Вместо этого должны появиться архитектуры, ориентированные на память (Memory-Driven Computing architecture). Это уберёт иерархию в строении вычислительных систем, что снизит задержки при обращении к памяти каждого блока в платформе, отвечающего за вычисления — процессора, ускорителя или контроллера.

Чтобы массе независимых разработчиков решений с использованием элементов архитектуры Gen-Z стало проще, а продукция появилась бы на рынке быстрее, необходимо создать множество совместимых базовых архитектурных решений: стандартных интерфейсов ввода/вывода, сигнальных и управляющих интерфейсов для работы с памятью, процессорами и ускорителями и прочего. Разработкой подобной интеллектуальной собственности совместно будут заниматься компании Hewlett Packard Enterprise (HPE) и PLDA.

Одна из последних реализаций проекта HPE The Machine

Одна из последних реализаций проекта HPE The Machine

У компании PLDA богатый опыт в разработке полупроводниковых IP-блоков для интеграции в сторонние чипы, тогда как компания HPE может считаться специалистом по компьютерным платформам и даже архитектурам. Партнёры уверены, что совместная деятельность приведёт к появлению IP-решений, которые найдут применение как в периферийных устройствах, так и в облачных платформах. Причём у компании HPE есть свой кровный интерес в партнёрстве с PLDA — это продолжение концептуальной разработки платформы The Machine. Данный проект прошёл уже множество стадий и пока далёк от завершения. Но так совпало, что он тоже Memory-центрический, так что HPE ждёт от партнёрства с PLDA большего, чем простого распространения лицензий на IP-блоки.

Постоянный URL: http://servernews.ru/973528
19.04.2018 [10:00], Алексей Степин

POWER9 против x86: кто кого? Первые тесты

Об альтернативных платформах мы, к сожалению, пишем редко, а если и пишем, то речь, как правило, идёт о серверах, суперкомпьютерах и кластерных системах, где процессорные архитектуры, отличные от x86, и не собираются сдавать своих позиций. Но в секторе настольных решений влияние других архитектур, к сожалению, ничтожно, хотя и не равно нулю: разработка серверных приложений под архитектуры SPARC или POWER требует наличия соответствующих рабочих станций. В рамках OpenPOWER платформа POWER9 доступна вообще любому, кто в состоянии позволить себе приобрести комплект Raptor Talos II, состоящий из системной платы форм-фактора EATX, двух процессоров и пары кулеров, причём плата имеет слоты PCI Express версии 4.0 и полностью открытое базовое программное обеспечение.

Пара 8-ядерных процессоров POWER9

Пара 8-ядерных процессоров POWER9

До недавних пор никто не публиковал интересной информации относительно этого проекта, но ресурс Phoronix не столь давно выложил целый обзор, посвящённый сравнению Talos II с серверными процессорами Intel Xeon и AMD EPYC. В оригинальном анонсе Talos II комплектовалась двумя четырёхъядерными процессорами, но нашим западным коллегам достались более мощные восьмиядерные чипы POWER9 (CP9M02). С учётом развитой мультипоточности в архитектуре POWER9 (SMT4 против SMT2 у x86) это даёт возможность исполнения 64 потоков на систему. Вопрос лишь в эффективности и оптимизации программного обеспечения. В настоящее время Raptor предлагает даже 22-ядерные процессоры (88 потоков), так что конфигурацию Phoronix можно даже назвать скромной, хотя в ближайшем будущем они и обещали протестировать конфигурацию с двумя такими ЦП (176 потоков на систему).

Системная плата в сборе

Системная плата в сборе

Максимальная тактовая частота в системе Talos II достигала 3,8 ГГц при базовой 3,45 ГГц, она была оснащена 256 Гбайт оперативной памяти и графической картой AMD Radeon Pro WX 7100. В качестве ОС была установлена тестовая версия Debian Linux с ядром версии 4.16 PPC64LE. Основным компилятором стал GCC 7.3, поставляемый с ОС, файловая система на дисках во всех случаях — Ext4. В качестве соперников выступили следующие системы:

  • 2 × Intel Xeon Gold 6138 (2,0/3,7 ГГц, 40C/80T), Tyan S7106, 96 Гбайт памяти;
  • AMD EPYC 7551 (2,0/3,0 ГГц, 32С/64Т), GIGABYTE MZ31-AR0, 32 Гбайт памяти;
  • AMD EPYC 7601 (2,2/3,2 ГГц, 32С/64Т), Tyan B8026T70AE24HR, 128 Гбайт памяти.

Накопители во всех случаях были разными: от обычного жёсткого диска WD ёмкостью 500 Гбайт у Talos II до Intel 900p Optane у AMD EPYC 7601.

Симуляция поведения жидкостей: зависимость от конкретного теста

Симуляция поведения жидкостей: зависимость от конкретного теста. Второе место в Stencil поражает: 16 ядер против 40!

Результаты тестов оказались несколько разочаровывающими для энтузиастов платформы POWER9, но не стоит забывать, что развитая мультипоточность не заменяет физических ядер, а по их количеству Talos II была самой младшей среди участников тестирования: всего 16 ядер против 40 или 32 у Intel или AMD соответственно. Но в некоторых отдельных дисциплинах теста Paraboli v2.5 (обсчёт поведения жидкостей) платформе всё равно удалось занять второе место, уступив лишь монстру на базе Xeon Gold.

Не только поражения...
Не только поражения...

Не только поражения...

 

...но и победы

...но и победы

Тест на сжатие 7-Zip и вовсе на наш взгляд следует считать некорректным из-за возможного влияния дискового накопителя или же однобокой оптимизации теста только под x86. Не блеснула POWER9 и в тестах на компиляцию или работу с PHP, а вот в синтетическом наборе тестов OSBench новинка показала себя на удивление хорошо. Иными словами, потенциал у POWER9 есть, и немалый — а проигрыш в ряде тестов может объясняться как существенно меньшим количеством ядер, так и лучшей оптимизацией ПО с учётом особенностей x86. Если программное обеспечение будет столь же тщательно оптимизироваться и для POWER9, платформу может ожидать вполне успешное будущее не только в секторе серверов и суперкомпьютеров. Стоит также принимать во внимание цены на процессоры:

  • Intel Xeon Gold 6138 — $2618;
  • AMD EPYC 7551 — $3400;
  • AMD EPYC 7601 — $4200;
  • IBM POWER9 CP9M02 — $595.

Как видите, в цене решения IBM существенно выигрывают у соперников, а проигрывают им в тестах далеко не всегда, особенно если вспомнить, что большинство современного ПО попросту не учитывает доступные в архитектуре POWER9 инструкции и особенности. Системная плата Talos Raptor II стоит достаточно дорого, $2325, и это следует учитывать при сравнении общей стоимости систем на базе POWER9 и x86. Ознакомиться с обзором зарубежных коллег можно по этой ссылке.

Постоянный URL: http://servernews.ru/968511
22.11.2017 [23:35], Алексей Степин

Cavium празднует ещё одну победу ARM в серверном сегменте

Архитектура x86 с нами давно. Когда-то её уделом были лишь персональные компьютеры, но в последние годы подавляющее большинство серверных систем и прочих решений класса HPC строятся именно на базе процессоров Intel или AMD. Времена господства таких архитектур, как DEC Alpha или MIPS давно позади, хотя, к примеру, IBM POWER всё ещё сопротивляется активному натиску со стороны Intel Xeon и AMD Opteron/EPYC: в свежем рейтинге TOP500 всего 24 машины из 500 используют отличную от x86 архитектуру.

Но по ряду причин x86 даже с 64-битными расширениями не является оптимальной и особенно в том случае, когда речь заходит о соотношении производительности и энергопотребления. Последнее автоматически тянет за собой и повышенное тепловыделение, что в условиях увеличения плотности размещения узлов в ЦОД и суперкомпьютерах представляет собой серьёзную проблему. У x86 есть и ещё один конкурент — это архитектура ARM, которую долгое время никто всерьёз в качестве серверной не воспринимал.

Широко известный слайд, демонстрирующий эволюцию архитектур суперкомпьютеров

Широко известный слайд, демонстрирующий эволюцию архитектур суперкомпьютеров

Однако ARM это не просто рабочая лошадка в секторе планшетов и смартфонов. Всё зависит от реализации, и некоторые варианты процессоров на базе этой архитектуры обладают весьма серьёзными возможностями. К числу таких чипов относится Cavium ThunderX2. Этот новый чип на базе ARMv8-A был продемонстрирован разработчиками ещё на ISC 2017. Характеристики его выглядят вполне солидно: здесь и 54 ядра с частотой 3 ГГц, и поддержка двухсокетных конфигураций, и шестиканальный контроллер памяти, и 24 порта SATA (и, вероятно, SAS).

Блок-схема ThunderX2

Блок-схема ThunderX2

Нельзя забывать и про встроенную поддержку Ethernet 25G, наличие 32 Мбайт общего кеша L2, интегрированные аппаратные средства шифрования и контроллер PCI Express 3.0. При этом теплопакет, по данным Cavium, не превышает 95 ватт. К сожалению, у нас пока нет возможности проверить это утверждение. Но можно представить себе, какой величины достиг бы этот показатель в случае 54-ядерного Xeon, даже в варианте Skylake. Проникновение ARM в сегмент HPC, впрочем, быстрым назвать нельзя, хотя Cavium вполне заслуженно хвалится своими успехами на этом поприще.

Процессоры Cavium используют пусть и свой, но вполне привычный разъём типа LGA

Процессоры Cavium используют пусть и свой, но вполне привычный разъём типа LGA

Одна из национальных лабораторий Министерства энергетики США — Аргоннская национальная лаборатория — объявила, что планирует установку нового кластера производства Hewlett Packard Enterprise, а основой этого кластера станут именно процессоры Cavium ThunderX2. Надо полагать, что в такой организации, как Министерство энергетики, хорошо понимают всю важность экономичности суперкомпьютеров. Кластер под названием Comanche Wave будет состоять из 32 узлов. В числе прочего его задачей будет оценка применимости ARM в сфере супервычислений и разработка соответствующего программного обеспечения, включая ARM-версию компилятора LLVM.

Потенциальный конкурент Xeon и EPYC: взгляд вблизи

Потенциальный конкурент Xeon и EPYC: взгляд вблизи

Именно Аргоннская лаборатория активно поддерживает альтернативные процессорные архитектуры и славится своими разработками для платформ PowerPC и IBM Blue Gene/Q, так что выбор места установки нового кластера не вызывает удивления. Интересно отметить, что Cavium, по сути, смогла перехватить кусок пирога буквально под носом у Intel, которой не удалось заключить контракт на установку суперкомпьютера Aurora на базе процессоров Xeon Phi Knights Hill. Лишь в 2021 году «синие» повторят попытку с процессорами x86, которые будут доступны к тому моменту. Впрочем, не факт, что это будет именно x86.

Постоянный URL: http://servernews.ru/961897
18.09.2017 [09:49], Алексей Степин

Cisco NPU: сетевой процессор с производительностью 400 Гбит/с

О проблемах и путях развития стандарта Ethernet мы совсем недавно рассказывали читателям. Как было упомянуто в заметке, одной из самых важных вех в процессе этого развития является создание сетевых процессоров с огромной агрегированной пропускной способностью. Об одном из таких процессоров мы поведаем сегодня. На конференции Hot Chips представитель компании Cisco Systems Джейме Маркевич (Jamie Markevitch) продемонстрировал безымянный, но уже поставляемый клиентам чип и рассказал о его особенностях. Это большая редкость — услышать подробности о корпоративных разработках такого уровня, исключением может послужить Mellanox и ещё пара компаний. К сожалению, самого интересного, а именно, снимков процессора для коммутаторов с пропускной способностью 6,5 Тбит/с показано не было, но интерес представляет и архитектура чипа, способного работать на скорости 400 Гбит/с.

Против ожидания, вся процессорная мощь NPU находится в правом кристалле

Против ожидания, вся процессорная мощь NPU находится в правом кристалле

Это не 16-нм ASIC под названием CloudScale, представленный Cisco в марте 2016 года, основанный на сигнальном стандарте 25G и применяемый в серии корневых коммутаторов Nexus 9500. Данная версия выпущена раньше и использует 22-нм техпроцесс, но, скорее всего, имеет схожую с CloudScale архитектуру. Данный NPU не является монолитным устройством с фиксированным количеством портов, он предназначен для построения модульных систем с несколькими такими сетевыми процессорами на борту, соединяемыми собственной шиной. Чип очень похож на начинку коммутаторов Nexus 9000, но в тех была использована ещё более старая 28-нм версия. Пока Intel рассуждает о гибридных процессорах, Cisco уже имеет решения с такой архитектурой в своём арсенале и выпускает их серийно. Описываемый кристалл состоит из 9,2 миллиардов транзисторов и имеет 672 процессорных ядра, каждое из которых способно выполнять до 4 потоков.

Общая архитектура и расположение функциональных блоков внутри NPU

Общая архитектура и расположение функциональных блоков внутри NPU

Объём памяти SRAM составляет внушительные 353 Мбайт. Это очень дорогая и быстрая память, в данном процессоре она играет роль кеша нулевого уровня, в котором хранятся как инструкции, так и данные для каждого потока (не ядра!). На каждый кластер из 16 ядер имеется и более привычный кеш L1. Каждое ядро имеет восьмистадийный неблокируемый конвейер, между потоками он переключается по алгоритму round-robin. Всего в чипе 42 16-ядерных кластера, они соединены с кешем инструкций L2, имеющим 4-уровневую ассоциативность. Он же служит межъядерной соединительной сетью, объединяющей все функциональные блоки процессора воедино. Внутренняя сеть работает на частоте 1 ГГц и обладает совокупной пропускной способностью более 9 Тбит/с. Имеется 276 интерфейсов типа SERDES для общения с внешним миром. Часть транзисторного бюджета, разумеется, задействована для реализации всяческих ускорителей, буферов и контроллеров интерфейсов.

NPU и его подсистемы памяти

NPU и его подсистемы памяти

Cisco не раскрывает деталей о том, какой набор инструкций используется в их сетевых процессорах. Это может быть что угодно, включая полностью уникальный набор, не похожий на существующие ARM, MIPS, POWER или x86. Ядра ориентированы на «работу до конца», это означает, что каждый поток, обрабатывающий пакет, отвечает за него в течение всего времени прохождения через NPU. Это исключает простаивание или «переброс пакетов» между ядрами. Различные типы пакетов требуют разных вычислений и имеют разные размеры, поэтому производительность процессорного массива в Cisco NPU непостоянна. Тем не менее, решение поддерживает традиционные пути программирования и может использовать языки C или ассемблер. Поскольку каждый пакет занимает свой поток, это означает одновременную обработку 2688 пакетов. Пакеты поступают из внешней памяти DRAM в массив SRAM, причём, ускорители могут обращаться к DRAM независимо от основного массива, который получает данные из SRAM.

Серия корневых коммутаторов Cisco Nexus 9000 использует описываемые в заметке NPU

Серия корневых коммутаторов Cisco Nexus 9000 использует описываемые в заметке NPU

Сетевой процессор Cisco, описанный в презентации, способен обрабатывать пакеты на скорости 800 Гбит/с, но более привычно говорить о 400 Гбит/с в полнодуплексном режиме. Интерфейс SERDES имеет совокупную пропускную способность порядка 6,5 Тбит/с. Большая часть линий используется для подключения DRAM и TCAM (Ternary Content Addressable Memory) — последняя являет собой некий гибрид SRAM и DRAM и обычно используется для хранения списков доступа (Access Control List, ACL). Большая часть функциональных блоков NPU работает на частоте 760 МГц или 1 ГГц, что на фоне современных ЦП общего назначения выглядит весьма скромно. Интерфейсы MAC поддерживают воплощение PHY практически любого типа со скоростями от 10 до 100 Гбит/с. В составе процессора имеется встроенный менеджер трафика, способный дирижировать 256 тысячами запросов за раз и выдерживать при этом нагрузку порядка половины триллиона объектов в секунду (в основном, пакетов).

В модели Nexus 9000 на снимке хорошо видны четыре NPU. Сверхмощное охлаждение не требуется

В модели Nexus 9000 на снимке хорошо видны четыре NPU. Сверхмощное охлаждение не требуется

Интегрированные блоки ускорителей предназначены для разгрузки процессора от обработки таких функций, как IPv4 и IPv6 prefix look ups, сжатия и хеширования диапазона IP-адресов, приоритизации пакетов и сбора статистики QoS. Внутри упаковки имеется также некоторое количество собственной памяти DRAM, и это хорошо видно на снимке процессора — причём, логика, против ожиданий, занимает меньший кристалл, а больший приходится именно на память. Подключается она с помощью 28 линий SERDES, работающих на скорости 12,5 Гбит/с, что вдвое медленнее продвигаемого сейчас стандарта 25, но совокупная производительность двух контроллеров памяти составляет порядка 37,5 Гбайт/с — не так уж мало, хотя современные ЦП умеют работать с памятью и быстрее. Интересно, что 22-нм техпроцесс используется не везде: с его применением произведён только сам процессор, а вот логика SERDES использует 28-нм, а DRAM и вовсе выпущена с применением 30-нм технологических норм. Приведённое описание даёт неплохое представление о возможностях NPU Cisco. Пусть это предыдущее поколение, но с учётом параметров чипа довольно легко представить, на что способны аналогичные процессоры нового поколения, выпущенные с использованием 16-нм техпроцесса.

Постоянный URL: http://servernews.ru/958639
25.08.2017 [12:44], Алексей Степин

Intel проливает свет на архитектуру процессоров Knights Mill

Во времена, когда машинное обучение и технологии на базе нейросетей активно развиваются, прогрессирует и аппаратное обеспечение для этих сфер. Но каждый разработчик подходит к вопросу по-своему: производители графических процессоров полагаются на изначально массивный параллелизм своих разработок, такие компании как Google разрабатывают сравнительно простые чипы, всё в которых подчинено единственной задаче, выполняемой максимально быстро, ну а такие компании как Intel адаптируют существующие процессорные архитектуры. Так, недавно «синие» раскрыли некоторые секреты, касающиеся наследников серии Knights Landing — процессоров Knights Mill.

Конечно, компания исследует и другие направления, например, решения на базе FPGA Altera, а также разрабатывает сопроцессоры Lake Crest и Knights Crest, которые, скорее всего, будут напоминать Google TPU. Однако и наследник серии Knights Landing — чип Knights Mill — получит изменённую с учётом популярности технологий машинного обучения архитектуру. Основа останется прежней, но каждый модуль (VPU) получит вместо двух «больших» блоков FPU (32/64 бита) меньший блок вычислений с плавающей запятой и четыре блока Vector Neural Network Instruction (VNNI). Последние будут поддерживать операции с плавающей запятой одинарной точности, а также получат способность работать со смешанными целочисленными форматами (16 бит на входе, 32 на выходе). Похожие ядра есть в составе NVIDIA V100, но они поддерживают более традиционные форматы FP32/64.

Конечный результат можно предсказать довольно точно: Knights Mill будет вдвое уступать Knights Landing на операциях двойной точности, но вдвое же превосходить на операциях точности одинарной. А появление блоков VNNI с поддержкой целочисленных форматов может поднять производительность Knights Mill в четыре раза в задачах, связанных с глубинным машинным обучением. Таким образом, процессор получится более специализированным, но в своих областях специализации он превзойдёт предшественника весьма существенно. Чипы Knights Mill не будут страдать от нехватки ПСП, поскольку получат 16 Гбайт MCDRAM, дополняющий 6-канальный контроллер DDR4. Общее количество ядер останется прежним — 72, с учётом 256 операций на такт в блоках VPU, Knights Mill сможет продемонстрировать более 27 триллионов операций в секунду при частотах порядка 1,5 ГГц. Это меньше, нежели 92 триллиона операций у Google TPU, но решение Intel выглядит более универсальным и сбалансированным. Появится оно на рынке уже в четвёртом квартале этого года.

Постоянный URL: http://servernews.ru/957549
20.06.2017 [11:03], Алексей Степин

ISC 2017: Япония демонстрирует процессоры PEZY-SC2

Конференция ISC (International Supercomputing Conference), посвящённая, как следует из названия мероприятия, суперкомпьютерам и супервычислениям, проводится в Европе очень давно, с 1986 года. Мы регулярно освещаем новинки, представленные на ISC — вот и в прошлом 2016 году уникальный процессор PEZY-SC родом из Японии заслужил отдельную заметку. Некоторым может показаться странным, но в современных суперкомпьютерах нередко используются процессоры и вычислительные блоки, базирующиеся на архитектурах, отличных от x86, и PEZY тому одно из лучших подтверждений.

Архитектура PEZY

Архитектура PEZY

Более того, PEZY-SC оказался настолько удачным проектом, что первые три места в рейтинге Green500 заняли суперкомпьютеры на базе этих чипов — настолько они энергоэффективны. При максимальной электрической мощности 70 ватт PEZY-SC, производимый на мощностях TSMC с использованием хорошо устоявшегося 28-нм техпроцесса, содержит 1024 ядра и способен развивать 1,5 терафлопса на вычислениях двойной точности.

Используют японские разработчики и FPGA

Используют японские разработчики и FPGA

Но японцы не были бы японцами, если бы сидели на месте в области высоких технологий. Всего через год, на ISC 2017 они представили новые процессоры PEZY-SC2 и различные модули для суперкомпьютеров на их основе. Во-первых, новая версия чипа существенно «похудела» — теперь она производится с использованием 16-нм техпроцесса FinFET, разработанного той же TSMC. Базовый строительный модуль носит название ZettaScaler 2.0, в новой версии он будет содержать 4096 чипов PEZY-SC2 и 12-ядерный управляющий процессор с архитектурой MIPS64: как видите, х86 здесь и не пахнет, хотя японские разработчики этой архитектурой не брезгуют и привезли на конференцию также и модули на основе Intel Xeon и Xeon D.

Но не брезгуют также решениями Intel

Но не брезгуют также решениями Intel

Сам PEZY-SC2 интересен, в первую очередь, тем, что в нём используется новейшая технология внутрипроцессорных соединений ThruChip Interface (TCI), разработанная в университете Кэйо. Суть её заключается в применении индуктивной связи вместо обычной электрической, что позволяет отказаться от соединений типа TSV, электрических проводников, пронизывающих кристалл насквозь. Они сегодня используются в таких решениях, как память типа HBM, но TCI позволяет сделать комплексные многослойные решения проще и доступнее. В настоящее время одна индуктивная пара при расстоянии порядка 20 нм позволяет добиться передачи данных на скорости 80 Гбит/с.

Бесконтактная архитектура внутричиповых соединений

Бесконтактная архитектура внутричиповых соединений

Эта технология применена в сопутствующей PEZY-SC2 высокоскоростной памяти TCI DRAM. Первые чипы, как ожидается, будут иметь 8 слоёв ёмкостью 8 Гбит каждый и пропускную способность порядка 512 Гбайт/с на сборку объёмом 64 Гбит. Но основным массивом памяти в решениях на базе PEZY-SC2 останется традиционная DDR4, как устоявшееся и массово доступное решение. Каждый чип имеет 8 каналов DDR4, а общая концепция чем-то напоминает Intel Knights Landing с памятью типа MCDRAM на корпусе процессора.

Примерная компоновка PEZY-SC2

Примерная компоновка PEZY-SC2

Согласно имеющимся данным, однопроцессорный узел PEZY-SC2 на базе новой технологии будет развивать до 8,2 терафлопс (очевидно, в режиме FP32, в FP64 вдвое меньше), а совокупная пропускная способность памяти составит 4,1 Тбайт/с. Но возросшая сложность вынудила разработчиков PEZY Computing сделать новое решение двухчиповым. В итоговом варианте оно, скорее всего, станет одним чипом, но с компоновкой типа MCM, допускающей установку нескольких кристаллов в единый корпус. Третья, ещё более совершенная версия PEZY и архитектуры ZettaScaler должна увидеть свет в 2019 году.

Постоянный URL: http://servernews.ru/954207
21.08.2015 [12:32], Алексей Степин

Intel выпустит 22-ядерный Xeon E5 v4 в конце этого года

Как известно, корпорация Intel решила вернуть в планы по производству мощных процессоров двухсокетные модели Xeon E5 и многосокетные Xeon E7 на базе 14-нанометровой архитектуры Broadwell-EP/EX. Согласно последним данным, эти чипы появятся уже в этом году, ближе к его окончанию. Речь идёт о Xeon E5; Xeon E7 ожидаются позднее, в начале 2016 года. Как и предполагалось, Xeon E4 v5 получат больше ядер и возможность работать с более высокочастотной памятью DDR4.

Серия Xeon E5 v4 будет иметь до 22 процессорных ядер, а будущие Xeon E7 получат до 24 ядер, но в последнем случае информация неофициальная, так что спецификации могут претерпеть изменения. Процессоры Xeon на базе архитектуры Broadwell будут обладать полной совместимостью с уже существующими платформами Grantley и Briclkand. Помимо поддержки памяти DDR4 с частотой 2400 МГц, они смогут похвастаться поддержкой набора инструкций TSX.

Благодаря 14-нанометровому техпроцессу новые Xeon будут либо более производительными за счёт увеличения тактовых частот, либо более экономичными при неизменных частотах, но точные характеристики пока остаются неизвестными. При переходе на новую архитектуру Intel традиционно выпускает серверные модели процессоров позднее потребительских, поскольку в этом случае необходимо убедиться в совместимости и работоспособности новых чипов в различных конфигурациях, что требует сотрудничества с производителями серверов и существенных временных затрат на тестирование.

Постоянный URL: http://servernews.ru/918996
Система Orphus