Лента новостей

22.09.2021 [21:16], Алексей Степин

Выпущена тестовая партия европейских высокопроизводительных RISC-V процессоров EPI EPAC1.0

Наличие собственных высокопроизводительных процессоров и сопровождающей их технической инфраструктуры — в современном мире вопрос стратегического значения для любой силы, претендующей на первые роли. Консорциум European Processor Initiative (EPI), в течение долгого времени работавший над созданием мощных процессоров для нужд Евросоюза, наконец-то, получил первые весомые плоды.

О проекте EPI мы неоднократно рассказывали читателям в 2019 и 2020 годах. В частности, в 2020 году к консорциуму по разработке мощных европейских процессоров для систем экза-класса присоединилась SiPearl. Но сегодня достигнута первая серьёзная веха: EPI, насчитывающий на данный момент 28 членов из 10 европейских стран, наконец-то получил первую партию тестовых образцов процессоров EPAC1.0.

 Источник изображений: European Processor Initiative (EPI)

Источник изображений: European Processor Initiative (EPI)

По предварительным данным, первичные тесты новых чипов прошли успешно. Процессоры EPAC имеют гибридную архитектуру: в качестве базовых вычислительных ядер общего назначения в них используются ядра Avispado с архитектурой RISC-V, разработанные компанией SemiDynamics. Они объединены в микро-тайлы по четыре ядра и дополнены блоком векторных вычислений (VPU), созданным совместно Барселонским Суперкомпьютерным Центром (Испания) и Университетом Загреба (Хорватия).

 Строение кристалла EPAC1.0

Строение кристалла EPAC1.0

Каждый такой тайл содержит блоки Home Node (интерконнект) с кешем L2, обеспечивающие когерентную работу подсистем памяти. Имеется в составе EPAC1.0 и описанный нами ранее тензорно-стенсильный ускоритель STX, к созданию которого приложил руку небезызвестный Институт Фраунгофера (Fraunhofer IIS). Дополняет картину блок вычислений с изменяемой точностью (VRP), за его создание отвечала французская лаборатория CEA-LIST. Все ускорители в составе нового процессора связаны высокоскоростной сетью, использующей SerDes-блоки от EXTOLL.

Первые 143 экземпляра EPAC произведены на мощностях GlobalFoundries с использованием 22-нм техпроцесса FDX22 и имеют площадь ядра 27 мм2. Используется упаковка FCBGA 22x22. Тактовая частота невысока, она составляет всего 1 ГГц. Отчасти это следствие использования не самого тонкого техпроцесса, а отчасти обусловлено тестовым статусом первых процессоров.

Но новорожденный CPU жизнеспособен: он успешно запустил первые написанные для него программы, в числе прочего, ответив традиционным «42» на главный вопрос жизни и вселенной. Ожидается, что следующее поколение EPAC будет производиться с использованием 12-нм техпроцесса и получит чиплетную компоновку.

Постоянный URL: https://servernews.ru/1049663
09.09.2021 [14:49], Владимир Мироненко

Lenovo представила TruScale, обновлённое портфолио решений всё-как-сервис

Компания Lenovo представила на ежегодном мероприятии Tech World решение «всё-как-услуга» (XaaS) — сервис Lenovo TruScale. С его помощью Lenovo объединила все свои предложения «как-услуга» в единое целое. Сервис выходит далеко за рамки исключительно инфраструктурных решений, позволяя создать комплексное — от мобильных устройств до облака — и индивидуализированное предложение для конкретного заказчика в рамках единой подписки.

«Lenovo TruScale воплощает в себе трансформацию компании в новой реальности — удовлетворение растущего глобального спроса на более продвинутые технологии в условиях новой эры гибридного режима работы и обучения», — отмечено в пресс-релизе компании. Lenovo TruScale представляет собой гибкую платформу «всё как услуга», позволяющую компаниям сохранять конкурентоспособность и предлагающую изменяемую облачную модель с возможностью выбора подходящих условий оплаты обслуживания, оборудования и необходимого перечня услуг.

Согласно исследованиям Gartner, IDC и Lenovo Market Intelligence, скорость роста рынка предложений по модели «как-услуга» вчетверо выше по сравнению с общим рынком ИТ-услуг. Аналитики прогнозируют, что через три года на такую модель придётся 12% расходов на корпоративные x86-серверы и более половины затрат на новые корпоративные СХД. В целом, если верить отчётам компаний, программы вроде Dell APEX, HPE Greenlake или Cisco Plus действительно являются достаточно привлекательными для клиентов.

Поскольку Lenovo в рамках TruScale отходит от исключительно инфраструктурных решений, компания отдельно подчеркнула наличие нового предложения устройство-как-услуга (DaaS), которое охватывает оборудование для конечных пользователей вместе с lifecycle-услугами, поддержкой и подходящим финансированием для снижения общей стоимости. В рамках новой платформы компания сотрудничает с ведущими партнёрами по инфраструктуре: Deloitte, VMWare и Intel, а также партнёрами по безопасности DaaS Absolute Software и SentinelOne.

На мероприятии Lenovo Tech World 21 компания более подробно рассказала о ряде новых (и обновлённых) продуктов в составе TruScale: «кремний-по-запросу» от Intel (динамическое изменения числа доступных ядер CPU), STaaS-решения Infinite Storage, VDI для мобильных и десктопных клиентов на базе продуктов Nutanix и т.д. В развитии TruScale Lenovo, как и прежде, будет во многом полагаться на канальных партнёров.

Постоянный URL: https://servernews.ru/1048645
08.09.2021 [19:31], Алексей Степин

Fujifilm и HPE представили ленточные картриджи LTO-9 ёмкостью 45 Тбайт

Ленточные накопители и библиотеки остаются одним из самых популярных вариантов для «холодного» хранения больших объёмов данных, и новые технологии в этой сфере продолжают активно развиваться. Компании Fujifilm и HPE объявили о выпуске ленточных картриджей LTO-9 Ultrium, эффективная ёмкость которых достигает 45 Тбайт. Правда, эта цифра относится к режиму со сжатием данных, «чистая» же ёмкость LTO-9 составляет 18 Тбайт.

Для сравнения, картриджи LTO-8 могут хранить до 12 и 30 Тбайт несжатых и сжатых данных соответственно, Хотя налицо паритет с традиционными HDD, темпы прироста ёмкости LTO замедлились: так, при переходе от седьмого поколения к восьмому «чистый» объём вырос вдвое (с 6 до 12 Тбайт), а сейчас мы видим лишь 50% прирост. Тем не менее, в будущем планируется вернуться к удвоению ёмкости в каждом новом поколении. Скорость передачи данных LTO-9 в сравнении c LTO-8 выросла, но ненамного: с 360/750 Мбайт/с до 440/1000 Мбайт/с в режимах без сжатия и со сжатием соответственно.

В новых картриджах Fujifilm используется лента на основе феррита бария (BaFe), покрытие формируется с использованием фирменной технологии NANOCUBIC. Компания заявляет о 50 годах стабильного хранения данных с использованием новой ленты. HPE пока что ограничилась коротким сообщением о выходе RW- и WORM-картриджей. Quantum анонсировала приводы LTO-9, а IBM объявила о совместимости ПО Spectrum Archive с новым стандартом. Наконец, Spectra Logic сообщила о поддержке нового стандарта в своих ленточных библиотеках.

Ленточные накопители, пожалуй, являются своеобразными патриархами в мире систем хранения данных — магнитная лента использовалась ещё в первых компьютерах IBM. Однако даже сегодня именно они могут похвастаться одной из самых больших ёмкостей в пересчёте на единицу носителя, а кроме того, имеют и ряд других достоинств, например, повышенную надёжность хранения данных за счёт «пассивного» характера хранения записанной информации.

 В будущем темпы роста ёмкостей картриджей LTO будут восстановлены

В будущем темпы роста ёмкостей картриджей LTO будут восстановлены

Также ленточные библиотеки могут похвастаться меньшей стоимостью владения, нежели HDD-фермы или облачные хранилища. Среди областей применения ленточных накопителей и библиотек называется сценарий защиты данных от «шифровальщиков» и вымогательства, поскольку при необходимости уцелевшую копию можно просто восстановить с картриджа. Однако при современных объёмах данных даже скорость 3,6 Тбайт/час может оказаться недостаточно быстрой.

 Петабайтные ёмкости потребуют перехода от феррита бария к эпсилон-ферриту железа (ɛ-Fe2O3)

Петабайтные ёмкости потребуют перехода от феррита бария к эпсилон-ферриту железа (ɛ-Fe2O3)

Тем не менее, развитие LTO не останавливается. В экспериментальных устройствах ещё в конце 2020 года была достигнута ёмкость 580 Тбайт, а уже 2021 году было объявлено уже о разработке лент и накопителей, способных хранить до 2,5 Пбайт сжатых данных. Так что говорить о смерти ленточных накопителей не приходится, хотя пандемия и повлияла отрицательно на объёмы продаж оборудования LTO.

Постоянный URL: https://servernews.ru/1048589
08.09.2021 [19:00], Алексей Степин

Intel представила процессоры Xeon E-2300: Rocket Lake-E для серверов и рабочих станций начального уровня

В современном мире нагрузки на процессор год от года становятся всё сложнее и объёмнее, и не только крупные ЦОД нуждаются в архитектурных новшествах и новых наборах инструкций — малому бизнесу также требуются чипы нового поколения. Корпорация Intel ответила на это выпуском новых процессоров Xeon серии E-2300 и соответствующей платформы для них. Новинки стали быстрее и получили долгожданную поддержку PCI Express 4.0.

Платформа Xeon E-2x00 не обновлялась достаточно давно: процессоры серии E-2200 были представлены ещё в 2019 году. На тот момент это был действительно прорыв в сегменте чипов Intel начального уровня — они впервые получили до 8 ядер Coffee Lake-S, а поддерживаемый объём памяти вырос с 64 до 128 Гбайт. Однако на сегодня таких возможностей уже может оказаться недостаточно: у E-2200 нет AVX-512 с VNNI, шина PCIe ограничена версией 3.0, а графическое ядро HD Graphics P630 и по меркам 2019 года быстрым назвать было нельзя.

 Источник изображений: Intel

Источник изображений: Intel

10 новых процессоров Xeon E-2300, анонсированных Intel сегодня, должны заполнить пустующую нишу младших бизнес-решений. Нововведений в новой платформе не так уж мало, как может показаться на первый взгляд, ведь максимальное количество процессорных ядер у Xeon E-2300 по-прежнему восемь. Однако их максимальная частота выросла до 5,1 ГГц. Изменился процессорный разъём, теперь это LGA1200.

Ядра 11-го поколения Rocket Lake-E (Cypress Cove) по-прежнему используют 14-нм техпроцесс, но оптимизированная микроархитектура позволила Xeon E-2300 быть быстрее соответствующих моделей предыдущего поколения на 17%, и это без учёта качественных нововведений — теперь у них есть AVX-512 с поддержкой инструкций VNNI, ускоряющих работу нейросетей.

Нововведения касаются и вопросов информационной безопасности, в которой малый бизнес нуждается не меньше крупного. Как и «большие» Xeon на базе Ice Lake-SP, процессоры Xeon E-2300 получили «взрослую» поддержку защищённых анклавов SGX объёмом до 512 Мбайт, что существенно выше максимально доступных для прошлого поколения Xeon E 64 Мбайт. Максимальный объём памяти остался прежним, но скорость подросла — до 128 Гбайт DDR4-3200 ECC UDIMM в двух каналах (2DPC).

Весьма важно также появление нового графического ядра с архитектурой Xe-LP. Конечно, высокой 3D-производительности от него ждать не стоит, но даже в этом оно на шаг впереди устаревшей архитектуры. К этому стоит добавить поддержку HDMI 2.0b и DP 1.4a, аппаратное декодирование 12-бит HEVC и VP9 и 10-бит AV1, а также кодирование в 8-бит AVC и 10-бит HEVC и VP9.

Поддержка PCIe 4.0 пришла и на платформу Xeon E — новые процессоры могут предложить 20 линий PCIe 4.0, причём с поддержкой бифуркации. Ещё 24 линии PCIe 3.0 включает чипсет серии C250. В нём же имеется поддержка 8 портов SATA-3 и USB 3.2 Gen 2x2 — до трёх портов со скоростью 20 Гбит/с. Сетевая часть может быть реализована как на базе недорогих чипов i210, так и более производительных i225 (2,5 Гбит/с) или x550 (10 Гбит/с).

В новой серии, как уже было сказано, представлено 10 процессоров, стоимостью от $182 до $539 и теплопакетами от 65 до 95 Вт. Лишь две младшие модели в списке не имеют поддержки Hyper-Threading. Все Xeon E-2300 располагают встроенным движком Manageability Engine 15 и поддержкой Intel Server Platform Services 6, облегчающей развёртывание и удалённое управление. Свои решения на базе новой платформы представят все ведущие производители серверного оборудования.

Постоянный URL: https://servernews.ru/1048355
08.09.2021 [17:40], Владимир Мироненко

IBM представила серверы E1080: 16 CPU POWER10, 240 ядер, 1920 потоков, 64 Тбайт RAM и 224 PCIe-слота в одной системе

IBM объявила о выходе нового поколения серверов IBM POWER E1080 на базе 7-нм чипа POWER10. Это первая коммерческая система на новых процессорах IBM, представленных на прошлогодней конференции Hot Chips и использующих архитектуру POWER v3.1. IBM POWER E1080 предназначен для удовлетворения спроса на надёжные гибридные облачные среды.

E1080 представляет собой четырёхсокетный сервер с процессорами POWER10. На текущий момент компания предлагает CPU c 10, 12 или 15 ядрами (ещё одно «запасное» ядро отключено), тогда как у POWER9 число ядер не превышало 12. На каждое ядро приходится 2 Мбайт L2-кеша и 8 Мбайт — L3 (до 120 Мбайт общего кеша на CPU). Для систем на базе E1080 поддерживается масштабирование до четырёх узлов, то есть можно получить 16 процессоров, 240 ядер, 1920 потоков, 64 Тбайт RAM и 224 PCIe-слота.

 IBM POWER E1080

IBM POWER E1080

Отличительной чертой новинок является поддержка SMT8, то есть обработка до 120 потоков на процессор. По сравнению с POWER9 производительность новых CPU выросла на 20% на поток и на 30% на ядро, а в пересчёте на Вт она выросла трёхкратно. А четыре 512-бит матричных движка и восемь 128-бит SIMD-блоков повысили скорость INT8-операций в 20 и более раз.

Память тоже новая — буферизированная OMI DDR4 DDIMM, которая, по словам компании, отличается повышенной надёжностью и отказоустойчивостью в сравнении с традиционными DDIMM. На один сервер приходится 64 слота с поддержкой до 16 Тбайт RAM с поддержкой технологии прозрачного шифрования памяти (Transparent Secure Memory Encryption, TSME), которая в 2,5 раза быстрее по сравнению с IBM POWER9. Заявленная пропускная способность составляет 409 Гбайт/с на ядро.

И для OMI, и для OpenCAPI используется шина PowerAXON (1 Тбайт/с), которая позволяет подключать к системе различные типы памяти (можно адресовать до 2048 Тбайт в рамках одного кластера), накопители, ускорители и т.д. Также в самой системе доступно четыре слота для NVMe SSD и 8 слотов PCIe 5.0. К E1080 можно подключить до четырёх полок расширения с 12 слотами PCIe 5.0 в каждой.

По данным IBM, благодаря E1080 установлен «мировой рекорд производительности: это первая система, достигшая 955 000 SAPS (SAP Application Performance Standard, в стандартном тесте приложений SAP SD в восьмипроцессорной системе — значительно больше, чем у альтернативной архитектуры x86, 2x на сокет (и) до 4 раз больше возможностей на ядро с E1080 (по сравнению с Intel)».

IBM заявила, что повышение производительности на ядро и увеличение количества ядер в системе означает значительное сокращение занимаемой серверами площади и энергопотребления. В тематическом исследовании неназванного клиента компания сообщила, что 126 серверов на чипах Intel, обслуживающих СУБД Oracle, были заменены тремя E980 на базе POWER9 и, по прогнозам, их можно будет заменить на два E1080. В результате потребляемая мощность упадёт со 102 до 20 кВт, а количество требуемых лицензий сократится с 891 (для системы Intel) до 263 (для E1080).

Новинка имеет в 4,1 раза более высокую по сравнению с x86-серверами пропускную способность контейнеризированных приложений OpenShift, а также целостность архитектуры и гибкость в гибридной облачной среде для повышения универсальности и снижения расходов без рефакторинга приложений. А по сравнению с IBM POWER E980v рост производительности и масштабируемости составил до 50% с одновременным снижением энергопотребления.

Кроме того, E1080 предлагает новые функции RAS для расширенного восстановления, самовосстановления и диагностики, а также усовершенствования для гибридного облака, включая первый в индустрии поминутный контроль использования ПО Red Hat, в том числе OpenShift и Red Hat Enterprise Linux. У IBM POWER E1080 также имеется возможность мгновенного масштабирования с помощью POWER Private Cloud with Dynamic Capacity, что позволит платить только за использованные ресурсы.

Среди прочих преимуществ своего решения IBM отмечает наличие надёжной экосистемы независимых поставщиков ПО, бизнес-партнёров и поддержки для E1080. Кроме того, IBM анонсировала многоуровневый сервис POWER Expert Care, призванный обеспечить защиту от продвинутых киберугроз, а также согласованное функционирование аппаратного и программного обеспечения и более высокую эксплуатационную готовность систем.

Постоянный URL: https://servernews.ru/1048584
01.09.2021 [23:58], Андрей Галадей

Ветераны индустрии основали стартап Ventana для создания чиплетных серверных процессоров RISC-V

Стартап Ventana Micro Systems, похоже, намерен перевернуть рынок серверов. Компания заявила о разработке высокопроизводительных процессоров на архитектуре RISC-V для центров обработки данных. Первые образцы фирменных CPU будут переданы клиентам во второй половине следующего года, а поставки начнутся в первой половине 2023 года. При этом процессоры получат чиплетную компоновку — различные модули и кристаллы на общей подложке.

Основные процессорные ядра разработает сама Ventana, а вот остальные чиплеты будут создаваться под нужды определённых заказчиков. CPU-блоки будут иметь до 16 ядер, которые, как обещается, окажутся быстрее любых других реализаций RV64. Использование RISC-V позволит разрабатывать сверхмощные решения в рекордные сроки и без значительного бюджета. Ядра будут «выпекаться» на TSMC по 5-нм нормам, но для остальных блоков могут использовать другие техпроцессы и фабрики.

Ventana будет следить за процессом их создания и упаковывать до полудюжины блоков в одну SoC. Для соединения ядер, кеша и других компонентов будет использоваться фирменная кеш-когерентная шина, которая обеспечит задержку порядка 8 нс и скорость передачи данных 16 Гбит/с на одну линию. Основными заказчиками, как ожидается, станут гиперскейлеры и крупные IT-игроки, которым часто требуется специализированное «железо» для ЦОД, 5G и т.д.

Сегодня Ventana объявила о привлечении $38 млн в рамках раунда B. Общий же объём инвестиций составил $53 млн. Компания была основана в 2018 году. Однако это не совсем обычный стартап — и сами основатели, и команда являются настоящими ветеранами индустрии. Все они имеют многолетний опыт работы в Arm, AMD, Intel, Samsung, Xilinx и целом ряде других крупных компаний в области микроэлектроники. Часть из них уже имела собственные стартапы, которые были поглощены IT-гигантами.

Постоянный URL: https://servernews.ru/1048096
31.08.2021 [20:34], Игорь Осколков

Western Digital анонсировала «концептуально новые» жёсткие диски с технологией OptiNAND: 20+ Тбайт без SMR

Western Digital анонсировала технологию OptiNAND, которая, по её словам, полностью меняет архитектуру жёстких дисков и вместе с ePMR открывает путь к созданию накопителей ёмкостью более 20 Тбайт (от 2,2 Тбайт на пластину) даже при использовании CMR — вплоть до 50 Тбайт во второй половине этого десятилетия. OptiNAND предполагает интеграцию индустриального UFS-накопителя серии iNAND непосредственно в HDD. Но это не просто ещё один вариант NAND-кеша.

Увеличение ёмкости одной пластины происходит благодаря повышению плотности размещения дорожек, что, правда, на современном этапе развития жёстких дисков требует различных ухищрений: заполнение корпуса гелием, использование продвинутых актуаторов, применение новых материалов, требующих энергетической поддержки записи (MAMR, HAMR и т.д.). Вместе с тем механическая часть накопителей не столь «тонка» и подвержена различным колебаниям, которые могут повлиять на запись и считывание столь плотно упакованных дорожек.

При производстве жёстких дисков делается калибровка и учёт этих ошибок в позиционировании головки (RRO, repeatable run out), а данные (речь идёт о гигабайтах) обычно записываются непосредственно на пластины, откуда и считываются во время работы накопителя. В случае OptiNAND эти мета-данные попадают во флеш-память, позволяя высвободить место. Правда, пока не уточняется, насколько это значимо на фоне общей ёмкости пластины.

Второй важный тип мета-данных, который теперь попадает в iNAND, — это информация о произведённых операциях записи. При повышении плотности размещения риск того, что запись на одну дорожку повлияет на данные в соседней, резко увеличивается. Поэтому, опираясь на данные о прошлых записях, жёсткий диск периодически перезаписывает данные соседних дорожек для повышения сохранности информации.

В старых накопителях одна такая операция приходилась примерно на 10 тыс. записей, в современных — на менее, чем на 10 записей. Причём учёт ведётся именно на уровне дорожек. iNAND же позволяет повысить точность отслеживания записей до секторов, что, в свою очередь, позволяет разнести операции перезаписи в пространстве и времени, снизив общую нагрузку на накопитель и повысив плотность размещения дорожек без ущерба для производительности, поскольку надо тратить меньше времени на «самообслуживание».

Наконец, быстрая и ёмкая UFS (вплоть до 3.1) позволяет сохранить в 50 раз больше данных и мета-данных из DRAM в сравнении с жёсткими дисками без OptiNAND в случае аварийного отключения накопителя и в целом повысить его производительность, причём в независимости от того, включено ли кеширование записи или нет. Кроме того, новый слой памяти позволяет лучше оптимизировать прошивку под конкретные задачи — будут использоваться 162-слойные TLC-чипы от Kioxia, которые можно настроить в том числе на работу в режиме SLC.

Western Digital планирует использовать OptiNAND в большинстве серий своих жёстких дисков, предназначенных для облаков и гиперскейлеров, корпоративных нужд (Gold), систем видеонаблюдения (Purple) и NAS (Red). Первые образцы 20-Тбайт накопителей (CMR + ePMR) с OptiNAND уже тестируются избранными клиентами компании. А вот о потребительских решениях пока ничего сказано не было.

Постоянный URL: https://servernews.ru/1048003
28.08.2021 [00:16], Владимир Агапов

Кластер суперчипов Cerebras WSE-2 позволит тренировать ИИ-модели, сопоставимые по масштабу с человеческим мозгом

В последние годы сложность ИИ-моделей удваивается в среднем каждые два месяца, и пока что эта тенденция сохраняется. Всего три года назад Google обучила «скромную» модель BERT с 340 млн параметров за 9 Пфлоп-дней. В 2020 году на обучение модели Micrsofot MSFT-1T с 1 трлн параметров понадобилось уже порядка 25-30 тыс. Пфлоп-дней. Процессорам и GPU общего назначения всё труднее управиться с такими задачами, поэтому разработкой специализированных ускорителей занимается целый ряд компаний: Google, Groq, Graphcore, SambaNova, Enflame и др.

Особо выделятся компания Cerebras, избравшая особый путь масштабирования вычислительной мощности. Вместо того, чтобы печатать десятки чипов на большой пластине кремния, вырезать их из пластины, а затем соединять друг с другом — компания разработала в 2019 г. гигантский чип Wafer-Scale Engine 1 (WSE-1), занимающий практически всю пластину. 400 тыс. ядер, выполненных по 16-нм техпроцессу, потребляют 15 кВт, но в ряде задач они оказываются в сотни раз быстрее 450-кВт суперкомпьютера на базе ускорителей NVIDIA.

В этом году компания выпустила второе поколение этих чипов — WSE-2, в котором благодаря переходу на 7-нм техпроцесс удалось повысить число тензорных ядер до 850 тыс., а объём L2-кеша довести до 40 Гбайт, что примерно в 1000 раз больше чем у любого GPU. Естественно, такой подход к производству понижает выход годных пластин и резко повышает себестоимость изделий, но Cerebras в сотрудничестве с TSMC удалось частично снизить остроту этой проблемы за счёт заложенной в конструкцию WSE избыточности.

Благодаря идентичности всех ядер, даже при неисправности некоторых их них, изделие в целом сохраняет работоспособность. Тем не менее, себестоимость одной 7-нм 300-мм пластины составляет несколько тысяч долларов, в то время как стоимость чипа WSE оценивается в $2 млн. Зато система CS-1, построенная на таком процессоре, занимает всего треть стойки, имея при этом производительность минимум на порядок превышающую самые производительные GPU. Одна из причин такой разницы — это большой объём быстрой набортной памяти и скорость обмена данными между ядрами.

Тем не менее, теперь далеко не каждая модель способна «поместиться» в один чип WSE, поэтому, по словам генерального директора Cerebras Эндрю Фельдмана (Andrew Feldman), сейчас в фокусе внимания компании — построение эффективных систем, составленных из многих чипов WSE. Скорость роста сложности моделей превышает возможности увеличения вычислительной мощности путём добавления новых ядер и памяти на пластину, поскольку это приводит к чрезмерному удорожанию и так недешёвой системы.

Инженеры компании рассматривают дезагрегацию как единственный способ обеспечить необходимый уровень производительности и масштабируемости. Такой подход подразумевает разделение памяти и вычислительных блоков для того, чтобы иметь возможность масштабировать их независимо друг от друга — параметры модели помещаются в отдельное хранилище, а сама модель может быть разнесена на несколько вычислительных узлов CS, объединённых в кластер.

На Hot Chips 33 компания представила особое хранилище под названием MemoryX, сочетающее DRAM и флеш-память суммарной емкостью 2,4 Пбайт, которое позволяет хранить до 120 трлн параметров. Это, по оценкам компании, делает возможным построение моделей близких по масштабу к человеческому мозгу, обладающему порядка 80 млрд. нейронов и 100 трлн. связей между ними. К слову, флеш-память размером с целую 300-мм пластину разрабатывает ещё и Kioxia.

Для обеспечения масштабирования как на уровне WSE, так и уровне CS-кластера, Cerebras разработала технологию потоковой передачи весовых коэффициентов Weight Streaming. С помощью неё слой активации сверхкрупных моделей (которые скоро станут нормой) может храниться на WSE, а поток параметров поступает извне. Дезагрегация вычислений и хранения параметров устраняет проблемы задержки и узости пропускной способности памяти, с которыми сталкиваются большие кластеры процессоров.

Это открывает широкие возможности независимого масштабирования размера и скорости кластера, позволяя хранить триллионы весов WSE-2 в MemoryX и использовать от 1 до 192 CS-2 без изменения ПО. В традиционных системах по мере добавления в кластер большего количества вычислительных узлов каждый из них вносит всё меньший вклад в решение задачи. Cerebras разработала интерконнект SwarmX, позволяющий подключать до 163 млн вычислительных ядер, сохраняя при этом линейность прироста производительности.

Также, компания уделила внимание разрежённости, то есть исключения части незначимых для конечного результата весов. Исследования показали, что должная оптимизации модели позволяет достичь 10-кратного увеличения производительности при сохранении точности вычислений. В CS-2 доступна технология динамического изменения разрежённости Selectable Sparsity, позволяющая пользователям выбирать необходимый уровень «ужатия» модели для сокращение времени вычислений.

«Крупные сети, такие как GPT-3, уже изменили отрасль машинной обработки естественного языка, сделав возможным то, что раньше было невозможно и представить. Индустрия перешла к моделям с 1 трлн параметров, а мы расширяем эту границу на два порядка, создавая нейронные сети со 120 трлн параметров, сравнимую по масштабу с мозгом» — отметил Фельдман.

Постоянный URL: https://servernews.ru/1047735
26.08.2021 [13:00], Илья Коваль

Huawei OceanProtect X8000 и X9000 — быстрые, ёмкие и надёжные All-Flash СХД для резервного копирования

Перефразируя старую поговорку: люди делятся на тех, кто ещё не делает бэкапы, на тех, кто уже делает, и на тех, кто делает их правильно. Хотя, казалось бы, с начала пандемии первая категория должна стремительно уменьшаться, это происходит не везде, несмотря на совершенно неприличные для современной IT-индустрии — как по активности злоумышленников, так и по беспомощности жертв — атаки на бизнес любого размера.

Впрочем, даже в тех индустриях, где резервное копирование делать привыкли, есть области с особыми требованиями. Это в первую очередь финансовые институты, энергетика, телекоммуникации, управление производством, ретейл и т.д. Во всех этих областях минута простоя обходится более чем $1 млн, а в случае финансовых учреждений эта цифра достигает почти $6,5 млн.

 Huawei OceanProtect X8000 и X9000

Huawei OceanProtect X8000 и X9000

По оценкам экспертов, отсутствие катастрофоустойчивости, важнейшим элементом которой является именно резервное копирование, в более чем половине случае приводит к банкротству в течение 2-3 лет после первого падения IT-систем. А причин такого падения масса — от природных бедствий и человеческого фактора до неумышленного (сбой оборудования) или умышленного (атака) вмешательства в работу систем.

Вместе с тем в последние годы поменялись и сами данные, и требования к работе с ними. Никого уже не удивляет необходимость поддержки надёжности в семь «девяток», резкий рост объёмов «горячих» и «тёплых» данных и постепенный переход от петабайтных хранилищ к экзабайтным, а также изменение самой сути хранимой и обрабатываемой информации — структурированные данные становятся всё менее заметными на фоне растущих как снежный ком неструктурированных.

Всё это кардинальным образом меняет требования и к «боевым» СХД, и в особенности к системам резервного копирования. Без бэкапа «тёплых» данных кое-где уже не обойтись, но такие СХД должны обладать уникальным набором характеристик: достаточно высокое быстродействие, причём не только на получение, но и на отдачу данных; повышенная надёжность; универсальность, то есть работа и с SAN, и с NAS; масштабируемость по ёмкости и производительности.

Ровно те же требования предъявляются и к основным СХД, однако для задач бэкапа нужно соблюсти ещё два очень важных условия. Во-первых, доступное пространство должно значительно превышать ёмкость резервируемых СХД, чего, не раздувая размеры системы, можно добиться лишь правильным использованием дедупликации и компрессии, которые при этом должны происходить на лету и минимально влиять на производительность. Во-вторых, такая система должны быть выгоднее, чем просто установка дубля основной СХД.

И у Huawei есть именно такое уникальное решение. Весной компания анонсировала новую серию СХД с говорящим названием OceanProtect. Наиболее интересными в ней являются модели X9000 и X8000, относящиеся к высокому и среднему сегменту соответственно. «Хитрость» в том, что основой для них является всё та же современная OceanStor Dorado, которую лишили части некритичных для задач резервного копирования функций и оснастили исключительно SAS SSD.

Технические характеристики Huawei OceanProtect X8000/X9000
Модель X8000 X9000
Узел 2U, 2 контроллера 4U, 4 контроллера
Макс. узлов, шт. 2 2
Макс. SSD, шт. 600 1600
Макс. «сырая» ёмкость, Пбайт 3,4 9,2
Макс. «сырая» ёмкость на узел, Пбайт 1,7 4,6
Ёмкость кеша на узел, Гбайт 1024 2048
Макс. скорость копирования, Тбайт/ч 55 155
Макс. скорость восстановления, Тбайт/ч 33 94
Интерфейсные модули для хостов Fibre Channel: FC8/16/32; Ethernet: 10/25/40/100GbE
Интерфейсные модули для полок SAS 3.0

И, конечно, добавили ряд специфичных для работы с бэкапом оптимизаций. Например, в OceanProtect наряду с RAID-5/6 доступен и фирменный массив RAID-TP, сохраняющий работоспособность при потере до трёх накопителей сразу. Однако в данном случае данные агрегируются в длинные непрерывные блоки в кеше, сливаются воедино и записываются с использованием RoW (redirect-on-write) целыми страйпами.

Такой подход отчасти связан с используемыми в OceanProtect алгоритмами дедупликации и компрессии, которые вместе позволяют достичь коэффициента сжатия вплоть до 55:1. Для этого используется несколько техник. В частности, мета-данные выявляются и отделяются от остальных, подвергаясь только компрессии. Для основных же данных используется динамически подстраиваемая системой дедупликация с сегментами переменной длины. После неё данные снова анализируются и делятся на те, которые хорошо подвергаются компрессии и для которых используются стандартные алгоритмы сжатия, и на те, которые просто так сжать не удастся.

 Контроллер Huawei OceanProtect X9000

Контроллер Huawei OceanProtect X9000

Для последних применяется фирменный алгоритм сжатия, который, к слову, является детищем российского подразделения исследований и разработок компании — Huawei регулярно проводит конкурс по созданию именно таких алгоритмов среди отечественных вузов, так что некоторые наработки попадают в столь заметные продукты. Сжатые данные побайтно выравниваются для компактности и отправляются на запись. Таким образом достигается и эффективное использование дискового пространства, и снижение нагрузки на накопители.

 Контроллер Huawei OceanProtect X8000

Контроллер Huawei OceanProtect X8000

Повышение надёжности СХД достигается несколькими механизмами на различных уровнях. Так, непосредственно внутри SSD из чипов памяти формируются массивы RAID 4. Сами SSD представляются системе не как «монолиты», а в виде групп RAID 2.0+ из блоков фиксированного размера. Это позволяет не только повысить надёжность без потери производительности, но и сбалансировать нагрузку, выровнять износ и значительно сократить время на пересборку массивов.

 Дисковая полка Huawei OceanProtect X8000/X9000

Дисковая полка Huawei OceanProtect X8000/X9000

Для подключения дисковых полок используются 4-портовые (Mini-SAS) интерфейсные модули SAS-3, для контроллеров — 25/100GbE с RDMA, а для хостов — модули FC8/16/32 и 10/25/40/100GbE с RDMA. Ethernet-контроллеры поддерживают разгрузку стека TCP/IP, избавляя CPU от лишней нагрузки. Посадочных мест для модулей достаточно для того, чтобы объединить контроллеры с резервированием подключения без использования внешнего коммутатора. Для SAN доступна поддержка Fibre Channel и iSCSI, а для NAS — NFSv3/4.1, SMB/CIFS 2.0/3.0 и NDMP.

Дисковый бэкенд и IO-фронтенд подключаются к контроллерам по схеме «каждый-с-каждым» с дополнительным резервированием, да и сами контроллеры провязаны между собой по той же схеме. Таким образом формируется полноценная mesh-сеть из всех компонентов и линков. Это даёт всё те же отказоустойчивость, производительность и сбалансированность. Ну и поддержку горячей замены или обновления (что программного, что аппаратного) практически любого из компонентов системы без её остановки.

На программном уровне доступны различные варианты репликации и работы со снапшотами, «умные» квоты и классы обслуживания (по скорости, IOPS и задержке), расширенная система мониторинга, прогнозная аналитика по состоянию системы в целом и отдельных её компонентов, в том числе по производительности и ёмкости. Для задач безопасности доступно шифрование на уровне дисков, безопасное затирание данных по международным стандартам, а также аппаратный RoT, формирующий цепочку доверия для всего ПО.

 Huawei OceanProtect X9000

Huawei OceanProtect X9000

Всё вышесказанное относится к обеим моделям, X8000 и X900. Но различия между ними, конечно, есть. У OceanProtect X9000 в отдельном 4U-шасси находятся четыре контроллера Active-Active, каждый из которых может иметь до четырёх CPU и до 1 Тбайт памяти для кеширования. Система сохраняет работоспособность при выходе из строя трёх из четырёх контроллеров. На шасси приходится 28 интерфейсных модулей и четыре БП, которые являются общими для всех. Можно объединить два шасси, то есть получить восемь контроллеров, связанных между собой 100GbE-подключениями.

 Huawei OceanProtect X8000

Huawei OceanProtect X8000

OceanProtect X8000 объединяет в 2U-шасси два контроллера Active-Active, 25 накопителей SAS-3 и два БП. Каждый контроллер имеет до 2 CPU, до 512 Гбайт памяти для кеширования и шесть интерфейсных модулей. Можно объединить два шасси (четыре контроллера) посредством 25GbE-подключений. Дисковые полки одинаковые для обеих моделей — 2U-шасси на 25 накопителей с четырьмя портами Mini-SAS и двумя БП. Пока что доступны только накопители объёмом 3,84 и 7,68 Тбайт, но в будущем появятся и более ёмкие модели.

В серии OceanProtect есть и СХД попроще. Так, модель A8000 похожа на X8000, но имеет более скромные показатели производительности и предлагает только 10/25GbE-интерфейсы. А линейка Huawei DPA использует уже SATA-накопители и 1/10GbE-подключения. В будущем появится и серия оптических библиотек OceanArchive для «холодных» данных. Таким образом, продукты компании покроют все ключевые задачи в этом сегменте. Huawei ожидает, что рынок СХД для резервного копирования вырастет к 2025 году до $14,7 млрд и рассчитывает «отъесть» от него примерно половину.

Постоянный URL: https://servernews.ru/1047290
26.08.2021 [03:07], Алексей Степин

Получены первые образцы 1000-ядерного суперкомпьютера-на-чипе Esperanto ET-SoC-1

Рекомендательные системы, активно используемые социальными сетями, рекламными платформами и т.д. имеют специфические особенности. От них требуется высокая скорость отклика, но вместе с тем их ИИ-модели весьма объёмны, порядка 100 Гбайт или более. А для их эффективной работы нужен ещё и довольно большой кеш. Для инференса чаще всего используется либо CPU (много памяти, но относительно низкая скорость) или GPU (высокая скорость, но мало памяти), но они не слишком эффективны для этой задачи.

При этом существуют ещё и физические ограничения со стороны гиперскейлеров: в сервере не так много полноценных PCIe-слотов и свободного места + есть жёсткие ограничения по энергопотреблению и охлаждению (чаще всего воздушному). Всё это было учтено компанией Esperanto, чьей специализацией является разработка чипов на базе архитектуры RISC-V. На днях она получила первые образцы ИИ-ускорителя ET-SoC-1, который она сама называет суперкомпьютером-на-чипе (Supercomputer-on-Chip).

Новинка предназначена для инференса рекомендательных систем, в том числе на периферии, где на первый план выходит экономичность. Компания поставила для себя непростую задачу — весь комплекс ускорителей с памятью и служебной обвязкой должен потреблять не более 120 Вт. Для решения этой задачи пришлось применить немало ухищрений. Самое первое и очевидное — создание относительно небольшого, но универсального чипа, который можно было бы объединять с другими такими же чипами с линейным ростом производительности.

Для достижения высокой степени параллелизма основой такого чипа должны стать небольшие, но энергоэффективные ядра. Именно поэтому выбор пал на 64-бит ядра RISC-V, поскольку они «просты» не только с точки зрения ISA, но и по транзисторному бюджету. Чип ET-SoC-1 сочетает в себе два типа ядер RISC-V: классических «больших» ядер (ET-Maxion) с внеочередным выполнением у него всего 4, зато «малых» ядер (ET-Minion) с поддержкой тензорных и векторных вычислений — целых 1088.

На комплекс ядер ET-Maxion возлагаются задачи общего назначения и в ИИ-вычислениях он напрямую не участвует, зато позволяет быть ET-SoC-1 полностью автономным, так как прямо на нём можно запустить Linux. Помогает ему в этом ещё один служебный RISC-V процессор для периферии. А вот ядра ET-Minion довольно простые: внеочередного исполнения инструкций в них нет, зато есть поддержка SMT2 и целый набор новых инструкций для INT- и FP-операций с векторами и тензорами.

За каждый такт ядро ET-Minion способно выполнять 128 INT8-операций с сохранением INT32-результата, 16 FP32-операций или 32 — FP16. «Длинные» тензорные операции могут непрерывно исполняться в течение 512 циклов (до 64 тыс. операций), при этом целочисленные блоки в это время отключаются для экономии питания. Система кешей устроена несколько непривычным образом. На ядро приходится 4 банка памяти, которые можно использовать как L1-кеш для данных и как быструю универсальную память (scratchpad).

Восемь ядер ET-Minion формируют «квартал» вокруг общего для них кеша инструкций, так как на таких задачах велика вероятность того, что инструкции для всех ядер действительно будут одни и те же. Кроме того, это энергоэффективнее, чем восемь индивидуальных кешей, и позволяет получать и отправлять данные большими блоками, снижая нагрузку на L2-кеш. Восемь «кварталов» формируют «микрорайон» с коммутатором и четырьмя банками SRAM объёмом по 1 Мбайт, которые можно использовать как приватный L2-кеш, как часть общего L3-кеша или как scratchpad.

Посредством mesh-сети «микрорайоны» общаются между собой и с другими блоками: ET-Maxion, восемь двухканальных контроллеров памяти, два root-комплекса PCIe 4.0 x8, аппаратный RoT. Суммарно на чип приходится порядка 160 Мбайт SRAM. Контроллеры оперативной памяти поддерживают модули LPDDR4x-4267 ECC (256 бит, до 137 Гбайт/с). Тактовая частота ET-Minion варьируется в пределах от 500 МГц до 1,5 ГГц, а ET-Maxion — от 500 МГц до 2 ГГц.

В рамках OCP-блока Glacier Point V2 компания объединила на одной плате шесть ET-SoC-1 (всего 6558 ядер RISC-V), снабдив их 192 Гбайт памяти (822 Гбайт/с) — это больше, нежели у NVIDIA A100 (80 Гбайт). Такая связка развивает более 800 Топс, требуя всего 120 Вт. В среднем же она составляет 100 ‒ 200 Топс на один чип с потреблением менее 20 Вт. Это позволяет создать компактный M.2-модуль или же наоборот масштабировать систему далее. Шасси Yosemite v2 может вместить 64 чипа, а стойка — уже 384 чипа.

В тесте MLPerf для рекомендательных систем производительность указанной выше связки из шести чипов в пересчёте на Ватт оказалась в 123 раза выше, чем у Intel Xeon Platinum 8380H (250 Вт), и в два-три раза выше, чем у NVIDIA A10 (150 Вт) и T4 (70 Вт). В «неудобном» для чипа тесте ResNet-50 разница с CPU и ускорителем Habana Goya уже не так велика, а вот с решениями NVIDIA, напротив, более заметна.

При этом о поддержке со стороны ПО разработчики также подумали: чипы Esperanto могут работать с широко распространёнными фреймворками PyTorch, TensorFlow, MXNet и Caffe2, а также принимать готовые ONNX-модели. Есть и SDK для C++, а также драйверы для x86-хостов.

Опытные образцы изготовлены на TSMC по 7-нм техпроцессу. Кристалл площадью 570 мм2 содержит 24 млрд транзисторов. Чип имеет упаковку BGA2494 размерами 45 × 45 мм2. Энергопотребление (а вместе с ним и производительность) настраивается в диапазоне от 10 до 60+ Ватт. Потенциальным заказчикам тестовые чипы станут доступны до конца года. Компания также готова адаптировать ET-SoC-1 под другие техпроцессы и фабрики, но демо на базе OCP-платформы и сравнение с Cooper Lake — это недвусмысленный намёк для Facebook, что Esperanto будет рада видеть её в числе первых клиентов.

Постоянный URL: https://servernews.ru/1047568

Входит в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности»;

Система Orphus