Материалы по тегу: hpc

19.03.2024 [01:00], Игорь Осколков

NVIDIA B200, GB200 и GB200 NVL72 — новые ускорители на базе архитектуры Blackwell

NVIDIA представила сразу несколько ускорителей на базе новой архитектуры Blackwell, названной в честь американского статистика и математика Дэвида Блэквелла. На смену H100/H200, GH200 и GH200 NVL32 на базе архитектуры Hopper придут B200, GB200 и GB200 NVL72. Все они, как говорит NVIDIA, призваны демократизировать работу с большими языковыми моделями (LLM) с триллионами параметров. В частности, решения на базе Blackwell будут до 25 раз энергоэффективнее и экономичнее в сравнении с Hopper.

В разреженных FP4- и FP8-вычислениях производительность B200 достигает 20 и 10 Пфлопс соответственно. Но без толики технического маркетинга не обошлось — показанные результаты достигнуты не только благодаря аппаратным улучшениям, но и программным оптимизациям. Это ни в коей мере не умаляет их важности и полезности, но затрудняет прямое сравнение с конкурирующими решениями. В общем, появление Blackwell стоит рассматривать не как очередное поколение ускорителей, а как расширение всей экосистемы NVIDIA.

В Blackwell компания использует тайловую (чиплетную) компоновку — два тайла объединены 2,5D-упаковкой CoWoS-L и на двоих имеют 208 млрд транзисторов, изготовленных по техпроцессу TSMC 4NP. В одно целое со всех точек зрения их объединяет новый интерконнект NV-HBI с пропускной способностью 10 Тбайт/с, а дополняют их восемь стеков HBM3e-памяти ёмкостью до 192 Гбайт с агрегированной пропускной способностью до 8 Тбайт/с. Такой же объём памяти предлагает и Instinct MI300X, но с меньшей ПСП (5,3 Тбайт/с), хотя это скоро изменится. FP8-производительность в разреженных вычислениях у решения AMD составляет 5,23 Пфлопс, но зато компания не забывает и про FP64 в отличие от NVIDIA.

 Источник изображений: NVIDIA

Источник изображений: NVIDIA

Одними из ключевых нововведений, отвечающих за повышение производительности, стали новые Tensor-ядра и второе поколение механизма Transformer Engine, который научился заглядывать внутрь тензоров, ещё более тонко подбирая необходимую точность вычислений, что влияет и на скорость обучения с инференсом, и на максимальный объём модели, умещающейся в памяти ускорителя.

Теперь NVIDIA намекает на то, что обучение можно делать в FP8-формате, а для инференса хватит и FP4. Всё это без потери качества. Но вообще Blackwell поддерживает FP4/FP6/FP8, INT8, BF16/FP16, TF32 и FP64. И только для последнего нет поддержки разреженных вычислений.

Дополнительно Blackwell обзавёлся движком для декомпрессии (в первую очередь LZ4, Deflate, Snappy) входящих данных со скоростью до 800 Гбайт/с, что тоже должно повысить производительность, т.к. теперь распаковкой будет заниматься не CPU и, соответственно, ускоритель не будет «голодать». Эта функция рассчитана в основном на Apache Spark и другие системы для аналитики больших данных. Также есть по семь движков NVDEC и NVJPEG.

Наконец, NVIDIA упоминает ещё две новых возможности Blackwell: шифрование данных в памяти и RAS-функции. В первом случае речь идёт о защите конфиденциальности обрабатываемых данных, что важно в целом ряде областей. Причём формирование TEE-анклава возможно в рамках группы из 128 ускорителей. MIG-доменов по-прежнему семь. В случае RAS говорится о телеметрии и предиктивной аналитике (естественно, на базе ИИ), которые помогут заранее выявить возможные сбои и снизить время простоя. Это важно, поскольку многие модели могут обучаться неделями и месяцами, так что потеря даже относительно небольшого куска данных крайне неприятна и финансово затратна.

Однако всё эти инновации не имеют смысла без возможности масштабирования, поэтому NVIDIA оснастила Blackwell не только интерфейсом PCIe 6.0 (32 линии), который играет всё меньшую роль, но и пятым поколением интерконнекта NVLink. NVLink 5 по сравнению с NVLink 4 удвоил пропускную способность до 1,8 Тбайт/с (по 900 Гбайт/с в каждую сторону), а соответствующий коммутатор NVSwitch 7.2T позволяет объединить до 576 ускорителей в одном домене. SHARP-движки с поддержкой FP8 дополнительно помогут ускорить обработку моделей, избавив ускорители от части работ по предобработке и трансформации данных. Чип коммутатора тоже изготавливается по техпроцессу TSMC N4P и содержит 50 млрд транзисторов.

Для дальнейшего масштабирования и формирования кластеров из 10 тыс. ускорителей и более, вплоть до 100 тыс. ускорителей на уровне ЦОД, NVIDIA предлагает 800G-коммутаторы Quantum-X800 InfiniBand XDR и Spectrum-X800 Ethernet, имеющие соответственно 144 и 64 порта. Узлам же полагаются DPU ConnectX-8 SuperNIC и BlueField-3. Правда, последний предлагает только 400G-порты в отличие от первого. От InfiniBand компания отказываться не собирается.

С базовыми кирпичиками разобрались, пора переходить к конструированию продуктов. Первым идёт HGX B100, в основе которой всё та же базовая плата с восемью ускорителями Blackwell, точно так же провязанных между собой NVLink 5 с агрегированной скоростью 14,4 Тбайт/с. Для связи с внешним миром предлагается пара интерфейсов PCIe 6.0 x16. HGX B100 предназначена для простой замены HGX H100, поэтому ускорители имеют TDP не более 700 Вт, что ограничивает пиковую производительность в разреженных FP4- и FP8/FP6/INT8-вычислениях до 14 и 7 Пфлопс соответственно, а для всей системы — 112 и 56 Пфлопс соответственно.

У HGX B200 показатель TDP ограничен уже 1 кВт, причём возможность воздушного охлаждения по-прежнему сохраняется. Производительность одного B200 в разреженных FP4- и FP8/FP6/INT8-вычислениях достигает уже 18 и 9 Пфлопс, а для всей системы — 144 и 72 Пфлопс соответственно. DGX B200 повторяет HGX B200 в плане производительности и является готовой системой от NVIDIA, тоже с воздушным охлаждением. В системе используются два чипа Intel Xeon Emerald Rapids. По словам NVIDIA, DGX B200 до 15 раз быстрее в задачах инференса «триллионных» моделей по сравнению с DGX-узлами прошлого поколения. 800G-интерконнект Ethernet/InfiniBand этим трём платформам не достался, только 400G.

Основным же строительным блоком сама компания явно считает гибридный суперчип GB200, объединяющий уже имеющийся у неё Arm-процессор Grace сразу с двумя ускорителями Blackwell B200. CPU-часть включает 72 ядра Neoverse V2 (по 64 Кбайт L1-кеша для данных и инструкций, L2-кеш 1 Мбайт), 144 Мбайт L3-кеша и до 480 Гбайт LPDDR5x-памяти с ПСП до 512 Гбайт/с. С двумя B200 процессор связан 900-Гбайт/с шиной NVLink-C2C — по 450 Гбайт/с на каждый ускоритель. Между собой B200 напрямую подключены уже по полноценной 1,8-Тбайт/с шине NVLink 5.

Вся эта немаленькая конструкция шириной в половину стойки имеет TDP до 2,7 кВт. 1U-узел с парой чипов GB200, каждый из которых может отъедать до 1,2 кВт, уже требует жидкостное охлаждение. FP4- и FP8/FP6/INT8-производительность (речь всё ещё о разреженных вычислениях) GB200 достигает 40 и 20 Пфлопс. И именно эти цифры NVIDIA нередко использует для сравнения новинок со старыми решениями.

18 узлов с парой GB200 (суммарно 72 шт.) и 9 узлов с парой коммутаторов NVSwitch 7.2T, которые провязывают все ускорители по схеме каждый-с-каждым (агрегированно 130 Тбайт/с, более 3 км соединений), формируют 120-кВт суперускоритель GB200 NVL72 размером со стойку, оснащённый СЖО и единой DC-шиной питания. Всё это даёт до 1,44 Эфлопс в FP4-вычислениях и до 720 Пфлопс в FP8, а также до 13,5 Тбайт HBM3e с агрегированной ПСП до 576 Тбайт/с. Ну а общий объём памяти составляет порядка 30 Тбайт. GB200 NVL72 одновременно является и узлом DGX GB200. Восемь DGX GB200 формируют DGX SuperPOD. Впрочем, будет доступен и SuperPOD попроще, на базе DGX B200.

Ускорители B200 появятся в этом году и будут стоить в диапазоне $30–$40 тыс., что ненамного больше начальной цены Hopper в диапазоне $25–$40 тыс. Глава NVIDIA уже предупредил, что Blackwell сразу будут в дефиците. Вероятно, получить доступ к ним проще всего будет в облаках Amazon, Google, Microsoft и Oracle.

Постоянный URL: http://servernews.ru/1101912
16.03.2024 [21:46], Сергей Карасёв

Великобритания рассчитывает снизить стоимость ИИ-инфраструктур в 1000 раз

Агентство перспективных исследований и инноваций Великобритании (ARIA), по сообщению Datacenter Dynamics, инициировало проект стоимостью приблизительно $53,5 млн, целью которого является «переосмысление парадигмы вычислений». Учёные рассчитывают разработать новые технологии и архитектуры, которые позволят снизить стоимость ИИ-инфраструктур в 1000 раз по сравнению с сегодняшними системами.

Стремительный рост востребованности ИИ-приложений и НРС-решений приводит к резкому увеличению нагрузки на дата-центры. Это вынуждает операторов и гиперскейлеров закупать мощные дорогостоящие ускорители, которые оказываются в дефиците. Одновременно растут энергозатраты ЦОД. По оценкам, на дата-центры приходится до 1,5 % мирового потребления электроэнергии и 1 % глобальных выбросов CO2.

 Источник изображения: pixabay.com

Источник изображения: pixabay.com

Компании по всему миру предпринимают различные меры по решению проблемы, включая внедрение СЖО и разработку принципиально новых сверхэффекттивных ИИ-чипов. Проект ARIA в данной сфере получил название Scaling Compute — AI at 1/1000th the cost, или «Масштабирование вычислений — ИИ за 1/1000 стоимости». Руководитель проекта Сурадж Брамхавар (Suraj Bramhavar) говорит, что на протяжении более чем 60 лет человечество «извлекало выгоду из экспоненциального увеличения вычислительной мощности при уменьшении затрат».

Но, по его словам, такой подход больше не соответствует современным реалиям — особенно в свете повсеместного внедрения ресурсоёмких приложений ИИ. Брамхавар говорит, что специализированные решения, используемые для обучения масштабных ИИ-моделей, невероятно дороги, что может иметь далеко идущие экономические, геополитические и социальные последствия. Например, генеральный директор OpenAI Сэм Альтман ранее заявлял, что обучение GPT-4 обошлось его компании более чем в $100 млн.

В рамках нового проекта ARIA будет оказывать финансовую поддержку научным коллективам и компаниям, разрабатывающим перспективные технологии, которые в дальнейшем помогут снизить стоимость ИИ-инфраструктур на порядки. Речь идёт о решениях, сочетающих высокое быстродействие, эффективность и простоту производства. «Природа предоставляет нам, по крайней мере, одно доказательство того, что фундаментально возможно выполнять сложную обработку информации с высокой эффективностью», — отмечает Брамхавар, имея в виду человеческий мозг.

Постоянный URL: http://servernews.ru/1101825
15.03.2024 [23:27], Сергей Карасёв

Миссии NASA задерживаются из-за устаревших и перегруженных суперкомпьютеров

HPC-инфраструктура NASA нуждается в серьёзной модернизации, поскольку в текущем виде не в состоянии удовлетворить потребности организаций в составе национального управления по аэронавтике и исследованию космического пространства США. К такому выводу, как сообщает The Register, пришло в ходе аудита Управление генерального инспектора.

Отмечается, что НРС-инфраструктура NASA морально устарела и не в состоянии эффективно поддерживать современные рабочие нагрузки. Например, в Центре передовых суперкомпьютеров NASA задействованы 18 тыс. CPU и только 48 ускорителей на базе GPU.

 Источник изображения: NASA

Источник изображения: NASA

Кроме того, текущих вычислительных мощностей не хватает для всех потребителей. Поэтому некоторые отделы и научные центры NASA вынуждены закупать собственное оборудование и формировать локальную НРС-инфраструктуру. В частности, одна только команда Space Launch System ежегодно тратит на эти цели $250 тыс. вместо того, чтобы подключаться к централизованной системе. Фактически каждое структурное подразделение NASA, за исключением Центра космических полетов Годдарда и Космического центра Стенниса, имеет собственную независимую вычислительную инфраструктуру.

Ещё одной причиной развёртывания локальных мощностей является путаница вокруг облачных ресурсов и политики NASA, из-за которой возникают сложности с планированием и оценкой финансовых затрат. Аудит также показал, что есть вопросы к безопасности суперкомпьютерного парка NASA. Например, нет должного мониторинга некоторых систем, доступ к которым имеют иностранные пользователи.

В целом, наблюдающаяся картина приводит к задержкам в реализации космических миссий и дополнительным расходам. Для устранения недостатков руководству NASA рекомендовано провести комплексную реформу НРС-сектора, включающую инвентаризацию активов, выявление технологических пробелов и киберрисков. Необходимо также разработать стратегию по улучшению распределения имеющихся вычислительных мощностей.

Постоянный URL: http://servernews.ru/1101790
15.03.2024 [22:50], Сергей Карасёв

Zotac анонсировала GPU-серверы с поддержкой до 10 ускорителей

Компания Zotac объявила о выходе на рынок оборудования корпоративного класса: дебютировали рабочие станции Bolt Tower Workstation башенного типа, а также стоечные GPU-серверы типоразмера 4U и 8U. Устройства рассчитаны на визуализацию данных, обучение ИИ-моделей, моделирование и пр.

Новинки получили модульный дизайн, что облегчает замену или установку дополнительных компонентов. Говорится о поддержке различных дистрибутивов Linux корпоративного уровня, включая Red Hat Enterprise Linux, SUSE Linux Enterprise Server, Ubuntu.

 Источник изображений: Zotac

Источник изображений: Zotac

Продукты разделены на три категории: Essential, Advanced и Premier. В первую входят башенные рабочие станции и серверы 4U, ориентированные на системных интеграторов и предприятия, которым требуется оборудование с оптимальным соотношением цены и производительности. Возможна установка процессоров Intel Xeon Sapphire Rapids и Xeon Emerald Rapids. Системы Bolt Tower Workstation могут нести на борту материнскую плату типоразмера ATX/E-ATX/Micro-ATX/EBB и два блока питания. Возможно развёртывание жидкостного охлаждения.

В серию Advanced включены 4U-серверы для более ресурсоёмких приложений. В зависимости от модификации допускается монтаж до 10 ускорителей. Поддерживаются модели в исполнении SXM/OAM. Подсистема питания может быть выполнена по схеме резервирования 4+1 или 2+2.

Семейство Premier объединяет наиболее производительные серверы 4U и 8U для самых сложных рабочих нагрузок, таких как большие языковые модели (LLM) и облачный ИИ. Есть до 12 слотов PCIe для высокоскоростных сетевых карт (10 Гбит/с) или DPU. Для некоторых серверов возможно применение процессоров AMD.

Постоянный URL: http://servernews.ru/1101795
12.03.2024 [13:15], Сергей Карасёв

К 2030 году объём мирового рынка ИИ-суперкомпьютеров достигнет $6,43 млрд

Маркетинговая и консалтинговая фирма 360iResearch прогнозирует быстрый рост мирового рынка суперкомпьютеров для ИИ-задач. Под такими системами аналитики понимают специализированные платформы с большими вычислительными ресурсами для быстрой обработки огромных объёмов данных.

По оценкам 360iResearch, в 2023 году объём глобальной отрасли ИИ-суперкомпьютеров составил приблизительно $1,90 млрд. В 2024-м, как ожидается, затраты поднимутся до $2,26 млрд. В дальнейшем прогнозируется CAGR (среднегодовой темп роста в сложных процентах) на уровне 18,97 %. В результате к 2030 году расходы в рассматриваемом сегменте могут достичь $6,43 млрд.

 Источник изображения: 360iResearch

Источник изображения: 360iResearch

Эксперты выделяют несколько ключевых факторов, способствующих быстрому росту рынка. Это, в частности, цифровая трансформация, стремительное увеличение объёма генерируемых данных и потребность в вычислительных мощностях для эффективного использования бизнес-информации. Другими драйверами отрасли названы достижения в области машинного и глубокого обучения, а также нейронных сетей. В свете внедрения различных технологий ИИ растёт потребность в НРС-вычислениях. Плюс к этому реализуются инициативы по поддержке ИИ-рынка на государственном уровне.

С другой стороны, существует и ряд сложностей. Сектор ИИ-суперкомпьютеров сталкивается с такими препятствиями, как высокие затраты на исследования, разработки и внедрение, проблемы конфиденциальности и безопасности данных, этические вопросы, нехватка квалифицированных кадров и ограниченные возможности в развивающихся регионах. Аналитики отмечают, что дальнейшему росту во многом будут способствовать достижения в области квантовых компьютеров и вычислительных систем экзафлопсного уровня.

В целом, рынок ИИ-суперкомпьютеров демонстрирует рост во всех ключевых регионах. В Северной и Южной Америке, особенно в США, этому способствует внедрение ИИ в различных секторах, включая здравоохранение, финансовые услуги и автомобилестроение. В регионе EMEA (Европа, Ближний Восток и Африка) развитие отрасли стимулируется активными исследованиями в области ИИ и внедрением соответствующих технологий на предприятиях, которые стремятся повысить свою эффективность. В Азиатско-Тихоокеанском регионе наблюдается растущее внедрение ИИ-технологий в электронной коммерции, автомобилестроении и производстве. 

Постоянный URL: http://servernews.ru/1101554
10.03.2024 [22:13], Сергей Карасёв

Arm-процессор SiPearl Rhea2 для европейских суперкомпьютеров выйдет в 2025 году

Консорциум European Processor Initiative (EPI) раскрыл планы по выпуску HPC-процессоров нового поколения с архитектурой Arm. Речь идёт о чипах Rhea2, которые, как ожидается, войдут в состав следующего европейского суперкомпьютера экзафлопсного уровня.

Разработчиком изделий Rhea является французская компания SiPearl. Процессор первого поколения на базе Arm Neoverse V1 обладает высокой энергетической эффективностью. Он производится на предприятии TSMC с использованием 6-нм технологии N6. Чип станет основой одного из блоков экзафлопсного суперкомпьютера Jupiter, который в нынешнем году будет запущен в Юлихском исследовательском центре (FZJ) в Германии.

О процессоре Rhea2 информации пока не слишком много. Известно, что он получит двухчиплетную компоновку. Ожидается, что будет реализована поддержка памяти HBM и DDR5. Разработчик переведёт Rhea2 на более «тонкий» по сравнению с чипом первого поколения техпроцесс.

 Источник изображения: EPI

Источник изображения: EPI

Сообщается, что Rhea2 дебютирует в 2025 году. Процессор будет задействован в новом европейском НРС-комплексе — вероятно, в системе «Жюль Верн» (Jules Vernes), которая расположится во Франции. Ввод этого суперкомпьютера в эксплуатацию запланирован на 2026 год. Создание машины финансируется Евросоюзом, Францией и Нидерландами, а её управление возьмёт на себя Французское национальное агентство по высокопроизводительным вычислениям (GENCI), которое на 49 % принадлежит французскому правительству.

Генеральный директор SiPearl Филипп Ноттон (Philippe Notton) отметил, что разработка чипа Rhea2 проходит быстрее, поскольку компания многому научилась при создании изделия первого поколения и учла допущенные ошибки. Он добавил, что SiPearl сотрудничает со многими партнёрами, включая NVIDIA, AMD и Intel, но вдаваться в подробности о характеристиках Rhea2 не стал. Эксперты полагают, что Rhea2 будет использовать ядра Neoverse 3 (Poseidon).

Постоянный URL: http://servernews.ru/1101469
09.03.2024 [17:47], Сергей Карасёв

Индия потратит $1,2 млрд на суверенный ИИ-суперкомпьютер с 10 тыс. ускорителей и собственные LLM

Правительство Индии, по сообщению ресурса The Register, утвердило программу развития национальной инфраструктуры ИИ. На эти цели будет выделено в общей сложности около $1,24 млрд. Одним из ключевых проектов в рамках данной инициативы является создание мощного суверенного суперкомпьютера для ИИ-задач и обработки больших языковых моделей (LLM).

Информации о проекте новой НРС-системы на данный момент немного. Говорится, что в её состав войдут как минимум 10 тыс. ускорителей на базе GPU. Комплекс будет создаваться на основе государственно-частного партнёрства и станет частью вычислительной инфраструктуры IndiaAI Compute Capacity.

Другим направлением комплексной программы является формирование центра инноваций в области ИИ — IndiaAI Innovation Centre. Он займётся разработкой и внедрением базовых ИИ-моделей. Ожидается, что особое внимание будет уделено LMM и моделям, специфичным для конкретных областей. Центр будет использовать периферийные и распределённые вычисления «для достижения оптимальной эффективности».

 Фото: Saurav Mahto / Unsplash

Фото: Saurav Mahto / Unsplash

Выделенные средства будут направлены ещё на несколько проектов. Это, в частности, финансирование индийских ИИ-стратапов IndiaAI Startup Financing, платформа наборов данных IndiaAI Datasets Platform для использования в сфере ИИ и инициатива IndiaAI FutureSkills, которая упростит доступ к различным ИИ-программам и поможет в формировании соответствующих лабораторий.

В целом, Индия в рамках финансирования рассчитывает стимулировать технологическую независимость и демократизировать преимущества ИИ во всех слоях общества. Предполагается, что ИИ станет движущей силой цифровой экономики страны. Индия также разрабатывает собственные процессоры с архитектурой RISC-V, которые планируется применять в серверном оборудовании.

Постоянный URL: http://servernews.ru/1101459
03.03.2024 [21:59], Сергей Карасёв

Киловаттный ускоритель NVIDIA B200 Blackwell появится в 2025 году

Компания Dell во время конференции, посвящённой квартальному отчёту, подтвердила подготовку ускорителя нового поколения NVIDIA B200 семейства Blackwell для ресурсоёмких ИИ-задач и НРС-приложений, на что обратил внимание ресурс Videocardz. Ожидается, что это изделие появится в следующем году.

Официальный анонс решений Blackwell состоится в этому году. Причём в NVIDIA прогнозируют, что ускорители окажутся в дефиците сразу после выхода. Объясняется это стремительным ростом рынка ИИ, в том числе быстрым развитием генеративных сервисов.

Известно, что в семейство Blackwell войдут флагманское изделие B100 для ИИ и HPC-задач, модель B40 для корпоративных заказчиков, гибридное решение GB200, сочетающее чип B100 и Arm-процессор Grace, а также GB200 NVL для обработки больших языковых моделей (LLM). Теперь говорится, что также готовится ускоритель B200: отмечается, что это может быть название конечного продукта.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

По данным Dell, показатель TDP в случае B200 может достигать 1000 Вт. Для сравнения: ускоритель NVIDIA H100 в форм-факторе SXM обладает TDP в 700 Вт. На подготовку B200 намекнул операционный директор Dell Джефф Кларк (Jeff Clarke). По его словам, инженерная команда компании будет готова к появлению продукта. Таким образом, можно предположить, что Dell уже проектирует серверы нового поколения, рассчитанные на установку ускорителей B200.

Отмечается также, что акции Dell по состоянию на 1 марта 2024 года выросли в цене на 32 %, тогда как капитализация NVIDIA превысила $2 трлн. При этом Dell является одним из ключевых партнёров NVIDIA в сегменте дата-центров.

Постоянный URL: http://servernews.ru/1101146
28.02.2024 [14:01], Сергей Карасёв

CERN открыла новый дата-центр во Франции для поддержания экспериментов БАК

Европейская организация по ядерным исследованиям (CERN) объявила об открытии в Превессене во Франции нового ЦОД, который займётся обработкой информации, поступающей от Большого адронного коллайдера (БАК). Объект построен в рекордные сроки — менее чем за два года.

Общая площадь дата-центра превышает 6000 м2. Предусмотрены шесть залов для размещения оборудования, каждый из которых рассчитан на мощность в 2 МВт и может вместить до 78 стоек. В ЦОД в основном будут размещены серверы на базе CPU для обработки данных экспериментов, а также небольшое количество систем и хранилищ для обеспечения непрерывности операций и аварийного восстановления. Ожидается, что на полное оснащение площадки оборудованием потребуется около десяти лет.

 Источник изображения: CERN

Источник изображения: CERN

Отмечается, что новый объект соответствует строгим техническим требованиям, обеспечивающим экологическую устойчивость. Развёрнута эффективная система рекуперации тепла, которое будет использоваться для отопления зданий на территории Превессена. Целевой коэффициент PUE составляет 1,1, а показатель эффективности использования воды (WUE) — 0,379 л/кВт·ч. Система охлаждения будет автоматически включаться, когда наружная температура достигнет 20 °C. При этом температура в самих помещениях дата-центра ни при каких условиях не должна превышать 32 °C.

БАК в настоящее время генерирует около 45 Пбайт информации в неделю, но ожидается, что этот объём удвоится после модернизации комплекса. Данные экспериментов передаются в глобальную вычислительную сеть Worldwide LHC Computing Grid (WLCG), объединяющую около 170 дата-центров, расположенных в более чем 40 странах. Общая ёмкость хранилищ составляет примерно 3 Эбайт, а для обработки данных задействован примерно 1 млн процессорных ядер. Существующий дата-центр CERN на площадке в Мерене (Швейцария) по-прежнему является основным для организации.

Постоянный URL: http://servernews.ru/1100936
28.02.2024 [10:10], Владимир Мироненко

Суперкомпьютер «Оракул» на базе НГУ победил в конкурсе «Проект года»

Суперкомпьютер «Оракул» находится в Центре Национальной технологической инициативы (НТИ) по Новым функциональным материалам на базе НГУ (ЦНФМ). Его назначение — ускорить как разработку новых типов материалов, так и проектирование на их основе изделий для промышленных предприятий. Суперкомпьютер позволяет сотрудникам ЦНФМ сократить время на выполнение сложных математических расчётов в среднем в 10–12 раз и таким образом повысить количество выполняемых вычислений в месяц. Вместе с тем архитектура «Оракула» спроектирована в соответствии с требованиями импортозамещения.

Эксперты по HPC К2Тех развернули суперкомпьютер на 11 узлах. Вычислительная подсистема состоит из 392 процессорных ядер, установленных в 7 высокопроизводительных серверах. В их составе серверы как на базе CPU, так и графические с GPU-ускорителями для обработки визуальных данных. Обмен данными между серверами обеспечивает первый российский интерконнект «Ангара» разработки АО «НИЦЭВТ». Номинальная скорость передачи данных — не менее 75 Гбит/c, без блокировок и с низкими задержками.

 Источник изображений: К2Тех

Источник изображений: К2Тех

Ожидаемая пиковая производительность суперкомпьютера — не менее 47 Тфлопс. Вместимость отказоустойчивого NFS-хранилища — не менее 40 Тбайт данных. Для эффективной утилизации вычислительных мощностей серверов специалисты К2Тех развернули и настроили среду виртуализации на основе платформы zVirt отечественного разработчика Orion soft.

«Проекты внедрения суперкомпьютеров единичные в нашей стране. Если раньше западные производители предлагали их как моновендорные решения в отлаженных конфигурациях, то сегодня суперкомпьютер — это штучная работа , выполненная с учетом уникальных требований заказчика. Эксперты К2Тех самостоятельно подобрали компоненты и спроектировали архитектуру «Оракула» под задачи Центра НТИ с учётом требования — ориентироваться на лучшие решения, обеспечивающие технологический суверенитет. При этом в ходе конструирования кластера мы предусмотрели возможность его дальнейшего масштабирования. Нам очень приятно, что профессиональное сообщество ИТ-руководителей Global CIO так высоко оценило этот проект! Более того, мы видим, как интерес к суперкомпьютерам растет и среди наших заказчиков. Поэтому в перспективе мы планируем вывести наши компетенции по HPC-кластерам в отдельное подразделение», — отмечает руководитель направления ИТ-инфраструктуры К2Тех Алексей Зотов.

Высокопроизводительные вычислительные мощности «Оракула» потребовались Центру НТИ для разработки новых функциональных материалов с заданными свойствами. В их числе — инновационные композиционные электрохимические покрытия, перспективные магнитные и огнеупорные материалы. Кроме того, HPC-кластер необходим для ключевых проектов Центра НТИ, связанных с применением технологий машинного обучения и искусственного интеллекта. К ним относятся разработка прототипа цифрового паспорта материала и его информатизация (материал как элемент Интернета вещей), создание цифровых двойников технологических процессов.

«На текущий момент Центр НТИ нацелен на создание и ускоренный вывод на рынок новых типов материалов и продуктов на их основе. Их применение при проектировании деталей, конструкций и прочих изделий способствует развитию отечественных авиационной, космической, энергетической и иных промышленных отраслей, обеспечению технологического суверенитета. Поэтому нам была важна не только высокая производительность вычислительного кластера, но и его компонентная и программная независимость. А это значит — соответствие требованиям импортозамещения. Нам приятно, что формирование такой сложной архитектуры суперкомпьютера взяли на себя специалисты К2Тех, являющиеся экспертами в области реализации комплексных проектов полного цикла, а также подбора лучших российских решений для достижения поставленных целей и задач», — подчёркивает и.о. директора ЦНФМ Тимур Бъядовский.

О компании К2Тех:

К2Тех — эксперт ИТ-рынка по системной интеграции, разработке программных решений и сервисной поддержке. Более 15 лет реализует проекты в области инженерной, аппаратной и программной инфраструктуры, информационной безопасности, пользовательского ПО и бизнес-приложений.

О центре НТИ по Новым функциональным материалам:

Центр компетенций НТИ «Моделирование и разработка новых функциональных материалов с заданными свойствами» создан в 2021 году на базе Новосибирского государственного университета по результатам конкурсного отбора на предоставление грантов на государственную поддержку центров НТИ на базе образовательных организаций высшего образования и научных организаций в соответствии с постановлением Правительства Российской Федерации № 1251 от 16.10.2017.

Основной миссией Центра является создание единой цифровой платформы технологий и инструментов разработки функциональных материалов с заданными свойствами и изделий из них, существенно влияющих на рыночный потенциал конечных продуктов мировых рынков НТИ и технологических проектов-маяков.

Постоянный URL: http://servernews.ru/1100305
Система Orphus