Материалы по тегу: hpc

16.03.2024 [21:46], Сергей Карасёв

Великобритания рассчитывает снизить стоимость ИИ-инфраструктур в 1000 раз

Агентство перспективных исследований и инноваций Великобритании (ARIA), по сообщению Datacenter Dynamics, инициировало проект стоимостью приблизительно $53,5 млн, целью которого является «переосмысление парадигмы вычислений». Учёные рассчитывают разработать новые технологии и архитектуры, которые позволят снизить стоимость ИИ-инфраструктур в 1000 раз по сравнению с сегодняшними системами.

Стремительный рост востребованности ИИ-приложений и НРС-решений приводит к резкому увеличению нагрузки на дата-центры. Это вынуждает операторов и гиперскейлеров закупать мощные дорогостоящие ускорители, которые оказываются в дефиците. Одновременно растут энергозатраты ЦОД. По оценкам, на дата-центры приходится до 1,5 % мирового потребления электроэнергии и 1 % глобальных выбросов CO2.

 Источник изображения: pixabay.com

Источник изображения: pixabay.com

Компании по всему миру предпринимают различные меры по решению проблемы, включая внедрение СЖО и разработку принципиально новых сверхэффекттивных ИИ-чипов. Проект ARIA в данной сфере получил название Scaling Compute — AI at 1/1000th the cost, или «Масштабирование вычислений — ИИ за 1/1000 стоимости». Руководитель проекта Сурадж Брамхавар (Suraj Bramhavar) говорит, что на протяжении более чем 60 лет человечество «извлекало выгоду из экспоненциального увеличения вычислительной мощности при уменьшении затрат».

Но, по его словам, такой подход больше не соответствует современным реалиям — особенно в свете повсеместного внедрения ресурсоёмких приложений ИИ. Брамхавар говорит, что специализированные решения, используемые для обучения масштабных ИИ-моделей, невероятно дороги, что может иметь далеко идущие экономические, геополитические и социальные последствия. Например, генеральный директор OpenAI Сэм Альтман ранее заявлял, что обучение GPT-4 обошлось его компании более чем в $100 млн.

В рамках нового проекта ARIA будет оказывать финансовую поддержку научным коллективам и компаниям, разрабатывающим перспективные технологии, которые в дальнейшем помогут снизить стоимость ИИ-инфраструктур на порядки. Речь идёт о решениях, сочетающих высокое быстродействие, эффективность и простоту производства. «Природа предоставляет нам, по крайней мере, одно доказательство того, что фундаментально возможно выполнять сложную обработку информации с высокой эффективностью», — отмечает Брамхавар, имея в виду человеческий мозг.

Постоянный URL: http://servernews.ru/1101825
15.03.2024 [23:27], Сергей Карасёв

Миссии NASA задерживаются из-за устаревших и перегруженных суперкомпьютеров

HPC-инфраструктура NASA нуждается в серьёзной модернизации, поскольку в текущем виде не в состоянии удовлетворить потребности организаций в составе национального управления по аэронавтике и исследованию космического пространства США. К такому выводу, как сообщает The Register, пришло в ходе аудита Управление генерального инспектора.

Отмечается, что НРС-инфраструктура NASA морально устарела и не в состоянии эффективно поддерживать современные рабочие нагрузки. Например, в Центре передовых суперкомпьютеров NASA задействованы 18 тыс. CPU и только 48 ускорителей на базе GPU.

 Источник изображения: NASA

Источник изображения: NASA

Кроме того, текущих вычислительных мощностей не хватает для всех потребителей. Поэтому некоторые отделы и научные центры NASA вынуждены закупать собственное оборудование и формировать локальную НРС-инфраструктуру. В частности, одна только команда Space Launch System ежегодно тратит на эти цели $250 тыс. вместо того, чтобы подключаться к централизованной системе. Фактически каждое структурное подразделение NASA, за исключением Центра космических полетов Годдарда и Космического центра Стенниса, имеет собственную независимую вычислительную инфраструктуру.

Ещё одной причиной развёртывания локальных мощностей является путаница вокруг облачных ресурсов и политики NASA, из-за которой возникают сложности с планированием и оценкой финансовых затрат. Аудит также показал, что есть вопросы к безопасности суперкомпьютерного парка NASA. Например, нет должного мониторинга некоторых систем, доступ к которым имеют иностранные пользователи.

В целом, наблюдающаяся картина приводит к задержкам в реализации космических миссий и дополнительным расходам. Для устранения недостатков руководству NASA рекомендовано провести комплексную реформу НРС-сектора, включающую инвентаризацию активов, выявление технологических пробелов и киберрисков. Необходимо также разработать стратегию по улучшению распределения имеющихся вычислительных мощностей.

Постоянный URL: http://servernews.ru/1101790
15.03.2024 [22:50], Сергей Карасёв

Zotac анонсировала GPU-серверы с поддержкой до 10 ускорителей

Компания Zotac объявила о выходе на рынок оборудования корпоративного класса: дебютировали рабочие станции Bolt Tower Workstation башенного типа, а также стоечные GPU-серверы типоразмера 4U и 8U. Устройства рассчитаны на визуализацию данных, обучение ИИ-моделей, моделирование и пр.

Новинки получили модульный дизайн, что облегчает замену или установку дополнительных компонентов. Говорится о поддержке различных дистрибутивов Linux корпоративного уровня, включая Red Hat Enterprise Linux, SUSE Linux Enterprise Server, Ubuntu.

 Источник изображений: Zotac

Источник изображений: Zotac

Продукты разделены на три категории: Essential, Advanced и Premier. В первую входят башенные рабочие станции и серверы 4U, ориентированные на системных интеграторов и предприятия, которым требуется оборудование с оптимальным соотношением цены и производительности. Возможна установка процессоров Intel Xeon Sapphire Rapids и Xeon Emerald Rapids. Системы Bolt Tower Workstation могут нести на борту материнскую плату типоразмера ATX/E-ATX/Micro-ATX/EBB и два блока питания. Возможно развёртывание жидкостного охлаждения.

В серию Advanced включены 4U-серверы для более ресурсоёмких приложений. В зависимости от модификации допускается монтаж до 10 ускорителей. Поддерживаются модели в исполнении SXM/OAM. Подсистема питания может быть выполнена по схеме резервирования 4+1 или 2+2.

Семейство Premier объединяет наиболее производительные серверы 4U и 8U для самых сложных рабочих нагрузок, таких как большие языковые модели (LLM) и облачный ИИ. Есть до 12 слотов PCIe для высокоскоростных сетевых карт (10 Гбит/с) или DPU. Для некоторых серверов возможно применение процессоров AMD.

Постоянный URL: http://servernews.ru/1101795
12.03.2024 [13:15], Сергей Карасёв

К 2030 году объём мирового рынка ИИ-суперкомпьютеров достигнет $6,43 млрд

Маркетинговая и консалтинговая фирма 360iResearch прогнозирует быстрый рост мирового рынка суперкомпьютеров для ИИ-задач. Под такими системами аналитики понимают специализированные платформы с большими вычислительными ресурсами для быстрой обработки огромных объёмов данных.

По оценкам 360iResearch, в 2023 году объём глобальной отрасли ИИ-суперкомпьютеров составил приблизительно $1,90 млрд. В 2024-м, как ожидается, затраты поднимутся до $2,26 млрд. В дальнейшем прогнозируется CAGR (среднегодовой темп роста в сложных процентах) на уровне 18,97 %. В результате к 2030 году расходы в рассматриваемом сегменте могут достичь $6,43 млрд.

 Источник изображения: 360iResearch

Источник изображения: 360iResearch

Эксперты выделяют несколько ключевых факторов, способствующих быстрому росту рынка. Это, в частности, цифровая трансформация, стремительное увеличение объёма генерируемых данных и потребность в вычислительных мощностях для эффективного использования бизнес-информации. Другими драйверами отрасли названы достижения в области машинного и глубокого обучения, а также нейронных сетей. В свете внедрения различных технологий ИИ растёт потребность в НРС-вычислениях. Плюс к этому реализуются инициативы по поддержке ИИ-рынка на государственном уровне.

С другой стороны, существует и ряд сложностей. Сектор ИИ-суперкомпьютеров сталкивается с такими препятствиями, как высокие затраты на исследования, разработки и внедрение, проблемы конфиденциальности и безопасности данных, этические вопросы, нехватка квалифицированных кадров и ограниченные возможности в развивающихся регионах. Аналитики отмечают, что дальнейшему росту во многом будут способствовать достижения в области квантовых компьютеров и вычислительных систем экзафлопсного уровня.

В целом, рынок ИИ-суперкомпьютеров демонстрирует рост во всех ключевых регионах. В Северной и Южной Америке, особенно в США, этому способствует внедрение ИИ в различных секторах, включая здравоохранение, финансовые услуги и автомобилестроение. В регионе EMEA (Европа, Ближний Восток и Африка) развитие отрасли стимулируется активными исследованиями в области ИИ и внедрением соответствующих технологий на предприятиях, которые стремятся повысить свою эффективность. В Азиатско-Тихоокеанском регионе наблюдается растущее внедрение ИИ-технологий в электронной коммерции, автомобилестроении и производстве. 

Постоянный URL: http://servernews.ru/1101554
10.03.2024 [22:13], Сергей Карасёв

Arm-процессор SiPearl Rhea2 для европейских суперкомпьютеров выйдет в 2025 году

Консорциум European Processor Initiative (EPI) раскрыл планы по выпуску HPC-процессоров нового поколения с архитектурой Arm. Речь идёт о чипах Rhea2, которые, как ожидается, войдут в состав следующего европейского суперкомпьютера экзафлопсного уровня.

Разработчиком изделий Rhea является французская компания SiPearl. Процессор первого поколения на базе Arm Neoverse V1 обладает высокой энергетической эффективностью. Он производится на предприятии TSMC с использованием 6-нм технологии N6. Чип станет основой одного из блоков экзафлопсного суперкомпьютера Jupiter, который в нынешнем году будет запущен в Юлихском исследовательском центре (FZJ) в Германии.

О процессоре Rhea2 информации пока не слишком много. Известно, что он получит двухчиплетную компоновку. Ожидается, что будет реализована поддержка памяти HBM и DDR5. Разработчик переведёт Rhea2 на более «тонкий» по сравнению с чипом первого поколения техпроцесс.

 Источник изображения: EPI

Источник изображения: EPI

Сообщается, что Rhea2 дебютирует в 2025 году. Процессор будет задействован в новом европейском НРС-комплексе — вероятно, в системе «Жюль Верн» (Jules Vernes), которая расположится во Франции. Ввод этого суперкомпьютера в эксплуатацию запланирован на 2026 год. Создание машины финансируется Евросоюзом, Францией и Нидерландами, а её управление возьмёт на себя Французское национальное агентство по высокопроизводительным вычислениям (GENCI), которое на 49 % принадлежит французскому правительству.

Генеральный директор SiPearl Филипп Ноттон (Philippe Notton) отметил, что разработка чипа Rhea2 проходит быстрее, поскольку компания многому научилась при создании изделия первого поколения и учла допущенные ошибки. Он добавил, что SiPearl сотрудничает со многими партнёрами, включая NVIDIA, AMD и Intel, но вдаваться в подробности о характеристиках Rhea2 не стал. Эксперты полагают, что Rhea2 будет использовать ядра Neoverse 3 (Poseidon).

Постоянный URL: http://servernews.ru/1101469
09.03.2024 [17:47], Сергей Карасёв

Индия потратит $1,2 млрд на суверенный ИИ-суперкомпьютер с 10 тыс. ускорителей и собственные LLM

Правительство Индии, по сообщению ресурса The Register, утвердило программу развития национальной инфраструктуры ИИ. На эти цели будет выделено в общей сложности около $1,24 млрд. Одним из ключевых проектов в рамках данной инициативы является создание мощного суверенного суперкомпьютера для ИИ-задач и обработки больших языковых моделей (LLM).

Информации о проекте новой НРС-системы на данный момент немного. Говорится, что в её состав войдут как минимум 10 тыс. ускорителей на базе GPU. Комплекс будет создаваться на основе государственно-частного партнёрства и станет частью вычислительной инфраструктуры IndiaAI Compute Capacity.

Другим направлением комплексной программы является формирование центра инноваций в области ИИ — IndiaAI Innovation Centre. Он займётся разработкой и внедрением базовых ИИ-моделей. Ожидается, что особое внимание будет уделено LMM и моделям, специфичным для конкретных областей. Центр будет использовать периферийные и распределённые вычисления «для достижения оптимальной эффективности».

 Фото: Saurav Mahto / Unsplash

Фото: Saurav Mahto / Unsplash

Выделенные средства будут направлены ещё на несколько проектов. Это, в частности, финансирование индийских ИИ-стратапов IndiaAI Startup Financing, платформа наборов данных IndiaAI Datasets Platform для использования в сфере ИИ и инициатива IndiaAI FutureSkills, которая упростит доступ к различным ИИ-программам и поможет в формировании соответствующих лабораторий.

В целом, Индия в рамках финансирования рассчитывает стимулировать технологическую независимость и демократизировать преимущества ИИ во всех слоях общества. Предполагается, что ИИ станет движущей силой цифровой экономики страны. Индия также разрабатывает собственные процессоры с архитектурой RISC-V, которые планируется применять в серверном оборудовании.

Постоянный URL: http://servernews.ru/1101459
03.03.2024 [21:59], Сергей Карасёв

Киловаттный ускоритель NVIDIA B200 Blackwell появится в 2025 году

Компания Dell во время конференции, посвящённой квартальному отчёту, подтвердила подготовку ускорителя нового поколения NVIDIA B200 семейства Blackwell для ресурсоёмких ИИ-задач и НРС-приложений, на что обратил внимание ресурс Videocardz. Ожидается, что это изделие появится в следующем году.

Официальный анонс решений Blackwell состоится в этому году. Причём в NVIDIA прогнозируют, что ускорители окажутся в дефиците сразу после выхода. Объясняется это стремительным ростом рынка ИИ, в том числе быстрым развитием генеративных сервисов.

Известно, что в семейство Blackwell войдут флагманское изделие B100 для ИИ и HPC-задач, модель B40 для корпоративных заказчиков, гибридное решение GB200, сочетающее чип B100 и Arm-процессор Grace, а также GB200 NVL для обработки больших языковых моделей (LLM). Теперь говорится, что также готовится ускоритель B200: отмечается, что это может быть название конечного продукта.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

По данным Dell, показатель TDP в случае B200 может достигать 1000 Вт. Для сравнения: ускоритель NVIDIA H100 в форм-факторе SXM обладает TDP в 700 Вт. На подготовку B200 намекнул операционный директор Dell Джефф Кларк (Jeff Clarke). По его словам, инженерная команда компании будет готова к появлению продукта. Таким образом, можно предположить, что Dell уже проектирует серверы нового поколения, рассчитанные на установку ускорителей B200.

Отмечается также, что акции Dell по состоянию на 1 марта 2024 года выросли в цене на 32 %, тогда как капитализация NVIDIA превысила $2 трлн. При этом Dell является одним из ключевых партнёров NVIDIA в сегменте дата-центров.

Постоянный URL: http://servernews.ru/1101146
28.02.2024 [14:01], Сергей Карасёв

CERN открыла новый дата-центр во Франции для поддержания экспериментов БАК

Европейская организация по ядерным исследованиям (CERN) объявила об открытии в Превессене во Франции нового ЦОД, который займётся обработкой информации, поступающей от Большого адронного коллайдера (БАК). Объект построен в рекордные сроки — менее чем за два года.

Общая площадь дата-центра превышает 6000 м2. Предусмотрены шесть залов для размещения оборудования, каждый из которых рассчитан на мощность в 2 МВт и может вместить до 78 стоек. В ЦОД в основном будут размещены серверы на базе CPU для обработки данных экспериментов, а также небольшое количество систем и хранилищ для обеспечения непрерывности операций и аварийного восстановления. Ожидается, что на полное оснащение площадки оборудованием потребуется около десяти лет.

 Источник изображения: CERN

Источник изображения: CERN

Отмечается, что новый объект соответствует строгим техническим требованиям, обеспечивающим экологическую устойчивость. Развёрнута эффективная система рекуперации тепла, которое будет использоваться для отопления зданий на территории Превессена. Целевой коэффициент PUE составляет 1,1, а показатель эффективности использования воды (WUE) — 0,379 л/кВт·ч. Система охлаждения будет автоматически включаться, когда наружная температура достигнет 20 °C. При этом температура в самих помещениях дата-центра ни при каких условиях не должна превышать 32 °C.

БАК в настоящее время генерирует около 45 Пбайт информации в неделю, но ожидается, что этот объём удвоится после модернизации комплекса. Данные экспериментов передаются в глобальную вычислительную сеть Worldwide LHC Computing Grid (WLCG), объединяющую около 170 дата-центров, расположенных в более чем 40 странах. Общая ёмкость хранилищ составляет примерно 3 Эбайт, а для обработки данных задействован примерно 1 млн процессорных ядер. Существующий дата-центр CERN на площадке в Мерене (Швейцария) по-прежнему является основным для организации.

Постоянный URL: http://servernews.ru/1100936
28.02.2024 [10:10], Владимир Мироненко

Суперкомпьютер «Оракул» на базе НГУ победил в конкурсе «Проект года»

Суперкомпьютер «Оракул» находится в Центре Национальной технологической инициативы (НТИ) по Новым функциональным материалам на базе НГУ (ЦНФМ). Его назначение — ускорить как разработку новых типов материалов, так и проектирование на их основе изделий для промышленных предприятий. Суперкомпьютер позволяет сотрудникам ЦНФМ сократить время на выполнение сложных математических расчётов в среднем в 10–12 раз и таким образом повысить количество выполняемых вычислений в месяц. Вместе с тем архитектура «Оракула» спроектирована в соответствии с требованиями импортозамещения.

Эксперты по HPC К2Тех развернули суперкомпьютер на 11 узлах. Вычислительная подсистема состоит из 392 процессорных ядер, установленных в 7 высокопроизводительных серверах. В их составе серверы как на базе CPU, так и графические с GPU-ускорителями для обработки визуальных данных. Обмен данными между серверами обеспечивает первый российский интерконнект «Ангара» разработки АО «НИЦЭВТ». Номинальная скорость передачи данных — не менее 75 Гбит/c, без блокировок и с низкими задержками.

 Источник изображений: К2Тех

Источник изображений: К2Тех

Ожидаемая пиковая производительность суперкомпьютера — не менее 47 Тфлопс. Вместимость отказоустойчивого NFS-хранилища — не менее 40 Тбайт данных. Для эффективной утилизации вычислительных мощностей серверов специалисты К2Тех развернули и настроили среду виртуализации на основе платформы zVirt отечественного разработчика Orion soft.

«Проекты внедрения суперкомпьютеров единичные в нашей стране. Если раньше западные производители предлагали их как моновендорные решения в отлаженных конфигурациях, то сегодня суперкомпьютер — это штучная работа , выполненная с учетом уникальных требований заказчика. Эксперты К2Тех самостоятельно подобрали компоненты и спроектировали архитектуру «Оракула» под задачи Центра НТИ с учётом требования — ориентироваться на лучшие решения, обеспечивающие технологический суверенитет. При этом в ходе конструирования кластера мы предусмотрели возможность его дальнейшего масштабирования. Нам очень приятно, что профессиональное сообщество ИТ-руководителей Global CIO так высоко оценило этот проект! Более того, мы видим, как интерес к суперкомпьютерам растет и среди наших заказчиков. Поэтому в перспективе мы планируем вывести наши компетенции по HPC-кластерам в отдельное подразделение», —отмечает руководитель направления ИТ-инфраструктуры К2Тех Алексей Зотов.

Высокопроизводительные вычислительные мощности «Оракула» потребовались Центру НТИ для разработки новых функциональных материалов с заданными свойствами. В их числе — инновационные композиционные электрохимические покрытия, перспективные магнитные и огнеупорные материалы. Кроме того, HPC-кластер необходим для ключевых проектов Центра НТИ, связанных с применением технологий машинного обучения и искусственного интеллекта. К ним относятся разработка прототипа цифрового паспорта материала и его информатизация (материал как элемент Интернета вещей), создание цифровых двойников технологических процессов.

«На текущий момент Центр НТИ нацелен на создание и ускоренный вывод на рынок новых типов материалов и продуктов на их основе. Их применение при проектировании деталей, конструкций и прочих изделий способствует развитию отечественных авиационной, космической, энергетической и иных промышленных отраслей, обеспечению технологического суверенитета. Поэтому нам была важна не только высокая производительность вычислительного кластера, но и его компонентная и программная независимость. А это значит — соответствие требованиям импортозамещения. Нам приятно, что формирование такой сложной архитектуры суперкомпьютера взяли на себя специалисты К2Тех, являющиеся экспертами в области реализации комплексных проектов полного цикла, а также подбора лучших российских решений для достижения поставленных целей и задач», — подчёркивает и.о. директора ЦНФМ Тимур Бъядовский.

О компании К2Тех:

К2Тех — эксперт ИТ-рынка по системной интеграции, разработке программных решений и сервисной поддержке. Более 15 лет реализует проекты в области инженерной, аппаратной и программной инфраструктуры, информационной безопасности, пользовательского ПО и бизнес-приложений.

О центре НТИ по Новым функциональным материалам:

Центр компетенций НТИ «Моделирование и разработка новых функциональных материалов с заданными свойствами» создан в 2021 году на базе Новосибирского государственного университета по результатам конкурсного отбора на предоставление грантов на государственную поддержку центров НТИ на базе образовательных организаций высшего образования и научных организаций в соответствии с постановлением Правительства Российской Федерации № 1251 от 16.10.2017.

Основной миссией Центра является создание единой цифровой платформы технологий и инструментов разработки функциональных материалов с заданными свойствами и изделий из них, существенно влияющих на рыночный потенциал конечных продуктов мировых рынков НТИ и технологических проектов-маяков.

Постоянный URL: http://servernews.ru/1100305
26.02.2024 [13:44], Сергей Карасёв

В России официально представлен суперкомпьютер «Сергей Годунов» производительностью 54,4 Тфлопс

В Институте математики имени С. Л. Соболева Сибирского отделения Российской академии наук (ИМ СО РАН) официально представлен вычислительный комплекс «Сергей Годунов», названный в честь известного советского и российского математика. Монтажом и тестированием системы занимались специалисты группы компаний РСК.

Суперкомпьютер создан на базе высокоплотной и энергоэффективной платформы «РСК Торнадо» с жидкостным охлаждением. Каждый из узлов в составе системы оснащён двумя процессорами Intel Xeon Ice Lake-SP с 38 ядрами, работающими на базовой частоте 2,4 ГГц. Производительность кластера на момент запуска составляет 54,4 Тфлопс.

Предполагается, что HPC-комплекс поможет повысить эффективность научных исследований и будет способствовать развитию новых технологий. Среди сфер применения суперкомпьютера названы: медицинская электроакустическая томография; моделирование эпидемиологических, экологических, экономических и социальных процессов; вычислительная аэрогидродинамика и задачи оптимизации турбулентных течений; моделирование и построение сценариев развития системы биосфера-экономика-социум с учётом безуглеродного и устойчивого развития и изменения климата; решение обратных задач геофизики прямым методом на основе подхода Гельфанда-Левитана-Крейна».

 Источник изображений: РСК

Источник изображений: РСК

Отмечается, что монтажные и пуско-наладочные работы в рамках проекта произведены в сжатые сроки — за 3,5 недели. В перспективе возможности системы будут расширяться. В частности, в 2024 году планируется осуществить модернизацию, которая позволит более чем вдвое нарастить производительность — до 120,4 Тфлопс.

«У нас появилась возможность решать мультидисциплинарные задачи, моделировать объёмные процессы и предсказывать поведение сложных математических систем. На суперкомпьютере проводятся вычисления по критически важным проблемам и задачам, стоящим перед РФ», — отмечает исполняющий обязанности директора ИМ СО РАН Андрей Миронов.

В целом, запущенный комплекс является основным инструментом для проведения исследований и прикладных разработок в академгородке Новосибирска и создания технологической платформы под эгидой Научного совета Отделения математических наук РАН по математическому моделированию распространения эпидемий с учётом социальных, экономических и экологических процессов.

Постоянный URL: http://servernews.ru/1100811
Система Orphus