Материалы по тегу: hpc
07.12.2023 [16:54], Сергей Карасёв
GigaIO создаст уникальное ИИ-облако с тысячами ускорителей AMD Instinct MI300XКомпания GigaIO объявила о заключении соглашения по созданию инфраструктуры для специализированного ИИ-облака TensorNODE, которое создаётся провайдером TensorWave. В составе платформы будут применяться ускорители AMD Instinct MI300X, оснащённые 192 Гбайт памяти HBM3. Основой TensorNODE послужат мини-кластеры SuperNODE, дебютировавшие летом уходящего года. Особенность этого решения заключается в том, что оно позволяет связать воедино 32 и даже 64 ускорителя посредством распределённого интерконнекта на базе PCI Express. TensorWave будет использовать FabreX для формирования пулов памяти петабайтного масштаба. На первом этапе в начале 2024 года платформа TensorNODE объединит до 5760 ускорителей Instinct MI300X в одном домене. Таким образом, при решении сложных задач можно будет получить доступ более чем к 1 Пбайт памяти с любого узла. Это, как отмечается, позволит обрабатывать даже самые ресурсоёмкие нагрузки в рекордно короткие сроки. ![]() Источник изображения: GigaIO В течение следующего года планируется развернуть несколько систем TensorNODE. Архитектура GigaIO обеспечит улучшенную гибкость по сравнению с традиционными решениями: инфраструктуру можно будет оптимизировать «на лету» для удовлетворения как текущих, так и будущих потребностей в области ИИ и больших языковых моделей (LLM). Отмечается, что TensorNODE полностью базируется на ключевых компонентах AMD. Помимо ускорителей Instinct MI300X, это процессоры EPYC Genoa. Облако TensorWave обеспечит снижение энергозатрат и общей стоимости владения благодаря исключению из конфигурации избыточных серверов и связанного с ними сетевого оборудования.
06.12.2023 [20:09], Руслан Авдеев
Министерство энергетики США выявило плохое обслуживание экзафлопсного суперкомпьютера FrontierУправление генерального инспектора (OIG) Министерства энергетики США провело проверку ЦОД Национальной лаборатории Ок-Ридж, на базе которой работают передовые суперкомпьютеры, в том числе — первая в мире экзафлопсная система Frontier. Как сообщает The Register, результаты оставляют желать лучшего. В сентябре прошлого года в OIG поступило заявление о необходимости проверки качества обслуживания и калибровки оборудования (в первую очередь речь температурных датчиках и автоматике систем охлаждения) на площадке лаборатории, расположенной в Теннеси. Лаборатория занимается проектами в области атомной энергетики и обеспечения национальной безопасности. Доклад по результатам проверки связан с ЦОД на площадке Ок-Ридж. В одном из кампусов находится центр Oak Ridge Leadership Computing Facility (OLCF), управляющий суперкомпьютером Frontier. Инспекция проводилась с января по сентябрь 2023 года и подтвердила данные поступившего регулятору заявления. Согласно докладу OIG, в заявлении сообщалось, что программа калибровки не соответствовала нормам, а предохранительные клапаны (PRV) в ЦОД или совсем не обслуживались, или обслуживались недобросовестно. Сбой работы клапанов мог привести к повышению давления выше допустимых пределов, что потенциально могло нанести вред как оборудованию, так и персоналу. Как сообщают в OIG, поскольку инфраструктура не обслуживалась должным образом, этом могло ограничить доступность вычислительных ресурсов и поставить под угрозу выполнение целей миссии лаборатории. Управление вычислительными мощностями лаборатории выполняет некоммерческая организация UT-Battelle, созданная в 2000 году исключительно для контроля над площадкой Ок-Ридж в интересах Министерства энергетики при сотрудничестве с Университетом Теннесси и некоммерческим Мемориальным институтом Баттеля. В OIG заявляют, что программа обслуживания UT-Battelle не соответствовала необходимым требованиям. В самой UT-Battelle сообщили регулятору, что регулярная калибровка не нужна, поскольку каждый элемент оборудования калибруется при установке, а позже системы ЦОД постоянно контролируются субподрядчиком с помощью ПО, уведомляющего об инцидентах. В OIG подчёркивают, что хотя такая практика разрешена, всё ПО должно контролироваться с помощью специальной программы обеспечения качества, описывающей, каким именно образом соблюдаются требования к безопасности. Однако лаборатория не смогла предоставить таких документов — в UT-Battelle фактически не знают, предоставляет ли ПО корректные данные. Кроме того, UT-Battelle не проверяла вовремя все воздушные клапаны, а почти половина клапанов для воды и теплоносителя не была протестирована и/или обследована в соответствиями с инструкциями. В некоторых случаях тесты проводили в соответствии с рекомендациями производителя, а не принятыми в лаборатории правилами. UT-Battelle заявляет, что процедура проверки сейчас пересматривается. В отчёте OIG подчёркивается, что в 2020 году уже проводилась аналогичная проверка, выявившая буквально те же проблемы. Хотя в некоторых аспектах положение улучшилось, требуются дальнейшие меры для приведения дел в порядок. При этом в UT-Battelle полностью признали правомерность рекомендаций и согласились разработать план обеспечения качества для мониторингового ПО и обеспечить работу и обслуживание PRV-клапанов в соответствии с актуальными процедурами и требованиями.
06.12.2023 [20:05], Сергей Карасёв
РСК создала для Института математики СО РАН суперкомпьютер с быстродействием 54,4 ТфлопсВ Институте математики имени С.Л. Соболева Сибирского отделения Российской академии наук (ИМ СО РАН) в Новосибирске появился новый суперкомпьютер, который планируется применять для разработки перспективных технологий, анализа данных, выполнения научных исследований и пр. Установку и тестирование системы выполнили специалисты группы компаний РСК. Отмечается, что монтажные и пуско-наладочные работы осуществлены в сжатые сроки — за 3,5 недели. На создание комплекса предоставлен грант в рамках федеральной инициативы «Развитие инфраструктуры для научных исследований и подготовки кадров» Национального проекта «Наука и университеты». В основу суперкомпьютера положена платформа «РСК Торнадо» с жидкостным охлаждением. Задействованы вычислительные узлы, оснащённые двумя процессорами Intel Xeon Ice Lake-SP (38 ядер; базовая частота 2,4 ГГц). Производительность кластера в текущей конфигурации составляет 54,4 Тфлопс. Система, как заявляет РСК, позволит сотрудникам института решать сложные исследовательские задачи в области математики, физики, биологии и пр. В дальнейшем запланированы несколько этапов модернизации комплекса. Так, в ближайшей перспективе будут установлены более 12 вычислительных узлов и узел с GPU-ускорителями. В результате, в 2024 году производительность поднимется на 89 Тфлопс, превысив 140 Тфлопс. Суммарная потребляемая мощность машины составит примерно 41 кВт. До 2025 года планируется повышение быстродействия суперкомпьютера до 234,4 Тфлопс. «У нас появилась возможность решать задачи невероятной сложности, моделировать объёмные процессы и предсказывать поведение сложных математических систем. Ресурсы этого вычислительного комплекса будут использоваться для разработки новых технологий, анализа данных и в образовательных целях, например, мы сможем обучать студентов и молодых учёных современным методам проведения исследований и работы с данными», — отметил и.о. директора ИМ СО РАН Андрей Миронов.
06.12.2023 [13:19], Сергей Карасёв
Yotta анонсировала Shakti Cloud — самую мощную в Индии ИИ-платформу на базе NVIDIA H100Компания Yotta Data Services объявила о заключении соглашения о сотрудничестве, в рамках которого планируется развёртывание облачной инфраструктуры Shakti Cloud — самой высокопроизводительной в Индии платформы для задач ИИ на основе GPU. По условиям договора, Yotta закупит крупную партию ускорителей NVIDIA H100. К январю 2024 года планируется ввести в эксплуатацию 4096 ускорителей. Ещё 16 384 ускорителя войдут в состав Shakti Cloud к июню наступающего года. А к концу 2025-го инфраструктура Yotta будет насчитывать 32 768 ускорителей. Yotta развернёт первый кластер из 16 384 ускорителей на площадке NM1 — это крупнейший в Азии дата-центр класса Tier IV, расположенный в Нави-Мумбаи на западном побережье индийского штата Махараштра. Затем Yotta создаст кластер аналогичного масштаба в D1 — своём новейшем ЦОД гиперскейл-уровня в Грейтер-Нойде недалеко от Дели. Проектная мощность Shakti Cloud составит 16 Эфлопс на операциях ИИ. На базе облака Yotta Shakti Cloud клиентам будут предоставляться различные услуги PaaS. Заказчики смогут обучать большие языковые модели (LLM), запускать ресурсоёмкие ИИ-задачи и другие рабочие нагрузки. Ожидается, что платформа поможет удовлетворить растущий спрос на услуги НРС со стороны исследовательских лабораторий, корпоративных пользователей и стартапов. Кроме того, Yotta намерена использовать решения NVIDIA InfiniBand для формирования GPU-кластеров, предназначенных для поддержания масштабных проектов, связанных с инференсом, обучением крупных ИИ-моделей и пр. В целом, партнёрство с NVIDIA поможет Индии укрепить позиции на стремительно растущем мировом рынке ИИ.
01.12.2023 [11:50], Сергей Карасёв
В основу ИИ-суперкомпьютера NCSA DeltaAI лягут суперчипы NVIDIA GH200 Grace HopperНациональный центр суперкомпьютерных приложений (NCSA) при Университете Иллинойса в Урбане-Шампейне (США) сообщил о том, что в 2024 году в эксплуатацию будет введён вычислительный комплекс DeltaAI. Его основой послужат суперчипы NVIDIA GH200 Grace Hopper. Система DeltaAI создаётся с прицелом на ресурсоёмкие приложения ИИ. В рамках проекта NCSA в июле нынешнего года получил $10 млн от Национального научного фонда США (NSF). Инициатива DeltaAI направлена на расширение использования возможностей ИИ при реализации различных исследовательских задач. Комплекс DeltaAI станет дополнением к суперкомпьютеру Delta, который заработал в NCSA в 2022 году. Данная система занимает 199-е место в ноябрьском рейтинге TOP500 с быстродействием около 3,81 Пфлопс. Теоретическая пиковая производительность достигает 8,05 Пфлопс. В основу положены процессоры AMD EPYC 7763 Milan и интерконнект Slingshot-10. Отмечается, что DeltaAI утроит вычислительные мощности NCSA, ориентированные на задачи ИИ, и значительно расширит ресурсы, доступные в НРС-экосистеме, финансируемой NSF. Благодаря использованию передовых интерфейсов система DeltaAI будет более доступна для различных исследовательских ИИ-проектов. Производительность DeltaAI пока не раскрывается. Нужно отметить, что суперчип GH200 Grace Hopper ляжет в основу более чем 40 ИИ-суперкомпьютеров по всему миру. Это, в частности, первый европейский суперкомпьютер экзафлопсного класса Jupiter, британский комплекс Isambard-AI в Бристольском университете и пр.
27.11.2023 [10:42], Сергей Карасёв
Объём мирового НРС-рынка превысит $100 млрд к 2028 годуАналитики ResearchAndMarkets обнародовали прогноз по глобальному НРС-рынку до 2028 года. Эксперты полагают, что отрасль продолжит демонстрировать устойчивый рост на фоне стремительного развития приложений ИИ и увеличивающейся потребности в обработке больших данных. По оценкам, в 2022-м мировые затраты в сфере НРС достигли $46,2 млрд. В перспективе ожидается показатель CAGR (среднегодовой темп роста в сложных процентах) на уровне 15,5 %. Если этот прогноз оправдается, к 2028-му объём рынка составит около $107,8 млрд. ![]() Источник изображения: Microsoft В 2022 году на НРС-рынке доминировал сегмент аппаратного обеспечения с затратами примерно $23,8 млрд. В данной области также прогнозируется величина CAGR на отметке 15,5 %. Таким образом, к 2028-му расходы на аппаратные решения поднимутся до $55,1 млрд. Вклад в расширение закупок «железа» для НРС-платформ вносят такие отрасли, как производство, оборона, финансовый сектор, здравоохранение, научно-исследовательский сегмент и пр. Ключевыми драйверами рынка ResearchAndMarkets называет приложения с интенсивным использованием данных (ИИ, машинное обучение, аналитика), цифровую трансформацию предприятий, расширение облачного сегмента, правительственные инициативы по развитию высокопроизводительных вычислений и конвергенцию технологий (HPC, ИИ, квантовые и периферийные вычисления). Вместе с тем аналитики указывают и на ряд сложностей, препятствующих росту НРС-рынка. Среди них — высокие затраты на создание инфраструктуры, увеличение энергопотребления, нехватка квалифицированных специалистов и нормативно-правовые вопросы.
26.11.2023 [23:28], Руслан Авдеев
Великобритания инвестирует ещё £500 млн в ИИ-вычисления и реализует пять новых квантовых проектов
hardware
hpc
великобритания
ии
инвестиции
квантовые вычисления
квантовый компьютер
суперкомпьютер
финансы
Британское правительство намерено потратить дополнительные £500 млн (около $626 млн), чтобы местные учёные и исследовательские организации получили возможность заниматься передовыми ИИ-разработками. Как уточняет Silicon Angle, дополнительно будет реализовано пять новых квантовых проектов в рамках Национальной квантовой стратегии с бюджетом £2.5 млрд (примерно $3,1 млрд). £500 млн потратят на ИИ-инфраструктуру в ближайшие два года, а общий объём планируемых инвестиций в эту сферу превысит £1,5 млрд. Закупленное оборудование будет доступно учёным и экспертам по машинному обучению, а также стартапам в области ИИ. В частности, именно в рамках этой инициативы для Бристольского университета создаётся ИИ-суперкомпьютер Isambard-AI. В рамках Национальной квантовой стратегии власти намерены запустить пять специализированных проектов. В частности, одна из инициатив направлена на внедрение квантовых компьютеров, «способных выполнять триллион операций» [подряд до первой ошибки]. Власти считают, что такие вычисления нецелесообразно проводить с помощью классических компьютеров и суперкомпьютеров. В перспективе они надеются с помощью квантовых технологий добиться прорывов в самых разных отраслях: здравоохранении, финансах, оборонном и энергетическом секторах, промышленности и др. ![]() Источник изображения: Karlis Reimanis/unsplash.com Параллельно будет реализовано создание сети, связывающей многочисленные удалённые квантовые процессоры, причём одной из задач станет коммерциализация квантовых сетевых технологий. Наконец, ещё три проекта связаны с разработкой квантовых сенсоров, в том числе мобильных, а также созданием нового поколения систем навигации на базе квантовых решений. Кроме того, Великобритания выделит средства на поддержку талантливых учёных и университетских стартапов, подготовку венчурных инвесторов и математиков, создание батарей и низкоорбитальных спутников и т.д.
25.11.2023 [19:51], Сергей Карасёв
Сандийские национальные лаборатории возьмут на вооружение НРС-платформу NextSiliconСандийские национальные лаборатории (SNL) Министерства энергетики США объявили о заключении партнёрского соглашения с компаниями NextSilicon и Penguin Solutions с целью создания системы прототипов на основе передовой архитектуры (Advanced Architecture Prototype System AAPS, AAPS). Речь идёт об определении и оценке новых технологий, которые ещё не были протестированы или внедрены, чтобы установить возможность их использования в рамках программы Advanced Simulation and Computing (ASC). Данная инициатива реализуется Национальным управлением по ядерной безопасности США (NNSA). NextSilicon разрабатывает новую вычислительную платформу, ориентированную на сегмент НРС. Компания использует интеллектуальные программные алгоритмы для динамической реконфигурации оборудования на основе данных, получаемых непосредственно во время выполнения задачи. Это даёт возможность оптимизировать производительность и энергопотребление, обеспечив преимущества по сравнению с традиционными аппаратными решениями. Лаборатории SNL сотрудничают с NextSilicon более трёх лет. Решения NextSilicon будут интегрированы и поставлены специалистами компании Penguin Solutions, с которой SNL работают с 2010 года. Новый НРС-комплекс стандарта OCP получит СЖО Chilldyne, что поможет поднять энергоэффективность. Системы закупаются по проекту Sandia Vanguard: отгрузка первых образцов запланирована на 2024 год, после чего последует поставка Spectra — решения второго поколения. Между тем компании DataDirect Networks (DDN) и NextSilicon представили комплексное решение, которое оптимизирует производительность ввода-вывода ЦОД при выполнении ресурсоёмких задач. Платформа, как утверждается, обеспечивает значительное повышение быстродействия благодаря одновременному подключению устройства хранения данных AI400NVX2 DDN к высокоскоростным сетям InifiniBand и Ethernet.
24.11.2023 [17:14], Сергей Карасёв
Лос-Аламосская национальная лаборатория внедрит обновлённые ИИ-системы SambaNovaЛос-Аламосская национальная лаборатория (LANL) Министерства энергетики США (DOE) заключила соглашение о сотрудничестве со стартапом SambaNova Systems, который специализируется на разработке ИИ-решений. Финансовые условия договора не раскрываются, но ранее стартап уже поставлял LANL свои решения. В рамках партнёрства LANL расширит применение программно-аппаратных комплексов SambaNova DataScale. Речь идёт о системе DataScale SN30, содержащей восемь ускорителей собственной разработки Cardinal SN30, суммарно имеющих 5 Гбайт SRAM и 8 Тбайт DRAM. Конфигурация комплекса может включать от одного до трёх узлов SN30. Кроме того, LANL внедрит решение SambaNova Suite для генеративного ИИ. Эта платформа предоставляет различные ИИ-модели, оптимизированные для корпоративных и государственных организаций. Они могут быть развёрнуты локально или в облаке с возможностью адаптации к собственному набору данных заказчика. ![]() Источник изображения: SambaNova Новое многолетнее соглашение между LANL и SambaNova является расширением действующего партнёрства между сторонами. Лаборатория будет использовать технологии SambaNova для решения широкого спектра задач, связанных с ИИ и большими языковыми моделями (LLM), в том числе в интересах национальной безопасности. Отмечается, что платформа SambaNova Suite предлагает быстрый и эффективный способ развёртывания генеративного ИИ для реализации самых сложных проектов.
23.11.2023 [01:01], Владимир Мироненко
Nokia поможет консорциуму Ultra Ethernet в разработке новых спецификаций Ethernet для систем ИИNokia объявила о поддержке консорциума Ultra Ethernet Consortium (UEC), созданного с целью объединения усилий компаний для обновления спецификаций Ethernet и разработки API, позволяющих удовлетворить растущие сетевые требований систем ИИ и HPC. Компания отметила, что почти универсальный протокол для сетей передачи данных Ethernet способен удовлетворить широкие потребности систем ИИ в производительности, а благодаря поддержке Nokia консорциум сможет разрабатывать новые стандарты, лучшие практики и архитектуры для специализированных сетей ЦОД с ИИ. Nokia добилась больших успехов в разработке сверхмасштабируемых сетевых решений с низкой задержкой для ЦОД и интерконнекта. Компания планирует использовать накопленный опыт при участии в нескольких рабочих группах UEC, помогая обеспечить соответствие продуктов консорциума критическим потребностям всех своих клиентов. ![]() Источник изображения: Nokia «Используя наше широкое присутствие в сфере коммуникаций, корпоративных и веб-сетей, мы стремимся сделать Ultra Ethernet высоко совместимой, недорогой и функционально интероперабельной частью будущих стеков приложений искусственного интеллекта и высокопроизводительных вычислений», — заявил глава IP-подразделения Nokia. |
|