ИИ на селе: NetApp и NTT протестировали геораспределённое обучение LLM

 

Международный отраслевой консорциум IOWN (Innovative Optical and Wireless Network Global Forum), по сообщению ресурса Blocks & Files, предложил концепцию геораспределённой вычислительной платформы, предполагающую территориальное разделение дата-центров с массивами GPU-ускорителей и All-Flash СХД. Такое решение, как ожидается, позволит повысить экономическую эффективность обучения масштабных ИИ-моделей.

Консорциум IOWN основан в январе 2020 года корпорациями NTT, Intel и Sony. Он занимается разработкой коммуникационной и вычислительной инфраструктуры следующего поколения на основе фотоники. В настоящее время в консорциум входят более 170 компаний и организаций, включая Microsoft, NVIDIA, Cisco, Nokia, Samsung, Fujitsu, KDDI, Orange, Red Hat и др.

Участники IOWN указывают, что дефицит и высокая стоимость электроэнергии в городских районах ограничивают возможности по созданию ИИ ЦОД. Вместе с тем данные, необходимые для обучения ИИ, как правило накапливаются и хранятся именно в мегаполисах, и их перемещение в сельскую местность с дешёвой электроэнергией не всегда целесообразно. В качестве решения проблемы IOWN предлагает размещать в удалённых районах дата-центры с GPU, обеспечивая при этом их подключение к площадкам с СХД в городских зонах посредством полностью фотонной сети (APN).

 Источник изображения: IOWN

Источник изображения: IOWN

Разработанная концепция предусматривает применение одномодового оптоволокна (SMF) с пропускной способностью 100 Гбит/с, а также технологии NFS over RDMA/ТСР. В экспериментальной системе задействованы хранилище NetApp типа All-Flash и большая языковая модель (LLM) Tsuzumi, разработанная японской телекоммуникационной компанией NTT. Благодаря прямому доступу GPU-серверов к хранилищу NetApp время обучения Tsuzumi в геораспределённой системе на базе APN по сравнению с традиционной инфраструктурой повышается менее чем на 1 %. При этом расстояние между удалёнными локациями может достигать 3000 км. Более подробная информация изложена в документе «Green Computing with Remote GPU over APN (tsuzumi-7B)».

Отметим, что гиперскейлеры уже перешли к обучению моделей в рамках нескольких разнесённых ЦОД, хотя чаще речь идёт о формировании компактных ИИ-кластеров, а не о географическом разделении хранилищ и вычислительных мощностей. Утверждается, что обычно операторы стараются размещать ЦОД на расстоянии до 60 км, тогда как NetApp и NTT говорят о тысячах километров.

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER. | Можете написать лучше? Мы всегда рады новым авторам.

Источник:

Постоянный URL: https://servernews.ru/1139429

Комментарии