Материалы по тегу: llm
13.11.2024 [23:33], Руслан Авдеев
Дефицит энергии ограничит возможности 40 % ИИ ЦОД уже к 2027 годуИИ вообще и генеративный ИИ в частности привели к стремительному росту энергопотребления ЦОД — по прогнозам агентства Gartner, в следующие два года рост составит 160 %. В результате ожидается, что 40 % существующих ИИ ЦОД будут ограничены в энергоресурсах к 2027 году. Как утверждают в агентстве, взрывной рост новых ИИ ЦОД гиперскейл-уровня обеспечивает постоянный рост спроса на электроэнергию, который совсем скоро превысит возможности поставщиков электричества. Это грозит нехваткой энергии и перебоями в энергоснабжении, что ограничит рост новых ЦОД для систем генеративного ИИ и прочих целей с 2026 года. По оценкам Gartner, для обеспечения работы для ИИ серверов в 2027 году понадобится 500 ТВт∙ч, что в 2,6 раза больше, чем в 2023 году. Дефицит энергии может затянуться, поскольку на создание новой инфраструктуры для генерации, распределения и доставки энергии уйдут годы, а уже назревшие проблемы никуда не денутся. В скором будущем число новых ЦОД и развитие систем генеративного ИИ будет определяться доступностью энергии. В Gartner рекомендуют организациям и компаниям оценить влияние риск дефицита энергии на их продукты и сервисы. Стоит не только принимать в расчёт рост стоимости электричества при планировании новых продуктов и сервисов, но и искать новые решения, требующие меньше энергии. Неизбежно связанное с дефицитом повышение цен на электричество увеличит стоимость эксплуатации больших языковых моделей (LLM). Хотя ключевые пользователи электроэнергии заранее работают над заключением долгосрочных контрактов, зачастую по фиксированным ставкам, стоимость энергии для питания дата-центров в любом случае значительно вырастет. Это скажется на стоимости ИИ как продукта и бизнесе соответствующих сервис-провайдеров. Вероятно, цели по достижению экоустойчивости при этом пострадают. Ранее уже прогнозировалось, что операторы ЦОД не смогут добиться заявленных целей, теперь к сходным выводам приходят и в Gartner. В краткосрочной перспективе растущий спрос заставит поставщиков добывать энергию любыми доступными способами. В некоторых случаях это означает сохранение электростанций на ископаемом топливе, которые при других обстоятельствах закрылись бы в плановом порядке. В Gartner подчёркивают, что масштабирование ЦОД приведёт и к росту выбросов CO2 в краткосрочной перспективе. Дата-центрам требуется энергоснабжение в режиме 24/7, а такого не могут обеспечить классические ветряные и солнечные электростанции. Надёжно поставлять энергию в больших объёма могут только ГЭС, станции на ископаемом топливе и АЭС. В долгосрочной перспективе новые технологии энергохранилищ (вроде натрий-ионных аккумуляторов) или «чистая» энергия вроде малых модульных реакторов (SMR) позволит легче добиваться ESG-целей. В Gartner рекомендуют пересмотреть цели достижения экоустойчивости, связанные с выбросами углекислого газа с учётом будущих требований ЦОД и доступности источников энергии в ближайшие годы. При разработке ИИ-приложений стоит сконцентрировать усилия на использовании минимальных вычислительных мощностей и оценивать другие возможности вроде широкого применение периферийных вычислений и т.н. малых языковых моделей (SLM), имеющих узкую специализацию.
05.11.2024 [17:34], Руслан Авдеев
Развитие генеративного ИИ всё больше зависит от доступности качественных данных, пресной воды, электроэнергии и чистой медиСистемам генеративного ИИ требуются самые разные ресурсы, но в некоторых сферах их нехватка может носить критический характер. По данным DigiTimes, серьёзную проблему может составить нехватка качественных массивов данных, рост потребления электроэнергии и пресной воды, а также дефицит поставок меди для IT-индустрии. Как сообщают эксперты CB Insights, к 2026 году может снизиться доступность высококачественных данных для обучения языковых моделей. В результате их разработчикам придётся полагаться либо на дорогие лицензированные данные, либо на синтезированные самим же ИИ наборы данных. С 2022 года около 50 вендоров уже вышли на рынок синтетических данных для обучения, а ещё 30 компаний ищут средства. Однако выход на этот рынок гигантов вроде Microsoft и Meta✴ сократил возможности привлечения средств стартапами. В 2024 году в этой сфере отмечены всего пять раундов финансирования, тогда как в 2022 году был 21 раунд. Кроме того, теперь в некоторых стартапах соответствующего профиля начались и увольнения, а израильская Datagen, основанная ещё в 2018 году, подала заявление о банкротстве. При этом Scale AI, основанная чуть раньше, сумела привлечь $1 млрд. Развитие ИИ также значительно увеличивает энергопотребление, например, ИИ-поиск Google, по слухам, требует в 10 раз больше энергии, чем обычный. По информации Международного энергетического агентства (IEA), спрос на электроэнергию, связанный ЦОД. ИИ и криптовалютами, достиг в 2022 году 460 ТВт∙ч, а к 2026 году должен вырасти до 620–1050 ТВт∙ч. По оценкам IEA к 2026 году отрасли на основе ИИ, возможно, будут потреблять в 10 раз больше энергии, чем в 2023 году. Компенсировать спрос частично могут технологические инновации в сфере энергетики. Исследователи Central Research Institute of Electric Power Industry (CRIEPI) отмечают, что развитие энергосберегающих технологий может вдвое снизить рост спроса на электричество. Впрочем, коммерческая судьба таких проектов не всегда благоприятна. Развитию ИИ угрожает и рост потребления воды системами охлаждения ЦОД. В 2023 году Microsoft сообщала о 23-% росте потребления воды до 7,844 млн м3, в основном из-за расширения ЦОД. Например, обучение модели OpenAI GPT-3 с 175 млрд параметров потребовало 700 м3 только на охлаждение серверов в новейшем американском ЦОД Microsoft. С учётом воды, потраченной при генерации энергии и производстве оборудования, расход составил и вовсе 5,4 тыс. м3. А при эксплуатации GPT-3 каждый диалог из 10–50 запросов обходился в 0,5 л воды. К 2027 году спрос на воду на охлаждение и производство энергии во всех ЦОД должен достичь 4,2–6,6 млрд м3/год. Приблизительно столько за полгода потребляет Великобритания. Наконец, угрозу индустрии ИИ представляет дефицит меди. Спрос на медь растёт вместе со спросом на возобновляемую энергию, электротранспорт и генеративный ИИ. По данным JPMorgan Chase & Co. К 2030 году только ИИ ЦОД могут требовать 2,6 млн т меди ежегодно. Каждый дополнительный МВт ёмкости может требовать 20–40 т меди. Дефицит предложения меди по прогнозам вырастет до 4 млн т в год к 2030 году, спрос ИИ-индустрии добавит этому показателю ещё 2,6 млн т. Здесь тоже могут помочь новые технологии, способные прямо или косвенно снизить спрос или замедлить его рост. По оценкам Macquarie Investment Bank, ежегодный рост спроса на медь может быть ограничен 200 тыс. т до 2030 года — другие аналитики куда более пессимистичны. Оценка потребления для ЦОД составляет 27 т/МВт, что приблизительно соответствует оценкам JPMorgan. В Macquarie отмечают, что технологии энергосбережения помогут компенсировать рост энергопотребления ИИ-инфраструктурой, а также рост использования меди в отрасли.
08.10.2024 [12:36], Сергей Карасёв
Inflection AI и Intel представили ИИ-систему на базе Gaudi3Стартап Inflection AI и корпорация Intel объявили о сотрудничестве с целью ускорения внедрения ИИ в корпоративном секторе. В рамках партнёрства состоялся анонс Inflection for Enterprise — первой в отрасли ИИ-системы корпоративного класса на базе ускорителей Intel Gaudi3 и облака Intel Tiber AI Cloud (AI Cloud). Inflection AI основана в 2022 году Мустафой Сулейманом (Mustafa Suleyman), одним из основателей Google DeepMind, а также Ридом Хоффманом (Reid Hoffman), одним из учредителей LinkedIn. Стартап специализируется на технологиях генеративного ИИ. В середине 2023 года Inflection AI получила на развитие $1,3 млрд: в число инвесторов вошли Microsoft и NVIDIA. Inflection for Enterprise объединяет Gaudi3 с большой языковой моделью (LLM) Inflection 3.0. Утверждается, что это ПО при использовании на аппаратной платформе Intel демонстрирует вдвое более высокую экономическую эффективность по сравнению с некоторыми конкурирующими изделиями. Заказчики получат LLM, настроенную в соответствии с их пожеланиями. Для удовлетворения потребностей каждого конкретного клиента применяется обучение с подкреплением на основе отзывов людей (RLHF). При этом используются данные, предоставленные самим заказчиком. Отмечается, что облако AI Cloud упрощает создание, тестирование и развёртывание ИИ-приложений в единой среде, ускоряя время выхода продуктов на рынок. Тонко настроенные ИИ-модели доступны исключительно клиенту и не передаются в третьи руки. На первом этапе системы Inflection for Enterprise будут предлагаться через облако AI Cloud. В I квартале 2025 года планируется организовать поставки программно-аппаратных комплексов.
05.10.2024 [15:36], Владимир Мироненко
Accenture сформировала подразделение NVIDIA Business Group и обучит 30 тысяч сотрудников полному стеку ИИ-технологий NVIDIAГлобальная консалтинговая компания Accenture и NVIDIA объявили о расширении партнёрства, в рамках которого Accenture создала новую бизнес-группу Accenture NVIDIA Business Group с целью помочь предприятиям быстро внедрить и масштабировать ИИ-решения. Также будет проведено обучение 30 тыс. сотрудников Accenture по всему миру полному набору ИИ-технологий NVIDIA. Это одна из крупнейших сделок на рынке. Новая структура Accenture сосредоточится на стимулировании корпоративного внедрения так называемых «агентных систем ИИ», используя преимущества ключевых программных платформ NVIDIA. Как сообщает ресурс CRN, директор по ИИ Accenture Лань Гуань (Lan Guan) заявил на встрече с журналистами, что агентные системы включают в себя «армию ИИ-агентов», которые работают вместе с людьми, чтобы «принимать решения и точно выполнять задачи даже в самых сложных рабочих процессах». Согласно пресс-релизу, агентные системы — это прорыв в области генеративного ИИ. Они могут автономно действовать в соответствии с намерениями пользователя, создавать новые рабочие процессы и предпринимать действия с учётом окружения, что может целиком реорганизовать бизнес-процессы или отдельные функции. По словам Гуаня, в отличие от чат-ботов, таких как ChatGPT, ИИ-агенты не требуют запросов и подсказок от людей и не предназначены для автоматизации уже существующих бизнес-шагов. В своей работе Accenture NVIDIA Business Group будет полагаться на собственную платформу AI Refinery, которая использует полный стек NVIDIA AI, включая NVIDIA AI Foundry, AI Enterprise и Omniverse для продвижения таких направлений, как реорганизация процессов, моделирование на основе ИИ и суверенный ИИ. AI Foundry помогает в разработке кастомных ИИ-моделей, предоставляя доступ к базовым моделям, фреймворкам и инструментам. AI Enterprise предлагает микросервисы и инструменты для разработки, оптимизации и развёртывания приложений ИИ. Наконец, Omniverse ориентирована на создание цифровых двойников производственных процессов и т.п. Accenture также заявила, что открывает сеть инженерных ИИ-центров в Сингапуре, Токио, Малаге и Лондоне, которые помогут ей во внедрении агентных систем ИИ. Эти центры станут частью Центра передового ИИ Accenture (Center for Advanced AI) в дополнение существующим филиалам в Маунтин-Вью и Бангалоре, и будут сосредоточены на подборе и тюнинге базовых моделей с последующим крупномасштабном инференсом. Кроме того, Accenture предложит NVIDIA NIM Agent Blueprints, шаблоны ИИ-приложений NIM Agent Blueprints для типовых бизнес-задач. В частности, Accenture подготовит Blueprint для моделирования производств с использованием парка роботов, который объединяет NVIDIA Omniverse, Isaac и Metropolis. Accenture планирует использовать эти новые возможности в Eclipse Automation, принадлежащей её компании по автоматизации производств. Это позволит вполовину ускорить подготовку проектов и почти на треть сократить время развёртывания. Следует отметить, что на прошлой неделе Accenture сообщила о том, что в 2024 финансовом году, закончившемся 31 августа, у неё было на $3 млрд новых заказов на генеративный ИИ, $1 млрд из которых пришёлся на IV квартал. Для NVIDIA партнёрство с Accenture является частью реализации плана по расширению влияния на глобальных системных интеграторов (GSI) и другие многонациональные компании, которые имеют значительное влияние на предприятиях. Например, Infosys год назад заявила, что обучит и сертифицирует в рамках партнёрства с NVIDIA 50 тыс. сотрудников, которые изучат особенности аппаратных и программных ИИ-решений NVIDIA.
11.09.2024 [18:07], Сергей Карасёв
SambaNova запустила «самую быструю в мире» облачную платформу для ИИ-инференсаКомпания SambaNova Systems объявила о запуске облачного сервиса SambaNova Cloud: утверждается, что на сегодняшний день это самая быстрая в мире платформа для ИИ-инференса. Она ориентирована на работу с большими языковыми моделями Llama 3.1 405B и Llama 3.1 70B, насчитывающими соответственно 405 и 70 млрд параметров. В основу сервиса положены ИИ-чипы собственной разработки SN40L. Эти изделия состоят из двух крупных чиплетов, оперирующих 520 Мбайт SRAM-кеша, 1,5 Тбайт DDR5 DRAM, а также 64 Гбайт высокоскоростной памяти HBM3. Утверждается, что восьмипроцессорная система на базе SN40L способна запускать и обслуживать ИИ-модели с 5 трлн параметров и глубиной запроса более 256к. Платформа SambaNova Cloud, по заявлениям разработчиков, демонстрирует производительность до 132 токенов в секунду при работе с Llama 3.1 405B и до 461 токена в секунду при использовании Llama 3.1 70B. Для сравнения, по оценкам Artificial Analysis, даже самые мощные системы на базе GPU могут обслуживать модель Llama 3.1 405B только со скоростью 72 токена в секунду, а большинство из них намного медленнее. Подчёркивается, что SambaNova Cloud демонстрирует рекордную скорость при сохранении полной 16-битной точности. Однако без компромиссов всё же не обошлось: модель работает не в полном контекстном окне в 128k, а при 8k. Доступ к SambaNova Cloud предоставляется по трём схемам — Free, Developer и Enterprise. Первая предусматривает бесплатное базовое использование через API. Схема для разработчиков Developer (появится к концу 2024 года) позволяет работать с моделями Llama 3.1 8B, 70B и 405B с более высокими лимитами. Наконец, план Enterprise предлагает корпоративным клиентам возможность масштабирования для поддержки ресурсоёмких рабочих нагрузок. Ранее Cerebras Systems тоже объявила о запуске «самой мощной в мире» ИИ-платформы для инференса, а Groq ещё в прошлом году говорила о преимуществах своих решений и тоже переключилась на создание облачных сервисов. Впрочем, в бенчмарках MLPerf Inference по-прежнему бессменно лидируют решения NVIDIA.
09.09.2024 [16:00], Владимир Мироненко
Корпоративная ИИ-платформа под ключ: HPE и NVIDIA объявила о доступности HPE Private Cloud AI(HPE) объявила о доступности входящей в портфель NVIDIA AI Computing by HPE программно-аппаратной платформы HPE Private Cloud AI на базе GreenLake, разработанной совместно с NVIDIA для создания и запуска корпоративных приложений генеративного ИИ. По словам компании, ключевым отличием HPE Private Cloud AI являются решения для автоматизации и оптимизации приложений ИИ, позволяющие предприятию сократить сроки запуска виртуальных помощников с нескольких месяцев до мгновений. К числу таких решений («ускорителей» в терминологии HPE) относится виртуальный помощник на базе генеративного ИИ, который поможет разработчикам быстро создавать интерактивные чат-боты, отвечающие на вопросы на естественном языке, на основе собственных данных организации и открытых больших языковых моделей (LLM). Компании смогут с их помощью настраивать свои приложения ИИ для различных целей, таких как техническая поддержка, формирование коммерческих предложений, создание маркетингового контента и многое другое. Виртуального помощника можно усовершенствовать, добавив в будущем голосовой ввод, возможность работы с изображениями и многокомпонентную поддержку, обеспечивая более продвинутую генерацию контента и работу в режиме многозадачности. Как утверждает HPE, будущие пакеты решений будут включать в себя широко используемые приложения ИИ для вертикальных отраслей, включая финансовые услуги, здравоохранение, розничную торговлю, энергетику и государственный сектор. Они будут основаны на NVIDIA NIM Agent Blueprints, эталонных вариантах ИИ-решений, которые предприятия смогут постоянно совершенствовать на основе собственных данных и отзывов клиентов. «Предприятия ищут ускоренные, настраиваемые инструменты ИИ, подходящие для конкретных вариантов использования с учётом их специфики, — говорит Джастин Бойтано (Justin Boitano), вице-президент по корпоративным программным продуктам ИИ в NVIDIA. — NVIDIA NIM Agent Blueprints позволяет приложениям ИИ, разработанным с помощью HPE Private Cloud AI, совершенствоваться с использованием обратной связи от живых пользователей, улучшая модели в рамках непрерывного цикла обучения». «Ускорители» HPE — это настраиваемые модульные low-code или no-code приложения, использующие микросервисы NVIDIA NIM. Эти проверенные и воспроизводимые решения упрощают развёртывание приложений ИИ, которое обычно включает приобретение новых навыков, принятие сложных рабочих нагрузок, а также интеграцию и настройку агентов, нескольких микросервисов, векторных баз данных, хранилищ данных, разрозненных источников данных, систем управления пользователями, масштабируемых серверов инференса, наборов данных, моделей ИИ и других ИТ-ресурсов. HPE также объявила о запуске партнёрской программы Unleash AI, разработанной для поддержки обширной экосистемы ведущих организаций-партнёров. Unleash AI является частью Technology Partner Program, входящей в инициативу HPE Partner Ready, которая дополнит HPE Private Cloud AI. Новая программа будет включать поставщиков на всех уровнях — от данных, моделей и приложений технологического стека до системных интеграторов и поставщиков услуг консалтинга, проектирования, внедрения и управления комплексными решениями для клиентов на основе ИИ. Решения партнёров, в том числе основанные на NVIDIA NIM Agent Blueprints, будут курироваться и предварительно проверяться для работы в HPE Private Cloud AI. Эта программа дополнит новую стратегию партнёрства в области ИИ, которую HPE объявила в сотрудничестве с NVIDIA.
09.09.2024 [12:10], Руслан Авдеев
LLM в комплекте: Red Hat выпустила платформу RHEL AI для работы с генеративным ИИRed Hat объявила о запуске платформы Red Hat Enterprise Linux AI (RHEL AI) для создания генеративных ИИ-решений в облачных средах. По данным Silicon Angle, анонсированный три месяца назад пакет ПО сделали общедоступным в ходе мероприятия Red Hat Summit. Ранее анонсированный пакет включает семейство открытых языковых моделей IBM Granite, а также инструмент настройки моделей InstructLab, разработанный самой RedHat. Всё это объединили в образ RHEL для развёртывания в гибридных облаках и на локальных площадках. В компании сообщили, что RHEL AI упростит и удешевит разработку компактных и недорогих моделей. Затраты на обучение моделей могут быть очень высокими, в Red Hat сообщают, что на создание некоторых передовых моделей уходит до $200 млн. И это только на обучение, без учёта стоимости самих данных и настройки, критически важной для выполнения специальных задач каждой конкретной компании. В Red Hat уверяют, что будущее за небольшими генеративными ИИ-моделями, большинство которых будет open source. В компании рассчитывают, что RHEL AI станет основной платформой для создания «бюджетных» и открытых решений. По умолчанию предоставляется библиотека бесплатных LLM Granite общего назначения. InstructLab поможет в тонкой настройке моделей без обширных навыков, связанными с наукой о данных. А интеграция с Red Hat OpenShift AI упростит обучение, настройку и обслуживание моделей. RHEL AI позволит разворачивать генеративный ИИ в непосредственной близости от баз данных и хранилищ компаний. RHEL AI оптимизирован для развёртывания на новейших серверах Dell PowerEdge и обеспечивает все возможности, предоставляемые подпиской Red Hat, в т.ч. круглосуточную поддержку, расширенную поддержку жизненного цикла моделей и, например, правовую защиту Open Source Assurance. Поскольку RHEL AI фактически является расширением Red Hat Enterprise Linux, дистрибутив можно использовать и на любом другом оборудовании, в том числе в облаках. Решение уже доступно у AWS и IBM Cloud, в Google Cloud и Azure появится возможность использовать его позже в этом году. В IBM Cloud ожидается появление предложения «как услуги» — по подписке в самом облаке, но только в следующем году. Ранее сообщалось, что для запуска RHEL AI требуются весьма производительные сертифицированные системы с ускорителями, имеющими минимум 320 Гбайт памяти и хранилище от 200 Гбайт. Среди протестированных указаны серверы Dell с четырьмя NVIDIA H100, Lenovo с восемью AMD Instinct MI300X, а также инстансы IBM Cloud GX3. Вскоре обещана поддержка инстансов AWS EC2 P5 с NVIDIA H100 и ускорителей Intel.
28.08.2024 [00:10], Владимир Мироненко
NVIDIA представила шаблоны ИИ-приложений NIM Agent Blueprints для типовых бизнес-задачNVIDIA анонсировала NIM Agent Blueprints, каталог предварительно обученных, настраиваемых программных решений, предоставляющий разработчикам набор инструментов для создания и развёртывания приложений генеративного ИИ для типовых вариантов использования, таких как аватары для обслуживания клиентов, RAG, виртуальный скрининг для разработки лекарственных препаратов и т.д. Предлагая бесплатные шаблоны для частых бизнес-задач, компания помогает разработчикам ускорить создание и вывод на рынок ИИ-приложений. NIM Agent Blueprints включает примеры приложений, созданных с помощью NVIDIA NeMo, NVIDIA NIM и микросервисов партнёров, примеры кода, документацию по настройке и Helm Chart'ы для быстрого развёртывания. Предприятия могут модифицировать NIM Agent Blueprints, используя свои бизнес-данные, и запускать приложения генеративного ИИ в ЦОД и облаках (в том числе в рамках NVIDIA AI Enterprise), постоянно совершенствуя их благодаря обратной связи. На текущий момент NIM Agent Blueprints предлагают готовые рабочие процессы (workflow) для систем обслуживания клиентов, для скрининга с целью автоматизированного поиска необходимых соединений при разработке лекарств и для мультимодального извлечения данных из PDF для RAG, что позволит обрабатывать огромные объёмы бизнес-данных для получения более точных ответов, благодаря чему ИИ-агенты чат-боты службы станут экспертами по темам компании. С примерами можно ознакомиться здесь. Каталог NVIDIA NIM Agent Blueprints вскоре станет доступен у глобальных системных интеграторов и поставщиков технологических решений, включая Accenture, Deloitte, SoftServe и World Wide Technology (WWT). А такие компании как Cisco, Dell, HPE и Lenovo предложат полнофункциональную ИИ-инфраструктуру с ускорителями NVIDIA для развёртывания NIM Agent Blueprints. NVIDIA пообещала, что ежемесячно будут выпускаться дополнительные шаблоны для различных бизнес-кейсов.
27.08.2024 [12:08], Сергей Карасёв
Стартап FuriosaAI представил эффективный ИИ-ускоритель RNGD для LLM и мультимодальных моделейЮжнокорейский стартап FuriosaAI на мероприятии анонсировал специализированный чип RNGD (произносится как «Renegade»), который позиционируется в качестве альтернативы ускорителям NVIDIA. Новинка предназначена для работы с большими языковыми моделями (LLM) и мультимодальным ИИ. FuriosaAI основана в 2017 году тремя инженерами, ранее работавшими в AMD, Qualcomm и Samsung. Своё первое решение компания выпустила в 2021 году: чип Warboy представляет собой высокопроизводительный ЦОД-ускоритель, специально разработанный для рабочих нагрузок компьютерного зрения. Новое изделие RNGD, как утверждает FuriosaAI, является результатом многолетних инноваций. Чип изготавливается по 5-нм техпроцессу TSMC. ИИ-ускоритель на базе RNGD выполнен в виде карты расширения PCIe 5.0 x16. Он наделён 48 Гбайт памяти HBM3 с пропускной способностью до 1,5 Тбайт/с и 256 Мбайт памяти SRAM (384 Тбайт/с). Показатель TDP находится на уровне 150 Вт, что позволяет использовать устройство в системах с воздушным охлаждением. Для сравнения: у некоторых ускорителей на базе GPU величина TDP достигает 1000 Вт и более. Утверждается, что RNGD обеспечивает производительность до 512 Тфлопс в режиме FP8 и до 256 Тфлопс в режиме BF16. Быстродействие INT8/INT4 достигает 512/1024 TOPS. Карта позволяет эффективно запускать открытые LLM, такие как Llama 3.1 8B. Говорится, что один PCIe-ускоритель RNGD обеспечивает пропускную способность от 2000 до 3000 токенов в секунду (в зависимости от длины контекста) для моделей с примерно 10 млрд параметров. В системе можно объединить до восьми карт для работы с моделями, насчитывающими около 100 млрд параметров. RNGD основан на архитектуре свёртки тензора (Tensor Contraction Processor, TCP), которая, как отмечается, обеспечивает оптимальный баланс между эффективностью, программируемостью и производительностью. Программный стек состоит из компрессора моделей, сервисного фреймворка, среды выполнения, компилятора, профилировщика, отладчика и набора API для простоты программирования и развёртывания. Говорится, что чипы RNGD можно настроить для выполнения практически любой рабочей нагрузки LLM или мультимодального ИИ.
25.08.2024 [13:10], Сергей Карасёв
Не только ускорители NVIDIA: разметка данных становится одной из основных причин роста стоимости ИИ-моделейСоздание и обучение мощных ИИ-моделей может обходиться компаниям в сотни миллионов и миллиарды долларов в год. Например, OpenAI в 2024-м намерена потратить на эти цели до $7 млрд. Основная часть затрат приходится на аппаратные ресурсы, включая дорогостоящие ускорители NVIDIA. Но, как сообщает Fortune, существует ещё одна важная статья расходов, которая зачастую упускается из виду — необходимость качественной маркировки данных. Между тем именно эта работа требует всё больших финансовых вложений. Разметка (или маркировка) — процесс идентификации необработанных данных (изображений, текстовых файлов, видео и пр.) и добавления одной или нескольких значимых и информативных меток для обеспечения контекста. Это необходимо для того, чтобы ИИ-модель могла обучаться на таких массивах информации. Разметка данных требуется для различных сценариев использования, включая машинное зрение, обработку естественного языка и распознавание речи. Разметка уже давно используется, например, при разработке ИИ-моделей для беспилотных автомобилей. Камера фиксирует изображения людей, уличных знаков, транспортных средств и светофоров, а комментаторы-люди помечают снимки такими тегами, как «пешеход», «грузовик» или «знак остановки». Это трудоёмкий и кропотливый процесс, который отнимает много времени и требует значительных финансовых вложений. После выпуска ChatGPT в 2022 году OpenAI подверглась широкой критике за аутсорсинг такой работы: компания наняла кенийских работников менее чем за $2/час. Нынешние универсальные большие языковые модели (LLM) проходят обучение с подкреплением на основе отзывов (RLHF). В ходе процедуры люди предоставляют качественную обратную связь или ранжируют то, что генерирует ИИ-модель. Такой подход приводит к значительному увеличению затрат. Ещё одна причина роста расходов при маркировке данных — желание компаний включить в процесс обучения корпоративную информацию, такую как сведения о клиентах или внутренние корпоративные документы. Кроме того, маркировка данных экспертного уровня в таких областях, как юриспруденция, финансы и здравоохранение требует привлечения высококвалифицированных специалистов, оплата труда которых стоит весьма дорого. Поэтому некоторые разработчики перекладывают задачи по разметке данных на сторонние компании, например, Scale AI, которая недавно получила финансирование в размере $1 млрд. Алекс Ратнер (Alex Ratner), генеральный директор стартапа по маркировке данных Snorkel AI, говорит, что корпоративные клиенты могут тратить миллионы долларов на маркировку и обработку информации. Такие операции в некоторых случаях отнимают до 80% времени и бюджета на ИИ. Причём для сохранения актуальности со временем данные должны периодически дополняться и обрабатываться заново. Таким образом, разметка, наряду с необходимостью применения дорогостоящего оборудования, становится одной из основных статей расходов при обучении ИИ-моделей. Некоторые компании снижают затраты, используя синтетические данные — то есть данные, сгенерированные самим ИИ. Последние инновации в области ИИ сделали генерацию синтетических данных эффективной и быстрой, что в ряде случаев позволяет отказаться от применения массивов реальной информации. Однако в некоторых случаях это грозит «самоповторами». |
|