Материалы по тегу: ии

30.11.2023 [15:09], Владимир Мироненко

Amazon SageMaker HyperPod обеспечит бесперебойное обучение базовых моделей

Amazon Web Services представила сервис Amazon SageMaker HyperPod для обучения и точной настройки больших языковых моделей (LLM). Новинка обеспечивает распределённое обучение для больших обучающих кластеров ИИ, оптимизированное использование вычислительных ресурсов, памяти и сетевых ресурсов кластера, а также гибкую среду обучения, исключающую перерывы.

Базовые модели ИИ (FM, foundation model) зачастую слишком сложны, поэтому их обучение приходится проводить на нескольких ускорителях, что является технически сложной задачей, требует узкоспециализированных навыков и может занять недели или месяцы в зависимости от количества задействованного оборудования. При этом возрастает вероятность сбоев, таких как единичный отказ ускорителя.

 Изображение: AWS

Изображение: AWS

Эти сбои могут нарушить весь процесс обучения и потребовать ручного вмешательства для выявления, изоляции, отладки, устранения неполадок и восстановления после них, что ещё больше задержит процесс обучения. Для бесперебойного обучения модели разработчики должны постоянно сохранять прогресс обучения с помощью контрольных точек, что ещё больше увеличивает временные затраты и отдаляет вывод решения на рынок.

SageMaker HyperPod обеспечивает доступ к ИИ-кластерам по требованию. Разработчики могут подготовить кластер с помощью комбинации команд и простых сценариев, что значительно быстрее, чем настройка инфраструктуры вручную. По словам AWS, SageMaker HyperPod может сократить время, необходимое для обучения базовых моделей, более чем на треть.

 Изображение: AWS

Изображение: AWS

HyperPod предварительно сконфигурирован с использованием распределённых обучающих библиотек SageMaker, которые позволяют автоматически распределять учебные нагрузки между тысячами ускорителей. SageMaker также разделяет данные, на которых обучается модель, на более мелкие и более управляемые части.

Hyperpod гарантирует непрерывность обучения моделей и периодическое создание контрольных точек. Когда во время обучения происходит аппаратный сбой, SageMaker HyperPod автоматически обнаруживает его, восстанавливает или заменяет неисправный инстанс и возобновляет обучение с последней контрольной точки, устраняя необходимость в ручном управлении этим процессом и позволяя проводить обучение в распределённой среде без сбоев в течение длительного времени.

 Изображение: AWS

Изображение: AWS

Вместе с тем клиенты с повышенными требованиями имеют возможность использовать собственный распределённый код для обучения. AWS также предоставляет возможность оснастить ИИ-кластер другими программными компонентами, такими как инструменты отладки.

SageMaker HyperPod уже доступен в облачных регионах AWS в Огайо, Северной Вирджинии, Орегоне, Сингапуре, Сиднее, Токио, Франкфурте, Ирландии и Стокгольме.

Постоянный URL: http://servernews.ru/1096743
30.11.2023 [13:52], Сергей Карасёв

Dell построит ИИ-кластер из 10 тыс. NVIDIA H100 для компании Imbue

Независимая исследовательская ИИ-компания Imbue и Dell Technologies объявили о заключении соглашения по созданию нового высокопроизводительного вычислительного кластера на основе серверов PowerEdge для обучения базовых моделей. Проект оценивается в $150 млн.

Imbue разрабатывает собственные базовые ИИ-модели, оптимизированные специально для рассуждений: они способны при необходимости запрашивать дополнительную информацию, анализировать и критиковать свои собственные результаты, а также разбивать сложную задачу на несколько более простых для повышения эффективности выполнения.

 Источник изображения: Dell

Источник изображения: Dell

Imbue уже использует кластер на базе серверов Dell PowerEdge XE9680 с ускорителями NVIDIA H100. Новый проект предполагает развёртывание платформы, насчитывающей почти 10 тыс. чипов H100. Отмечается, что Imbue и Dell разработали систему, включающую в себя сравнительно небольшие кластеры, которые позволяют проводить эксперименты с ИИ-моделями на новых архитектурах. Такие узлы могут быть объединены в крупный кластер для эффективного обучения крупномасштабных базовых моделей.

Основная цель Imbue заключается в создании специализированных ИИ-агентов, не требующих постоянного контроля со стороны пользователей. Они смогут выполнять самые разные задачи, включая написание программного кода, анализ сложных данных и пр. Ранее в текущем году Imbue привлекла на развитие $200 млн. Деньги поступили в том числе от NVIDIA.

Постоянный URL: http://servernews.ru/1096726
30.11.2023 [03:10], Игорь Осколков

ИИ в один клик: llamafile позволяет запустить большую языковую модель сразу в шести ОС и на двух архитектурах

Mozilla представила первый релиз инструмента llamafile, позволяющего упаковать веса большой языковой модели (LLM) в исполняемый файл, который без установки можно запустить практически на любой современной платформе, причём ещё и с поддержкой GPU-ускорения в большинстве случаев. Это упрощает дистрибуцию и запуск моделей на ПК и серверах.

llamafile распространяется под лицензией Apache 2.0 и использует открытые инструменты llama.cpp и Cosmopolitan Libc. Утилита принимает GGUF-файл с весами модели, упаковывает его и отдаёт унифицированный бинарный файл, который запускается в macOS, Windows, Linux, FreeBSD, OpenBSD и NetBSD. Готовый файл предоставляет либо интерфейс командной строки, либо запускает веб-сервер с интерфейсом чат-бота.

 Источник: GitHub / Mozilla Ocho

Источник: GitHub / Mozilla Ocho

Поддерживаются платформы x86-64 и ARM64, причём в первом случае автоматически определяется тип CPU и по возможности используются наиболее современные векторные инструкции. llamafile может использовать ускорители NVIDIA, а в случае платформы Apple задействовать Metal. Разработчики успешно протестировали инструмент в Linux (в облаке Google Cloud) и Windows с картой NVIDIA, в macOS и на NVIDIA Jetson.

Впрочем, некоторые нюансы всё же есть. Так, в Windows размер исполняемого файла не может превышать 4 Гбайт, поэтому большие модели вынужденно хранятся в отдельном файле. В macOS на платформе Apple Silicon перед первым запуском всё же придётся установить Xcode, а в Linux, возможно, понадобится обновить некоторые компоненты. Подробности и примеры готовых моделей можно найти в репозитории проекта.

Постоянный URL: http://servernews.ru/1096720
29.11.2023 [23:40], Руслан Авдеев

NVIDIA NeMo Retriever позволит компаниям дополнять ИИ-модели собственными данными

NVIDIA представила сервис NeMo Retriever, позволяет компаниям дополнять данные для чат-ботов, ИИ-помощников и похожих инструментов специализированными сведениями — для получения более точных ответов на запросы. Сервис стал частью облачного семейства инструментов NVIDIA NeMo, позволяющих создавать, настраивать и внедрять модели генеративного ИИ.

RAG (Retrieval Augmented Generation), метод улучшения производительности больших языковых моделей (LLM), позволяет повысить точность и безопасность ИИ-инструментов благодаря заполнению пробелов в «знаниях» языковых моделей с помощью сведений из внешних источников. Обучение каждой модели — чрезвычайно ресурсоёмкий процесс — обычно осуществляется довольно редко, а то и вовсе единожды. При этом до следующего обновления модель не имеет доступа к полной и актуальной информации, что может привести к неточностям, ошибкам и т.н. галлюцинациям.

 Источник изображения: Faisal Mehmood / Pixabay

Источник изображения: Faisal Mehmood / Pixabay

NeMo Retriever позволяет быстро дополнить LLM свежими сведениями в виде баз данных, HTML-страниц, PDF-файлов, изображений, видео и т.п. Другими словами, базовая модель с добавлением специализированных материалов станет заметно эрудированнее и «сообразительнее». При этом данные могут храниться где угодно — как в облаках, так и на собственных серверах компаний. Технология чрезвычайно полезна, поскольку обеспечивает сотрудникам компании работу с полезными данными, закрытыми для широкой публики, при этом пользуясь всеми преимуществами ИИ.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

В отличие от открытых RAG-инструментов, NVIDIA, по данным самой компании, предлагает готовое к коммерческому использованию решение для доступных на рынке ИИ-моделей, уже оптимизированных для RAG и имеющих поддержку, а также регулярно получающих обновления безопасности. Другими словами, корпоративные клиенты могут брать готовые ИИ-модели и дополнять их собственными данными без отдельной ресурсоёмкой тренировки.

NeMo Retriever позволит добавить соответствующие возможности универсальной облачной платформе NVIDIA AI Enterprise, предназначенной для оптимизации разработки ИИ-приложений. Регистрация разработчиков для раннего доступа к NeMo Retriever уже началась. Cadence Design Systems, Dropbox, SAP SE и ServiceNow уже работают с NVIDIA над внедрением RAG в свои внутренние ИИ-инструменты.

Постоянный URL: http://servernews.ru/1096680
29.11.2023 [22:43], Владимир Мироненко

ИИ-ассистент Amazon Q упростит работу IT-специалистов, разработчиков и корпоративных клиентов AWS

Компания Amazon Web Services представила интеллектуального ассистента Amazon Q на базе генеративного ИИ, предназначенного для помощи корпоративным клиентам. Поначалу Amazon Q будет использоваться для нужд разработчиков и поддержки IT-команд. Amazon Q уже доступен в виде превью, причем многие функции бесплатны. В дальнейшем AWS будет брать по $20/мес. за каждого пользователя, а версия с дополнительными функциями для ИТ-специалистов будет стоить $25/мес.

«Amazon Q может помочь вам получать быстрые и актуальные ответы на насущные вопросы, решать проблемы, генерировать контент и предпринимать действия, используя данные и опыт, найденные в информационных репозиториях, коде и корпоративных системах вашей компании», — сообщил гендиректор Amazon. Глава AWS считает, что Amazon Q реформирует множество видов деятельности. ИИ-помощник разработан с учётом 17-летнего опыта работы самой AWS и поначалу будет доступен именно внутри экосистемы AWS.

Хотя Amazon Q в первую очередь нацелен на разработчиков и ИТ-специалистов, компания планирует в конечном итоге распространить его возможности на весь корпоративный сегмент. Подобно другим ИИ-помощникам он сможет подключаться к различным источникам данных, отвечать на вопросы и составлять резюме, а также предоставлять экспертные сведения или помощь на основе внутренней информации компании. Это потенциально может сделать его конкурентом ChatGPT Enterprise от OpenAI, Copilot for 365 от Microsoft и Duet AI for Workspace от Google.

 Источник изображения: AWS

Источник изображения: AWS

Специалисты смогут получить доступ Amazon Q из консоли AWS. Q расскажет, как использовать сервисы, какие API доступны, к каким сервисам можно подключиться и как они взаимодействуют между собой. Пользователь сможет создавать запросы на естественном языке, а Q подготовит экспертный ответ со ссылками и цитатами. Так, в EC2-консоли Amazon Q даст совет, какой тип инстанса лучше всего подходит для размещения определённого типа приложений в зависимости в зависимости от потребностей клиента. А если возникла проблема с сетью, у Q можно напрямую спросить: «Почему я не могу подключиться по SSH к своему инстансу?». В этом случае помощник подключит его к сетевому анализатору, чтобы устранить неполадки с соединением.

AWS интегрировала ИИ-ассистента в поддерживаемые IDE вместе с ИИ-инструментом Amazon CodeWhisperer, так что с Q можно пообщаться непосредственно во время разработки. Например, Amazon Q может разобрать и описать исходный код незнакомого проекта или же в диалоговом режиме в Amazon CodeCatalyst поможет создать новый код, опираясь на описание необходимой функциональности и учитывая лучшие практики, а также имеющуюся кодовую базу и бизнес-сведения. Наконец, функция Amazon Q Transformation, доступная в виде превью для IntelliJ IDEA и Visual Studio Code, позволит автоматизировать обновление кода приложений с Java 8 и 11 до версии 17. А вскоре Q научится преобразовывать .NET-приложения для Windows в кросс-платформенные.

Постоянный URL: http://servernews.ru/1096691
29.11.2023 [13:09], Сергей Карасёв

Поставки процессоров AMD и Intel в Россию резко сократились

В январе–октябре 2023 года поставки процессоров AMD и Intel на российский рынок, по сообщению газеты «Коммерсантъ», рухнули более чем в два раза (с учётом параллельного импорта). Отчасти это связано с тем, что в сложившейся геополитической обстановке чипы отгружаются в РФ в составе готовых систем — серверов, СХД и пр.

По итогам десяти месяцев 2023-го, согласно данным IT-холдинга Fplus, в Россию поступили около 35 тыс. процессоров AMD, что на 70 % меньше по сравнению с показателем за аналогичный период прошлого года. При этом в денежном выражении поставки упали на 98 % — до 372 млн руб. Отгрузки изделий Intel на российский рынок в январе–октябре 2023 года составили 178 тыс. шт/ на 3,2 млрд руб. Падение по сравнению с прошлогодними значениями зафиксировано на отметке 64 % и 62 % соответственно. При этом Fplus подчёркивает, что «небольшая часть процессоров ввозится в страну под другим кодом, поэтому в поставках не отображается».

 Источник изображения: AMD

Источник изображения: AMD

Участники рынка связывают тенденцию с несколькими факторами, передаёт «Коммерсантъ». Крупные российские производители IT-оборудования, такие как Yadro, «Аквариус» и Fplus, на фоне санкций закупили большое количество компонентов, излишки которых теперь продают другим компаниям. На сокращение поставок также повлияли инфляция и увеличение ставок по кредитам. Кроме того, в апреле из реестра Минпромторга были исключены несколько десятков компаний, которые выпускали оборудование на зарубежных CPU. Вместе с тем некоторые корпоративные пользователи искусственно продлевают жизненный цикл оборудования.

Постоянный URL: http://servernews.ru/1096660
29.11.2023 [03:43], Владимир Мироненко

AWS представила 96-ядерный Arm-процессор Graviton4 и ИИ-ускоритель Trainium2

Amazon Web Services представила Arm-процессор нового поколения Graviton4 и ИИ-ускоритель Trainium2, предназначенный для обучения нейронных сетей. Всего к текущему моменту компания выпустила уже 2 млн Arm-процессоров Graviton, которыми пользуются более 50 тыс. клиентов.

 Amazon Graviton4 (Изображение: AWS)

Amazon Graviton4 (Изображение: AWS)

«Graviton4 представляет собой четвёртое поколение процессоров, которое мы выпустили всего за пять лет, и это самый мощный и энергоэффективный чип, который мы когда-либо создавали для широкого спектра рабочих нагрузок», — отметил Дэвид Браун (David Brown), вице-президент по вычислениям и сетям AWS. По сравнению с Graviton3 новый чип производительнее на 30 %, включает на 50 % больше ядер и имеет на 75 % выше пропускную способность памяти.

 Изображение: AWS

Изображение: AWS

Graviton4 будет иметь до 96 ядер Neoverse V2 Demeter (2 Мбайт L2-кеша на ядро) и 12 каналов DDR5-5600. Кроме того, новый чип получит поддержку шифрования трафика для всех своих аппаратных интерфейсов. Процессор изготавливается по 4-нм техпроцессу TSMC и, вероятно, имеет чиплетную компоновку. Возможно, это первый CPU компании, ориентированный на работу в двухсокетных платформах.

 Изображение: AWS

Изображение: AWS

Поначалу Graviton4 будет доступен в инстансах R8g (пока в статусе превью), оптимизированных для приложений, интенсивно использующих ресурсы памяти — высокопроизводительные базы данных, in-memory кеши и Big Data. Эти инстансы будут поддерживать более крупные конфигурации, иметь в три раза больше vCPU и в три раза больше памяти по сравнению с инстансами Rg7, которые имели до 64 vCPU и 512 Гбайт ОЗУ.

 Amazon Trainium2 (Изображение: AWS)

Amazon Trainium2 (Изображение: AWS)

В свою очередь, Trainium 2 предназначен для обучения больших языковых моделей (LLM) и базовых моделей. Сообщается, что ускоритель в сравнении с Trainium 1 вчетверо производительнее и при этом имеет в 3 раза больший объём памяти и в 2 раза более высокую энергоэффективность. Инстансы EC2 Trn2 получат 16 ИИ-ускорителей с возможностью масштабирования до 100 тыс. единиц в составе EC2 UltraCluster, которые суммарно дадут 65 Эфлопс, то есть по 650 Тфлопс на ускоритель. Как утверждает Amazon это позволит обучать LLM с 300 млрд параметров за недели вместо месяцев.

Со временем на Graviton4 заработает SAP HANA Cloud, портированием и оптимизацией этой платформы уже занимаются. Oracle также перенесла свою СУБД на Arm, а заодно перевела все свои облачные сервисы на чипы Ampere, в которую в своё время инвестировала. Microsoft же пошла по пути AWS и недавно анонсировала 128-ядерый Arm-процессор (Neoverse N2) Cobalt 100 и ИИ-ускоритель Maia 100 собственной разработки. Всё это может представлять отдалённую угрозу для AMD и Intel. С NVIDIA же все всё равно пока что продолжают дружбу — именно в инфраструктуре AWS, как ожидается, появится самый мощный в мире ИИ-суперкомпьютер на базе новых GH200.

Постоянный URL: http://servernews.ru/1096651
29.11.2023 [01:21], Руслан Авдеев

Cerebras, критиковавшая NVIDIA за сотрудничество с Китаем, сама оказалась связана с компанией, ведущей дела с Пекином

Хотя стартап Cerebras, занимающийся разработкой чипов, раскритиковал NVIDIA за попытки обойти санкционные ограничения в отношении Китая и призвал соблюдать не букву, но дух американского закона, у компании, похоже, нашлись свои скелеты в шкафу. Как сообщает The Register, сейчас в США расследуют деятельность клиента Cerebras — группы G42, возможно, помогавшей Поднебесной обходить санкционные ограничения.

Американские спецслужбы подозревают, что базирующаяся в ОАЭ многопрофильная компания G42 поставляет в Китай передовые технологии. Для своих ИИ-исследований компания обратилась к Cerebras с целью постройки суперкомпьютерного кластера Condor Galaxy за $100 млн, а всего стартап намерен построить девять подобных объектов на $900 млн. При этом узлы кластера используют разработанные Cerebras чипы WSE-2, подходящие для обучения ИИ-систем.

 Источник изображения:  Arthur Wang/unsplash.com

Источник изображения: Arthur Wang/unsplash.com

Как показывают предварительные результаты расследования американских журналистов, властей и спецслужб, G42 пытается сотрудничать с Пекином и работает с китайскими компаниями вроде Huawei, давно находящимися под санкциями. В самой G42 утверждают, что принимают все меры для того, чтобы соблюдать американские ограничения. При этом, по данным журналистов, G42 считают прокси-компанией для работы в интересах КНР, помогающей Пекину получать вычислительные ресурсы и подсанкционные технологии.

По словам главы Cerebras Эндрю Фельдмана (Andrew Feldman), его компания точно не будет вести бизнес с Китаем. Бизнесмен попал в неловкую ситуацию после того, как появилась информация о тесных связях G42 с Пекином. На запрос журналистов в Cerebras заявили, что кластеры Condor Galaxy находятся в США, а G42 получает к ним облачный доступ, так что любая активность контролируется и соответствует американским законам — государства-противники не имеют прямого доступа к ИИ-системам. Фельдман якобы не знал о сомнительном статусе G42, а в стартапе подчеркнули, что не комментируют слухи.

Бюро промышленности и безопасности США уже обратилось к поставщикам облачных инфраструктур для консультаций о целесообразности дополнительных ограничений доступа к их услугам из некоторых стран. В частности, бюро интересует, как операторы намерены выявлять разработчиков ИИ-моделей, вызывающих обеспокоеность властей и что можно предпринять для устранения угроз. Кроме того, президент США предложил новые правила, согласно которым облакам потребуется докладывать о деятельности иностранцев, связанной с обучением больших языковых моделей (LLM).

Постоянный URL: http://servernews.ru/1096627
28.11.2023 [22:20], Игорь Осколков

NVIDIA анонсировала суперускоритель GH200 NVL32 и очередной самый мощный в мире ИИ-суперкомпьютер Project Ceiba

AWS и NVIDIA анонсировали сразу несколько новых совместно разработанных решений для генеративного ИИ. Основным анонсом формально является появление ИИ-облака DGX Cloud в инфраструктуре AWS, вот только облако это отличается от немногочисленных представленных ранее платформ DGX Cloud тем, что оно первом получило гибридные суперчипах GH200 (Grace Hoppper), причём в необычной конфигурации.

 Изображения: NVIDIA

Изображения: NVIDIA

В основе AWS DGX Cloud лежит платформа GH200 NVL32, но это уже не какой-нибудь сдвоенный акселератор вроде H100 NVL, а целая, готовая к развёртыванию стойка, включающая сразу 32 ускорителя GH200, провязанных 900-Гбайт/с интерконнектом NVLink. В состав такого суперускорителя входят 9 коммутаторов NVSwitch и 16 двухчиповых узлов с жидкостным охлаждением. По словам NVIDIA, GH200 NVL32 идеально подходит как для обучения, так и для инференса действительно больших LLM с 1 трлн параметров.

Простым перемножением количества GH200 на характеристики каждого ускорителя получаются впечатляющие показатели: 128 Пфлопс (FP8), 20 Тбайт оперативной памяти, из которых 4,5 Тбайт приходится на HBM3e с суммарной ПСП 157 Тбайтс, и агрегированная скорость NVLink 57,6 Тбайт/с. И всё это с составе одного EC2-инстанса! Да, новая платформа использует фирменные DPU AWS Nitro и EFA-подключение (400 Гбит/с на каждый GH200). Новые инстансы, пока что безымянные, можно объединять в кластеры EC2 UltraClasters.

Одним из таких кластеров станет Project Ceiba, очередной самый мощный в мире ИИ-суперкомпьютер с FP8-производительность 65 Эфлопс, объединяющий сразу 16 384 ускорителя GH200 и имеющий 9,1 Пбайт памяти, а также агрегированную пропускную способность интерконнекта на уровне 410 Тбайт/с (28,8 Тбайт/с NVLink). Он и станет частью облака AWS DGX Cloud, которое будет доступно в начале 2024 года. В скором времени появятся и EC2-инстансы попроще: P5e с NVIDIA H200, G6e с L40S и G6 с L4.

Постоянный URL: http://servernews.ru/1096645
28.11.2023 [15:27], Сергей Карасёв

AWS и Kyndril помогут предприятиям во внедрении решений на основе генеративного ИИ

Облачная платформа Amazon Web Services (AWS) и компания Kyndryl, бывшее подразделение IBM, объявили о заключении многолетнего соглашения о сотрудничестве. Партнёры помогут корпоративным заказчикам в создании и внедрении решений на базе генеративного ИИ и передовых средств машинного обучения.

Предполагается, что сотрудничество позволит клиентам AWS и Kyndril ускорить цифровую трансформацию, повысить эффективность работы и задействовать инновационные решения в рамках своего бизнеса.

 Источник изображения: pixabay.com

Источник изображения: pixabay.com

По условиям соглашения, Kyndril и AWS создадут площадку Innovation Factory для совместной разработки решений на основе генеративного ИИ и машинного обучения, ориентированных на конкретные сценарии использования. Данная инициатива призвана помочь заказчикам в модернизации облачной стратегии.

Кроме того, партнёрство нацелено на расширение возможностей Kyndril по проектированию, внедрению, миграции, улучшению и управлению облачными сервисами AWS в комплексных IT-средах. Стороны помогут ускорить модернизацию систем планирования ресурсов предприятия и других приложений на площадке AWS: это позволит сократить финансовые и временные затраты.

Kyndril также сможет увеличить количество своих сотрудников, имеющих сертификаты AWS, что поможет ускорить реализацию проектов по миграции рабочих нагрузок клиентов в облако и по развёртыванию сервисов генеративного ИИ.

Постоянный URL: http://servernews.ru/1096595
Система Orphus