Материалы по тегу: ии
29.03.2024 [13:48], Сергей Карасёв
HPE внедрила генеративный ИИ в облачную платформу Aruba Networking CentralКомпания HPE объявила о внедрении нескольких больших языковых моделей (LLM) в облачную платформу Aruba Networking Central, которая предоставляет IT-специалистам аналитическую информацию, интуитивно понятную визуализацию данных, средства автоматизации рабочих процессов и пр. Сообщается, что LLM отвечают за работу функций на основе генеративного ИИ. Это, в частности, чат-бот, интегрированный в поисковый интерфейс. После ввода запроса система выдаёт контекстуализированный ответ, на подготовку которого, как утверждается, уходят доли секунды. При этом ИИ не принимает никакие административные решения самостоятельно. Модели обучены на собственных наборах данных компании. Это всевозможные документы службы поддержки, примерно 3 млн запросов клиентов и другие сведения, собранные за годы работы. HPE подчёркивает, что модели помещены в песочницу. При этом реализованы специальные средства, предназначенные для исключения личной и корпоративной информации из запросов, чтобы предотвратить её попадание в будущие наборы обучающих данных. HPE Aruba Networking собрала телеметрию почти с 4 млн сетевых устройств и более чем с 1 млрд уникальных конечных точек клиентов. В результате было сформировано одно из крупнейших озёр данных в сетевой отрасли. Эта информация используется в сервисах машинного обучения HPE Aruba Networking Central для прогнозного анализа и рекомендаций. Внедрение LLM поможет расширить ИИ-возможности платформы. На базе LLM, как отмечается, также будет работать функция обобщения документов, которая заработает в апреле нынешнего года. Она позволит клиентам задавать вопросы вида «Как сделать…», после чего система создаст соответствующее руководство и предоставит ссылки на нужную техническую документацию. Это позволит ускорить решение проблем и снизить вероятность ошибок.
29.03.2024 [01:29], Владимир Мироненко
Amazon потратит почти $150 млрд на расширение ЦОД, чтобы стать лидером в области ИИВ ближайшие 15 лет Amazon планирует потратить $148 млрд на дата-центры, что позволит ей справиться с ожидаемым взрывным ростом спроса на приложения ИИ и другие цифровые сервисы, пишет Bloomberg. В прошлом году темпы роста выручки AWS упали до рекордно низкого уровня, поскольку клиенты стремились сократить расходы и откладывали реализацию проектов модернизации. Сейчас их расходы снова начинают расти, и Amazon готовит на будущее землю под расширение ЦОД и договаривается о поставках электроэнергии. Планируемые затраты Amazon на ЦОД превышают обязательства Microsoft и Google (холдинг Alphabet), хотя ни одна из компаний не раскрывает расходы, связанные с ЦОД, так последовательно, как Amazon, отметил Bloomberg. «Мы значительно расширяем мощности, — сообщил Кевин Миллер (Kevin Miller), вице-президент AWS, курирующий дата-центры компании. — Я думаю, это просто даёт нам возможность стать ближе к клиентам». Компания планирует расширить существующие ЦОД в Северной Вирджинии и Орегоне, а также развиваться в новых регионах, в том числе в Миссисипи, Саудовской Аравии и Малайзии. Эти усилия в основном направлены на удовлетворение растущего спроса на корпоративные сервисы, такие как хранение файлов и базы данных. Вместе с тем эти мощности наряду с передовыми ускорителями призваны обеспечить огромную вычислительную мощность, необходимую для ожидаемого бума генеративного ИИ. Развивая свои собственные ИИ-инструменты, чтобы конкурировать с ChatGPT компании OpenAI, и сотрудничая с другими компаниями для обеспечения поддержки ИИ-сервисов на своих серверах, Amazon рассчитывает заработать десятки миллиардов долларов. В последние годы Amazon была крупнейшим в мире корпоративным покупателем возобновляемой энергии, что является частью её обязательства обеспечить к 2025 году всю деятельность возобновляемой электроэнергией. Но эту цель реализовать не так уж и просто из-за несоответствия между спросом и предложением, которое вносит неразбериху в раздробленную энергосистему США. Миллер заявил, что компания продолжает оценивать проекты в сфере экологически чистой энергетики, включая использование аккумуляторных батарей и ядерную энергетику, которые позволят заменить электростанции, работающие на ископаемом топливе. Он пообещал найти способ «удовлетворить потребность в энергии благодаря возобновляемой, безуглеродной энергетике».
28.03.2024 [22:01], Владимир Мироненко
Databricks представила открытую LLM DBRX, превосходящую GPT-3.5 TurboАмериканский стартап в сфере аналитики больших данных и машинного обучения Databricks объявил о выходе DBRX, большой языковой модели (LLM) общего назначения, которая, по его словам, превосходит в стандартных бенчмарках все существующие LLM с открытым исходным кодом, а также некоторые проприетарные ИИ-модели. Стартап заявил, что открывает исходный код модели, чтобы побудить пользователей отказаться от коммерческих альтернатив. Он отметил, что согласно исследованию Andreessen Horowitz LLC, почти 60 % лидеров в области ИИ-технологий заинтересованы в увеличении использования или переходе на open source, если открытые модели после тюнинга примерно соответствуют по производительности проприетарным моделям. ![]() Источник изображений: Databricks «Я считаю, что самые ценные данные хранятся внутри предприятий. ИИ как бы исключён из этих сфер, поэтому мы пытаемся реализовать это с помощью моделей с открытым исходным кодом», — цитирует ресурс SiliconANGLE заявление гендиректора Databricks Али Годси (Ali Ghodsi) на брифинге с журналистами. По словам Годси, лучше всего DBRX подходит для сфер, где критически важны управление и безопасность, например, для финансовых услуг и здравоохранения, или там, где важен тон ответов, например, в области самообслуживании клиентов. DBRX использует архитектуру Mixture of Experts (MoE, набор экспертов), которая делит процесс обучения между несколькими специализированными «экспертными» подсетями. Каждый «эксперт» владеет определёнными навыками, а исходный запрос оптимальным образом распределяется между «экспертами». Вице-президент Databricks по генеративному ИИ, перешедший в компанию вместе с приобретением MosaicML, соучредителем которой он был, заявил, что MoE работает даже лучше человека. Хотя DBRX с 132 млрд параметром почти в два раза больше Llama 2, она всё равно вдвое быстрее. Также сообщается, что DBRX превзошла существующие LLM с открытым исходным кодом Llama 2 70B и Mixtral-8x7B (тоже MoE), а также запатентованную GPT-3.5 Turbo в тестах на понимание языка, программирование, математику и логику. Обучение модели на общедоступных и лицензированных источниках данных в течение двухмесячного периода обошлось Databricks всего в $10 млн с использованием 3 тыс. ускорителей NVIDIA H100. По словам компании, при создании приложений генеративного ИИ модель DBRX можно использовать вместе с Databricks Mosaic AI, набором унифицированных инструментов для создания, развёртывания и мониторинга моделей ИИ. Базовая модель DBRX Base и продвинутая модель DBRX Instruct доступны по открытой лицензии для исследований и коммерческого использования на GitHub и Hugging Face. Разработчики могут уже сегодня создавать свои варианты DBRX на основе собственных данных на платформе Databricks.
28.03.2024 [20:42], Сергей Карасёв
Оптика для HBM: стартап Celestial AI получил ещё $175 млн инвестиций, в том числе от AMD и SamsungКомпания Celestial AI, занимающаяся созданием технологий оптического интерконнекта, сообщила о проведении раунда финансирования Series C, в ходе которого привлечено $175 млн. Деньги будут использованы для ускорения разработки и вывода передовых продуктов на коммерческий рынок. Летом прошлого года Celestial AI объявила о разработке технологии Photonic Fabric. Она ориентирована на ИИ-платформы и системы НРС. Благодаря оптическому интерконнекту нового типа ИИ-чипы могут быть соединены с большим пулом высокопроизводительной памяти HBM3, а в перспективе — и HBM4. Таким образом, решается проблема ограниченного объёма памяти HBM в составе ИИ-ускорителей. По заявлениям Celestial AI, технология Photonic Fabric обеспечивает повышение пропускной способности и объёма доступной памяти более чем в 25 раз при одновременном снижении задержек и энергопотребления примерно в 10 раз по сравнению с существующими оптическими альтернативами и традиционными медными соединениями. Таким образом, можно масштабировать нагрузки ИИ. ![]() Источник изображения: Celestial AI В июне 2023 года Celestial AI провела раунд финансирования Series B на сумму в $100 млн. Тогда средства предоставили IAG Capital Partners, Koch Disruptive Technologies (KDT), Temasek Xora Innovation, Samsung Catalyst, Smart Global Holdings (SGH), Porsche Automobil Holding SE, The Engine Fund, imec.xpand, M Ventures и Tyche Partners. Инвестиционная программа Series C проведена под предводительством Фонда инновационных технологий США (USIT) миллиардера Томаса Талла (Thomas Tull), основателя Legendary Entertainment. В программе также приняли участие AMD Ventures, KDT, Temasek, Xora Innovation, IAG Capital Partners, Samsung Catalyst, SGH, Porsche Automobil Holding SE, Engine Ventures, M-Ventures и Tyche Partners.
28.03.2024 [14:43], Сергей Карасёв
DDN создала хранилище с быстродействием 4 Тбайт/с для ИИ-суперкомпьютера NVIDIA EOSКомпания DataDirect Networks (DDN), специализирующаяся на платформах хранения данных для НРС-задач, сообщила о создании высокопроизводительного хранилища на базе DDN EXAScaler AI (A3I — Accelerated, Any-Scale AI) для ИИ-суперкомпьютера NVIDIA EOS производительностью 18,4 Эфлопс (FP8). Речь идёт о кластере, объединяющем 576 систем NVIDIA DGX H100. Компания DDN заявляет, что разработала для NVIDIA EOS систему хранения с высокими показателями быстродействия и энергетической эффективности. Объединены 48 устройств A3I, которые сообща занимают менее трёх серверных стоек. Потребляемая мощность заявлена на отметке 100 кВт. ![]() Источник изображения: DDN Задействованы 250-Тбайт массивы NVMe-накопителей. Суммарная ёмкость СХД составляет 12 Пбайт. Общая пропускная способность, по заявлениям разработчика, достигает 4 Тбайт/с. Таким образом, система способна справляться с самыми ресурсоёмкими рабочими нагрузками ИИ, большими языковыми моделями, комплексным моделированием и пр. «Наша цель — обеспечение максимальной эффективности всей платформы, а не просто предоставление эффективного хранилища. Благодаря интеграции с суперкомпьютером NVIDIA EOS наше решение демонстрирует способность сократить время окупаемости при одновременном снижении рисков как для локальных, так и для облачных партнёров», — говорит президент и соучредитель DDN.
28.03.2024 [14:31], Сергей Карасёв
Intel Gaudi2 остаётся единственным конкурентом NVIDIA H100 в бенчмарке MLPerf InferenceКорпорация Intel сообщила о том, что её ИИ-ускоритель Habana Gaudi2 остаётся единственной альтернативой NVIDIA H100, протестированной в бенчмарке MLPerf Inference 4.0. При этом, как утверждается, Gaudi2 обеспечивает высокое быстродействие в расчёте на доллар, хотя именно чипы NVIDIA являются безоговорочными лидерами. Отмечается, что для платформы Gaudi2 компания Intel продолжает расширять поддержку популярных больших языковых моделей (LLM) и мультимодальных моделей. В частности, для MLPerf Inference v4.0 корпорация представила результаты для Stable Diffusion XL и Llama v2-70B. Согласно результатам тестов, в случае Stable Diffusion XL ускоритель H100 превосходит по производительности Gaudi2 в 2,1 раза в оффлайн-режиме и в 2,16 раза в серверном режиме. При обработке Llama v2-70B выигрыш оказывается более значительным — в 2,76 раза и 3,35 раза соответственно. Однако на большинстве этих задач (кроме серверного режима Llama v2-70B) решение Gaudi2 выигрывает у H100 по показателю быстродействия в расчёте на доллар. В целом, ИИ-ускоритель Gaudi2 в Stable Diffusion XL показал результат в 6,26 и 6,25 выборок в секунду для оффлайн-режима и серверного режима соответственно. В случае Llama v2-70B достигнут показатель в 8035,0 и 6287,5 токенов в секунду соответственно. Говорится также, что серверные процессоры Intel Xeon Emerald Rapids благодаря улучшениям аппаратной и программной составляющих в бенчмарке MLPerf Inference v3.1 демонстрируют в среднем в 1,42 раза более высокие значения по сравнению с чипами Xeon Sapphire Rapids. Например, для GPT-J с программной оптимизацией и для DLRMv2 зафиксирован рост быстродействия примерно в 1,8 раза.
27.03.2024 [23:40], Сергей Карасёв
Coherent представила оптические коммутаторы для дата-центров, ориентированных на задачи ИИCoherent анонсировала специализированные оптические коммутаторы для ИИ-кластеров высокой плотности. В основу устройств Optical Circuit Switch (OCS) положена фирменная платформа кросс-коммутации Lightwave Cross-Connect (DLX). В изделиях, в отличие от традиционных коммутаторов, не применяются приемопередатчики для преобразования фотонов в электроны и обратно. Вместо этого все операции осуществляются в оптическом тракте: импульсы поступают в один порт и выходят из другого (конечно, с небольшим ослаблением). Coherent выделяет несколько ключевых преимуществ своей технологии. Прежде всего значительно возрастает производительность, что важно при решении ресурсоёмких задач, связанных с приложениями ИИ. Кроме того, благодаря отказу от преобразования среды сокращаются энерозатраты. Наконец, отпадает необходимость в обновлении собственно коммутаторов при установке в ЦОД оборудования следующего поколения. Это значительно повышает окупаемость капитальных затрат. ![]() Источник изображения: Coherent Представленное решение насчитывает 300 входных и 300 выходных оптических портов. Коммутаторы OCS помогают решить проблемы масштабируемости и надёжности дата-центров, ориентированных на приложения ИИ. Аналитики Dell'Oro Group отмечают, что для ИИ-задач требуется более высокий уровень отказоустойчивости, нежели для традиционных приложений. Крайне важно, чтобы коммутаторы, используемые в составе ИИ-платформ, не провоцировали никаких перебоев во время обучения или эксплуатации больших языковых моделей. Устройства Coherent, как сообщается, обеспечивают необходимый уровень надёжности. Массовые поставки новых коммутаторов планируется организовать в 2025 году. При этом Google уже использует в своих дата-центрах оптические коммутаторы (OCS) собственной разработки на базе MEMS-переключателей для формирования ИИ-кластеров, а Meta✴ совместно с MIT разработала систему TopoOpt, представляющую собой оптическую патч-панель с манипулятором, который позволяет менять топологию сети.
27.03.2024 [23:25], Руслан Авдеев
За десять лет энергопотребление ЦОД Великобритании вырастет на 500 %По прогнозам национальной энергетической компании Великобритании National Grid, спрос на электроэнергию со стороны британских дата-центров в ближайшие десять лет вырастет в шесть раз. Bloomberg сообщает, что в компании обосновали столь значимое увеличение потребления тем, что ИИ-индустрия требует всё больше энергии. В результате предсказуемо поднимется нагрузка на электросети страны, вынужденной передавать в огромных объёмах энергию, например, с ветрогенераторов в Шотландии к ЦОД в окрестностях Лондона. При этом национальная сеть подвержена повышенным нагрузкам из-за ускоренной электрификации систем домашнего отопления, транспорта и промышленности. ![]() Источник изображения: D Z/unsplash.com Предполагается, что последующий рост в ключевых сферах вроде ИИ и квантовых вычислений потребует строительства более масштабной и способной выдерживать интенсивные нагрузки инфраструктуры. То же потребуется и от других стран, ищущих возможности расширить ёмкость энергосетей. Как считают в Международном энергетическом агентстве (IEA), уже в следующие три года мировой спрос на энергию со стороны ЦОД, включая сферы ИИ и криптовалют, может вырасти более чем вдвое. В Великобритании National Grid рассматривает возможность создания ультравысоковольтной сети 800 кВ, вдвое более ёмкой, чем уже существующая. Она обеспечит передачу больших объёмов электроэнергии по стране, связывая крупные генерирующие объекты с площадками, потребляющими много электричества. Это будет означать отказ от текущей системы индивидуальных проектов подключения, каждый из которых требует отдельных разрешений властей и создания инфраструктуры. Предлагается вложить в новые сети £112 млрд ($142 млрд) для обеспечения стране пути к сокращению вредных выбросов до нуля. Хотя в Министерстве энергетики признают, что это «чрезвычайно дорого», необходимость строительства такой сети считается властями «задачей №1». Проект тем более важен, поскольку Великобритания намерена вложить ещё £500 млн в ИИ-вычисления и квантовые проекты.
27.03.2024 [22:34], Сергей Карасёв
Lenovo создаст для Великобритании ИИ-суперкомпьютер производительностью 44,7 ПфлопсСовет по науке и технологиям Великобритании (STFC), по сообщению The Register, заключил с Lenovo соглашение о создании нового НРС-комплекса, ориентированного на решение задач в области ИИ. Речь идёт о суперкомпьютере с жидкостным охлаждением, производительность которого составит приблизительно 44,7 Пфлопс (точность вычислений не уточняется). Система будет смонтирована в принадлежащем STFC Вычислительном центре имени Хартри в Дарсбери (графство Чешир). Ожидается, что по быстродействию новый комплекс примерно в 10 раз превзойдёт нынешнюю НРС-систему центра под названием Scafell Pike. В основу суперкомпьютера лягут серверы Lenovo ThinkSystem с технологией прямого водяного охлаждения (DWC) Neptune. Применение СЖО, как ожидается, поможет снизить потребление энергии примерно на 40 % по сравнению с воздушным охлаждением и дополнительно повысить производительность на 10 %. Технические характеристики будущего суперкомпьютера не раскрываются, но известно, что он будет использовать узлы с ускорителями на базе GPU. Технология Neptune, в частности, применяется в серверах ThinkSystem SD650-N V3, которые комплектуются процессорами Intel Xeon Emerald Rapids и ускорителями NVIDIA HGX H100 (SXM). Ожидается, что новый суперкомпьютер, который пока не получил имя, будет применяться для решения сложных задач, связанных с ИИ. Это моделирование погоды и глобальных изменений климата, инициативы в области чистой энергетики, разработка передовых лекарственных препаратов, новые материалы, автомобильные технологии и пр. Система Lenovo станет частью программы Национального центра цифровых инноваций Хартри (HNCDI) стоимостью около $265 млн, которая предполагает поддержку предприятий и организаций государственного сектора, внедряющих средства ИИ.
27.03.2024 [22:29], Алексей Степин
Новый бенчмарк — новый рекорд: NVIDIA подтвердила лидерские позиции в MLPerf InferenceКомпания NVIDIA опубликовала новые, ещё более впечатляющие результаты в области работы с большими языковыми моделями (LLM) в бенчмарке MLPerf Inference 4.0. За прошедшие полгода и без того высокие результаты, демонстрируемые архитектурой Hopper в инференс-сценариях, удалось улучшить практически втрое. Столь внушительный результат достигнут благодаря как аппаратным улучшениям в ускорителях H200, так и программным оптимизациям. Генеративный ИИ буквально взорвал индустрию: за последние десять лет вычислительная мощность, затрачиваемая на обучение нейросетей, выросла на шесть порядков, а LLM с триллионом параметров уже не являются чем-то необычным. Однако и инференс подобных моделей тоже является непростой задачей, к которой NVIDIA подходит комплексно, используя, по её же собственным словам, «многомерную оптимизацию». Одним из ключевых инструментов является TensorRT-LLM, включающий в себя компилятор и прочие средства разработки, учитывающие архитектуру ускорителей компании. Благодаря ему удалось почти втрое повысить производительность инференса GPT-J на ускорителях H100 всего за полгода. Такой прирост достигнут благодаря оптимизации очередей на лету (inflight sequence batching), применению страничного KV-кеша (paged KV cache), тензорному параллелизма (распределение весов по ускорителям), FP8-квантизации и использованию нового ядра XQA (XQA kernel). В случае ускорителей H200, использующих ту же архитектуру Hopper, что и H100, важную роль играет память: 141 Гбайт HBM3e (4,8 Тбайт/с) против 80 Гбайт HBM3 (3,35 Тбайт/с). Такой объём позволяет разместить модель уровня Llama 2 70B целиком в локальной памяти. В тесте MLPerf Llama 2 70B ускорители H200 на 28 % производительнее H100 при том же теплопакете 700 Вт, а увеличение теплопакета до 1000 Вт (так делают некоторые вендоры в своих MGX-платформах) даёт ещё 11–14 % прироста, а итоговая разница с H100 в этом тесте может доходить до 45 %. В специальном разделе новой версии MLPerf NVIDIA продемонстрировала несколько любопытных техник дальнейшей оптимизации: «структурированную разреженность» (structured sparsity), позволяющую поднять производительность в тесте Llama 2 на 33 %, «обрезку» (pruning), упрощающую ИИ-модель и позволяющую повысить скорость инференса ещё на 40 %, а также DeepCache, упрощающую вычисления для Stable Diffusion XL и дающую до 74 % прироста производительности. На сегодня платформа на базе модулей H200, по словам NVIDIA, является самой быстрой инференс-платформой среди доступных. Результатами GH200 компания похвасталась ещё в прошлом раунде, а вот показатели ускорителей Blackwell она не предоставила. Впрочем, не все считают результаты MLPerf показательными. Например, Groq принципиально не участвует в этом бенчмарке. |
|