Материалы по тегу: llm

22.06.2024 [14:34], Сергей Карасёв

Галлюцинации от радиации: аппаратные сбои могут провоцировать ошибки в работе ИИ-систем

Компания Meta, по сообщению The Register, провела исследование, результаты которого говорят о том, что ошибки в работе ИИ-систем могут возникать из-за аппаратных сбоев, а не только по причине несовершенства алгоритмов. Это может приводить к неточным, странным или просто плохим ответам ИИ.

Говорится, что аппаратные сбои способны провоцировать повреждение данных. Речь идёт, в частности, о так называемом «перевороте битов» (bit flip), когда значение ячейки памяти может произвольно меняться с логического «0» на логическую «1» или наоборот. Это приводит к появлению ложных значений, что может обернуться некорректной работой ИИ-приложений. Одной из причин ошибок является космическое излучение, причём с ростом плотности размещения ресурсов его влияние нарастает. Впрочем, в современных комплексных системах такие ошибки по разным причинам могут возникать на любом из этапов хранения, передачи и обработки информации.

 Ошибка в одном бите одного параметра существенно меняет ответ ИИ (Источник: ***)

Ошибка в одном бите одного параметра существенно меняет ответ ИИ (Источник: Meta)

Такие необнаруженные аппаратные сбои, которые не могут быть выявлены и устранены «на лету», тихими повреждениями данных (Silent Data Corruption, SDC). Подобные ошибки могут провоцировать изменения ИИ-параметров, что, в конечном счёте, приводит к некорректному инференсу. Утверждается, что в среднем 4 из 1000 результатов инференса неточны именно из-за аппаратных проблем. «Растущая сложность и неоднородность платформ ИИ делает их всё более восприимчивыми к аппаратным сбоям», — говорится в исследовании Meta. При этом изменение одного бита может привести к тому, что ошибки будут расти как снежный ком.

Для оценки возможных неисправностей предлагается ввести новую величину — «коэффициент уязвимости параметров» (Parameter Vulnerability Factor, PVF). PVF показывает вероятность того, как повреждение конкретного параметра в конечном итоге приведёт к некорректному ответу ИИ-модели Эта метрика, как предполагается, позволит стандартизировать количественную оценку уязвимости модели ИИ к возможным аппаратным сбоям. Показатель PVF может быть оптимизирован под различные модели и задачи. Метрику также предлагается использовать на этапе обучения ИИ и для выявления параметров, целостность которых надо отслеживать.

Производители аппаратного оборудования также принимают меры к повышению надёжности и устойчивости работы своих решений. Так, NVIDIA отдельно подчеркнула важность RAS в ускорителях Blackwell. Правда, делается это в первую очередь для повышения стабильности сверхкрупных кластеров, простой которых из-за ошибок обойдётся очень дорого.

Постоянный URL: http://servernews.ru/1106889
20.06.2024 [14:54], Владимир Мироненко

HPE и NVIDIA представили совместные решения для ускорения внедрения ИИ

Hewlett Packard Enterprise (HPE) и NVIDIA представили платформу NVIDIA AI Computing by HPE — портфель совместно разработанных решений для ускорения внедрения генеративного ИИ.

Ключевым в портфеле является предложение HPE Private Cloud AI. Как указано в пресс-релизе, это первое в своём роде комплексное решение, которое обеспечивает самую глубокую на сегодняшний день интеграцию вычислительных технологий, сетей и ПО NVIDIA с хранилищем, вычислительными ресурсами и облачной платформой HPE GreenLake. Решение предоставляет предприятиям любого размера возможность быстрой и эффективной разработки и развёртывания приложений генеративного ИИ.

Решение HPE Private Cloud AI с новой функцией OpsRamp AI Copilot, которая позволяет повысить эффективность ИТ-операций и обработки рабочих нагрузок, включает в себя облачную среду самообслуживания с полным управлением жизненным циклом. Оно доступно в четырёх конфигурациях (Small, Medium, Large и Extra Large) для поддержки рабочих нагрузок ИИ различной сложности.

 Источник изображения: SiliconANGLE

Источник изображения: SiliconANGLE

HPE Private Cloud AI также поддерживает инференс, точную настройку моделей и их дообучение посредством RAG с использованием собственных данных. Решение сочетает в себе средства контроля конфиденциальности, безопасности, прозрачности и управления данными, в том числе средства ITOps и AIOps. AIOps использует машинное обучение и анализ данных для автоматизации и улучшения ИТ-операций. ITOps включает в себя ряд инструментов, обеспечивающих бесперебойное функционирование ИТ-инфраструктуры организации.

 Источник изображения: The Next Platform

Источник изображения: The Next Platform

Конфигурация HPE Private Cloud AI Small, предназначенная для инференса, включает от четырёх до восьми ускорителей NVIDIA L40S, до 248 Тбайт дискового пространства и 100GbE-подключение в стойке мощностью 8 кВт. Конфигурация Medium, предназначенная для инференса и RAG, включает до 16 ускорителей NVIDIA L40S, до 390 Тбайт дискового пространства и 200GbE-подключение в стойке мощностью 17,7 кВт.

 Источник изображения: The Next Platform

Источник изображения: The Next Platform

Конфигурации Large и Extra Large предлагают дополнительные возможности по обработке нагрузок ИИ и ML, а также тонкой настройке ИИ-модели. Конфигурация Large включает до 32 ускорителей NVIDIA H100 NVL, до 1,1 Пбайта дискового пространства и 400GbE-интерконнект в двух стойках мощностью 25 кВт каждая. В свою очередь, конфигурация Extra Large включает до 24 ускорителей NVIDIA GH200 NVL2, до 1,1 Пбайта дискового пространства и 800GbE-интeрконнект в двух стойках мощностью 25 кВт каждая.

Стойки могут управляться клиентом самостоятельно или обслуживаться HPE. Каждая конфигурация может работать как автономное локальное решение ИИ или в составе гибридного облака. Используется программная платформа NVIDIA AI Enterprise, включающая микросервисы инференса NIM. Её дополняет ПО HPE AI Essentials.

Кроме того, поддержку новых ускорителей NVIDIA получили три аппаратные платформы:

  • базовая модель HPE ProLiant Compute DL384 Gen12 с NVIDIA GH200 NVL2 предназначена для заказчиков, использующих достаточно крупные ИИ-модели или RAG.
  • сервер среднего уровня HPE ProLiant DL380a Gen12 включает до восьми ускорителей NVIDIA H200 NVL и подходит тем, кому нужна гибкость в масштабировании рабочих нагрузок генеративного ИИ;
  • топовая модель HPE Cray XD670 с узлами на базе восьми ускорителей NVIDIA H200 NVL называется идеальной для разработки LLM.

HPE также объявила, что её облачная платформа HPE GreenLake for File Storage прошла сертификацию Nvidia DGX BasePOD и валидацию хранилища NVIDIA OVX, HPE Private Cloud AI, а также анонсированное оборудование будут доступны этой осенью за исключением платформы Cray XD670 на базе NVIDIA H200 NVL, который поступит в продажу этим летом. А после станут доступны и решения на базе Blackwell.

Постоянный URL: http://servernews.ru/1106757
15.06.2024 [18:04], Владимир Мироненко

ASUS осваивает строительство суперкомпьютеров, ЦОД и комплексных ИИ-систем

Производитель потребительской электроники ASUS уже давно работает на рынке серверов и ЦОД. Пока он занимает на нём не очень большую долю, но как сообщил ресурсу The Register старший вице-президент ASUS Джеки Сюй (Jackie Hsu), высокопроизводительных вычислений (HPC) и серверов стал для компании «областью большого роста».

Сюй рассказал, что ASUS участвовала в строительстве на Тайване суперкомпьютера Taiwania 2 производительностью 9 пфлопс, занявшего в рейтинге TOP500 двадцатую позицию после дебюта в 2018 году. А в прошлом году ASUS выиграла тендер на участие в создании суперкомпьютера Taiwania 4.

Сюй сообщил, что ASUS построила ЦОД для Taiwania 4. Причём PUE новой площадки составляет 1,17, что является неплохим показателем для любого подобного объекта, а тем более для Тайваня, отличающегося климатом с высокими температурой и влажностью.

 Источник изображения: ASUS

Источник изображения: ASUS

Также ASUS участвовала в ряде проектов в области ИИ, включая разработку собственной большой языковой модели (LLM) Formosa Foundation со 176 млрд параметров. Модель была обучена на наборах данных на местном языке для генерации текста с традиционной китайской семантикой.

Благодаря накопленному опыту ASUS начала предлагать услуги на рынке ИИ. Компания уже заключила несколько контрактов, в рамках которых она проектирует и создаёт мощные системы для работы с ИИ, предлагая большую часть программного и аппаратного стека, необходимого для обработки ИИ-нагрузок. Гендиректор NVIDIA Дженсен Хуанг (Jensen Huang) назвал ASUS в числе компаний, с кем NVIDIA будет сотрудничать в работе над созданием так называемых фабрик ИИ.

На Computex 2024 компания представила новые серии серверов ASUS RS700-E12 и RS720-E12 с процессорами Intel Xeon 6, разработанные специально для обработки высокопроизводительных рабочих нагрузок, а также серверы хранения семейства VS320D, предназначенные для использования в составе инфраструктур SAN для работы с базами данных, системами виртуализации и пр. Также ASUS представила ИИ-систему ESC AI POD на базе суперускорителей NVIDIA GB200 NVL72.

Постоянный URL: http://servernews.ru/1106543
02.06.2024 [15:30], Владимир Мироненко

NVIDIA объявила о доступности NIM для разработчиков ИИ

NVIDIA объявила о доступности NVIDIA NIM, микросервисов инференса, которые предоставляют готовые модели в виде заранее оптимизированных контейнеров, доступных для развёртывания в облаках, ЦОД или на рабочих станциях. Это, по словам компании, позволяет разработчикам возможность без труда создавать приложения генеративного ИИ за считанные минуты, хотя ранее на это уходили недели.

Сложность приложений генеративного ИИ растёт и часто в них используется несколько моделей с различными возможностями для генерации текста, изображений, видео, речи и т.д. NVIDIA NIM позволяет значительно повысить производительность разработчиков, предоставляя простой стандартизированный способ добавления генеративного ИИ в их приложения. NIM также позволяет компаниям максимизировать свои инвестиции в инфраструктуру. Например, NIM-контейнер с оптимизированным вариантом Meta Llama 3-8B выдаёт втрое больше токенов за единицу времени, чем LLM без оптимизаций.

 Источник изображений: NVIDIA

Источник изображений: NVIDIA

Более 200 технологических партнёров NVIDIA, включая Cadence, Cloudera, Cohesity, DataStax, NetApp, Scale AI и Synopsys, уже используют NIM, чтобы ускорить развёртывание генеративного ИИ для приложений, специфичных для их индустрии, таких как ИИ-помощники, помощники по созданию кода, цифровые человеческие аватары и многое другое. Кроме того, экосистему NIM поддерживают Canonical, Red Hat, Nutanix, VMware, Kinetica и Redis. Доступна и интеграция с KServe.

NIM интегрирован в платформу NVIDIA AI Enterprise. Начиная со следующего месяца участники программы NVIDIA Developer Program получат бесплатный доступ к NIM для исследований, разработки и тестирования. Контейнеры NIM могут включать ПО NVIDIA CUDA, NVIDIA Triton Inference Server и NVIDIA TensorRT-LLM. А на ai.nvidia.com уже доступно более 40 готовых моделей, включая Databricks DBRX, Google Gemma, Meta Llama 3, Microsoft Phi-3, Mistral Large, Mixtral 8x22B и Snowflake Arctic. Компания также представила и NVIDIA BioNeMo NIM для биомедицинской сферы.

Ведущие провайдеры ИИ-решений и MLOps-платформ, включая Amazon SageMaker, Microsoft Azure AI, Dataiku, DataRobot, deepset, Domino Data Lab, LangChain, Llama Index, Replicate, Run.ai, ServiceNow, Securiti AI и Weights & Biases также внедрили NIM. Hugging Face теперь тоже предлагает NIM-контейнейры и позволяет развернуть модели в различных облаках всего за несколько кликов. Микросервисы NIM также интегрированы в AWS, Google Cloud, Microsoft Azure и Oracle Cloud. Наконец, компетенциями в области NIM обзавелись Accenture, Deloitte, Infosys, Latentview, Quantiphi, SoftServe, TCS и Wipro.

Предприятия могут запускать приложения с поддержкой NIM практически в любом месте, в том числе на сертифицированных NVIDIA системах Cisco, Dell, HPE, Lenovo и Supermicro, а также ASRock Rack, ASUS, GIGABYTE, Ingrasys, Inventec, Pegatron, QCT, Wistron и Wiwynn. Более того, например, Foxconn и Pegatron уже используют NIM для разработки предметно-ориентированных LLM для собственных производственных нужд.

Постоянный URL: http://servernews.ru/1105815
24.05.2024 [07:38], Сергей Карасёв

К2Тех и MTS AI помогут компаниям во внедрении технологий генеративного ИИ на базе российской LLM Cotype

Компании К2Тех и MTS AI объявили о заключении соглашения о стратегическом партнёрстве. Его целью является ускорение цифровой трансформации крупного бизнеса путём внедрения технологий генеративного ИИ.

Отмечается, что MTS AI имеет опыт в создании больших языковых моделей (LLM), тогда как К2Тех реализует цифровые проекты полного цикла в ключевых отраслях экономики: финсектор, ретейл и FMCG, химия, нефтегаз, энергетика, машиностроение, горная добыча и др. Объединив компетенции, партнёры намерены предложить заказчикам комплексные решения, которые будут безопасно и гибко интегрироваться в их IT-ландшафт.

В рамках сотрудничества К2Тех на базе большой языковой модели Cotype (ex. MTS AI Chat) будет создавать отраслевые решения для заказчиков в различных сферах. Среди них называются документооборот, маркетинг, производственные процессы и другие области, где необходима обработка большого количества данных в режиме реального времени. По словам MTS AI, модель « обладает достаточным количеством знаний и способна начать работу сразу после установки на серверах клиента».

 Источник изображения: pixabay.com

Источник изображения: pixabay.com

Cotype занимает первую позицию в бенчмарке MERA (Multimodal Evaluation for Russian-language Architectures) среди LLM и вторую после человека. Отмечается, что Cotype способна решать такие задачи, как составление текста официального письма, должностной инструкции или описания вакансии, заполнение данных в CRM-системе, выделение краткого содержания переписки и пр.

К2Тех поможет сократить время развёртывания Cotype в инфраструктуре заказчиков, осуществить интеграцию с действующими системами и обеспечить дополнительную безопасность данных. Клиент сможет подключить систему поиска по корпоративным базам данных, а также чат-боты для найма и онбординга персонала.

Постоянный URL: http://servernews.ru/1105300
13.05.2024 [22:33], Владимир Мироненко

Ресурсы в обмен на технологии: Alibaba Cloud предлагает ИИ-стартапам GPU-мощности за долю в компании

Китайский гигант электронной коммерции Alibaba по примеру Microsoft, финансировавшей успешный ИИ-стартап OpenAI, пытается расширить своё присутствие на рынке ИИ-технологий с помощью инвестиций в китайские стартапы в области генеративного ИИ. Разница лишь в том, что Alibaba предлагает большей частью не традиционное финансирование деньгами, а кредиты на использование своей облачной инфраструктуры для обучения ИИ-моделей, пишет газета Financial Times.

В числе стартапов, пользующихся поддержкой Alibaba, газета назвала Moonshot, Zhipu, MiniMax и 01.ai, которые разрабатывают локальные версии американских приложений, таких как ChatGPT и чат-бот-аватар Character.ai. Так, в феврале этого года Alibaba возглавила раунд финансирования Moonshot AI, разработчика ИИ-решений для компаний в сфере электронной коммерции, включая чат-бот Kimi AI, привлёкшего $1 млрд инвестиций, после чего его рыночная стоимость оценивалась в $2,5 млрд.

По словам источников Financial Times, Alibaba инвестировала в Moonshot AI $800 млн, но лишь чуть больше половины было предоставлено деньгами, а остальная часть поступила в виде кредитов на облачные вычисления. Как утверждают источники, в течение 2023 года глава Alibaba Эдди Юнмин У (Eddie Yongming Wu) лично контролировал выделение инвестиций четырём ведущим ИИ-стартапам Китая, что говорит о том, какое значение компания придаёт этому направлению.

 Источник изображений: Alibaba

Источник изображений: Alibaba

После отказа из-за санкций США от амбициозного плана реструктуризации, предполагавшего проведение IPO облачным подразделением, на фоне растущей конкуренцией со стороны ByteDance и PDD Holdings на своём основном рынке электронной коммерции, Alibaba пытается найти новые драйверы роста. После отмены реструктуризации Эдди Юнмин У взял под личный контроль облачный бизнес, сделав ставку на ИИ в скорректированной стратегии по стимулированию роста компании.

Порядок выделения инвестиций Alibaba в Moonshot повторяет подход Microsoft и Amazon, согласно которому денежные средства передаются ИИ-стартапам при условии, что те будут использовать их для обучения и запуска моделей в облаках Azure и AWS соответственно. Разница заключается в том, что в случае Alibaba напрямую деньги никогда не передаются китайским стартапам. Вместо этого они хранятся на условном депонировании, который компания может считать поступающим доходом.

«Предоставление вычислений на самом деле более ценно, чем наличные, — заявил китайский эксперт в области ИИ. — Из-за нехватки чипов очень сложно получить доступ к кластеру Alibaba из 10 тыс. ускорителей». Alibaba Cloud и другие игроки успели приобрести крупные объёмы современных ускорителей NVIDIA, в том числе урезанные A800 и H800, прежде чем США ввели ограничения. И теперь компания стремится извлечь из владения ими выгоду, прежде чем они устареют.

Крупнейшие интернет-компании Китая, в том числе Alibaba, Meituan, Xiaohongshu и Tencent, играют огромную роль в финансировании новой волны ИИ-стартапов по сравнению с предыдущим поколением стартапов, где доминировали компании SenseTime и Megvii, специализирующиеся на разработке решений для распознавания лиц и видеонаблюдения.

Постоянный URL: http://servernews.ru/1104719
09.05.2024 [23:56], Владимир Мироненко

Red Hat представила ИИ-дистрибутив RHEL AI, который требует минимум 320 Гбайт GPU-памяти

Red Hat представила Red Hat Enterprise Linux AI (RHEL AI), базовую платформу, которая позволит более эффективно разрабатывать, тестировать и запускать генеративные модели искусственного интеллекта (ИИ) для поддержки корпоративных приложений. Фактически это специализированный дистрибутив, включающий базовые модели, инструменты для работы с ними и необходимые драйверы.

 Источник изображений: Red Hat

Источник изображений: Red Hat

Доступная сейчас в качестве превью для разработчиков, платформа RHEL AI включает в себя семейство больших языковых моделей (LLM) IBM Granite, недавно ставших доступными под лицензией Apache 2.0, инструментом тюнинга и доработки моделей InstructLab посредством методики LAB (Large-Scale Alignment for Chatbots), а также различные библиотеки и фреймворки.

Решение представляется в виде готового для развёртывания образа и является частью MLOps-платформы OpenShift AI. По словам Red Hat, RHEL AI предоставляет поддерживаемую, готовую к корпоративному использованию среду для работы с ИИ-моделями на аппаратных платформах AMD, Intel и NVIDIA. По словам компании, open source подход позволит устранить препятствия на пути реализации стратегии в области ИИ, такие как недостаток навыков обработки данных и финансовых возможностей.

Основная цель RHEL AI и проекта InstructLab — предоставить экспертам в предметной области возможность напрямую вносить свой вклад в большие языковые модели, используя свои знания и навыки. Новая платформа позволит им более эффективно создавать приложения с использованием ИИ, например, чат-боты. Впоследствии при наличии подписки RHEL AI компания предложит поддержку корпоративного уровня на протяжении всего жизненного цикла продукта, начиная с модели Granite 7B и ПО и заканчивая возможным возмещение ущерба в отношении интеллектуальной собственности.

«Опираясь на инфраструктуру GPU, доступную в IBM Cloud, которая используется для обучения моделей Granite и поддержки InstructLab, IBM Cloud получит поддержку RHEL AI и OpenShift AI. Эта интеграция позволит предприятиям легче внедрять генеративный ИИ в свои критически важные приложения», — отметила компания.

При этом прямо сейчас для запуска RHEL AI требуются весьма производительные сертифицированные системы с ускорителями, имеющими минимум 320 Гбайт памяти, а также хранилищем ёмкостью от 200 Гбайт. Среди протестированных указаны серверы Dell с четырьмя NVIDIA H100, Lenovo с восемью AMD Instinct MI300X, а также инстансы IBM Cloud GX3. Вскоре обещана поддержка инстансов AWS EC2 P5 с NVIDIA H100 и ускорителей Intel.

Постоянный URL: http://servernews.ru/1104540
07.05.2024 [21:26], Руслан Авдеев

Apple работает над собственными серверными ИИ-ускорителями

Компания Apple занимается разработкой собственных ИИ-полупроводников для дата-центров, передаёт The Wall Street Journal. В перспективе это поможет ей в «гонке вооружений», развернувшейся на рынке ИИ-решений. И у Apple есть ресурсы для создания передовых ИИ-чипов.

В последние десять лет компания уже выбилась в лидеры полупроводниковой индустрии, представляя всё новые чипсеты для мобильных устройств и компьютеров Mac-серии. Как свидетельствуют источники СМИ, серверный проект Project ACDC (Apple Chips in Data Center) задействует компетенции компании в деле создания решений для ЦОД. Недавно сообщалось, что Apple наняла создателя ИИ-кластеров Google. Реализацию проекта Apple начала несколько лет назад, но данных о том, когда будут готовые первые чипы, пока нет.

По имеющимся данным, компания уже тесно сотрудничает с TSMC. Предполагается, что чипы для серверов Apple будут оптимизированы для запуска ИИ-моделей, а не их обучения — на этом рынке по-прежнему будет доминировать NVIDIA. Время поджимает, поскольку Google и Microsoft уже имеют собственные ИИ-ускорители, хотя и разных классов — TPU и Maia 100. Обе компании имеют компетенции в области LLM, а Microsoft весьма дружна с OpenAI, которая тоже не прочь заняться «железом».

 Источник изображения: GR Stocks/unsplash.com

Источник изображения: GR Stocks/unsplash.com

Такое положение дел не устраивает инвесторов Apple, поскольку компания не продемонстрировала никаких впечатляющих успехов в соответствующей сфере, в то время как цена акций конкурентов продолжает расти на фоне новостей об их достижениях. В Apple пытаются убедить инвесторов, что это лишь временное явление и скоро грядут анонсы, связанные с ИИ. Опыт Apple в сфере разработки современных полупроводников должен помочь в создании ИИ-чипов. Сегодня компания представила 3-нм процессор M4 с самым мощным, по её словам, NPU в мире.

Хотя компания добилась определённых успехов в разработке чипов для потребительской и профессиональной электроники, определённые задачи даются ей с трудом. Например, она всё ещё бьётся над созданием собственного беспроводного модуля. Хотя в Apple предпочли бы, чтобы большинство ИИ-вычислений осуществлялись силами самих чипов, некоторые задачи будут по-прежнему выполняться в облаке, где и пригодятся новые полупроводники. Это позволит компании лучше контролировать свою стратегию развития в сфере ИИ.

Постоянный URL: http://servernews.ru/1104418
04.05.2024 [17:55], Владимир Мироненко

PowerML привлекла $25 млн на развитие ИИ-платформы Lamini, в том числе от AMD и Louis Vuitton

Стартап PowerML Inc., разработчик платформы Lamini для обучения и развёртывания ИИ-моделей, сообщил о привлечении $25 млн в ходе двух раундов финансирования. В раундах приняли участие компании Amplify Partners, возглавившая раунд Series A, First Round Capital, возглавившая Seed-раунд, AMD Ventures, пионер ИИ Эндрю Ын (Andrew Ng), соучредитель OpenAI Андрей Карпати (Andrej Karpathy), руководители Dropbox Inc., Figma Inc. и LVMH, материнской компании Louis Vuitton.

Разработанная PowerML программная платформа предназначена для обучения и запуска больших языковых моделей (LLM) на ускорителях AMD или NVIDIA как в облачных, так и в локальных средах. В последнем случае можно развернуть Lamini в изолированной инфраструктуре. Платформа была создана с расчётом на крупномасштабные ИИ-проекты, которым может потребоваться более 1000 ускорителей.

 Источник изображений: Lamini

Источник изображений: Lamini

Одной из наиболее сложных задач, связанных с обучением LLM, является настройка гиперпараметров. Lamini предоставляет готовые наборы гиперпараметров, устраняя необходимость всё настраивать с нуля. Вместе с тем остаётся возможность определения пользовательских настроек LLM. Платформа также может использоваться для точной настройки уже обученных моделей ИИ под конкретную задачу.

Lamini использует подход PEFT, который позволяет значительно сократить количество изменений параметров, а также снизить стоимость адаптации LLM к выполнению новых задач. Вместе с тем Lamini поддерживает методику RAG (Retrieval Augmented Generation), которая позволяет дообучать модель на собственных данных без изменения кода. Заодно Lamini предоставляет панель мониторинга, которая позволяет разработчикам сравнивать корректность точной настройки своих ИИ-моделей с исходной версией.

PowerML также упрощает развёртывание готовых ИИ-моделей, предоставляя различные настройки инференса и позволяя управлять стилем генерации, форматом выводимых данных и т.д. Компания утверждает, что её платформа в инференс-задачах более экономична по сравнению с проприетарными LLM-платформами, такими как Claude 3.

Полученные инвестиции PowerML планирует использовать для найма большего количества сотрудников и расширения своей инфраструктуры ИИ, в частности, за счёт ускорителей большего количества ускорителей AMD, поскольку стартап делает ставку на решения AMD: ускорители Instinct и стек ROCm. Компания также планирует разработать «более глубокую техническую оптимизацию» для рабочих нагрузок машинного обучения.

Постоянный URL: http://servernews.ru/1104299
30.04.2024 [12:39], Сергей Карасёв

Утилита llamafile для быстрого запуска ИИ-моделей получила расширенную поддержку ускорителей AMD и свежих LLM

Компания Mozilla анонсировала обновлённую версию инструмента llamafile с индексом 0.8.1. В данном релизе устранены ошибки, из-за которых происходило некорректное распознавание ускорителей AMD на базе GPU. Кроме того, реализованы некоторые другие изменения.

Напомним, llamafile даёт возможность упаковать веса большой языковой модели (LLM) в исполняемый файл, который без установки можно запустить практически на любой современной платформе. Поддерживаются архитектуры x86-64 и ARM64, а также системы macOS, Windows, Linux, FreeBSD, OpenBSD и NetBSD.

Как отмечается, изначально в llamafile корректно определялись только числовые идентификаторы графических блоков AMD GFX, из-за чего возникали сбои при использовании определённого оборудования AMD Instinct/Radeon. Например, ускоритель Instinct MI250 имеет обозначение GFX90A IP, и символ «A» ранее не распознавался должным образом. В результате, при работе с такими GPU происходили ошибки. Теперь данная проблема устранена.

 Источник изображения: AMD

Источник изображения: AMD

Кроме того, в llamafile 0.8.1 имеется поддержка модели Phi-3 Mini 4k, а также LLaMA3, Grok, Mixtral 8x22b и Command-R. Производительность F16 повышена приблизительно на 20 % на платформе Raspberry Pi 5, примерно на 30 % — на Intel Skylake и на 60 % — на Apple M2.

Постоянный URL: http://servernews.ru/1104042

Входит в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности»;

Система Orphus