Материалы по тегу: llm

30.09.2023 [16:02], Сергей Карасёв

ИИ за углом: Cloudflare внедрит ускорители NVIDIA в своей глобальной edge-сети

Американская компания Cloudflare, предоставляющая услуги CDN, по сообщению Datacenter Dynamics, будет использовать ускорители NVIDIA в своей глобальной edge-сети для обработки ресурсоёмких нагрузок ИИ, в частности, больших языковых моделей (LLM). Как отмечает ресурс NetworkWorld, инициатива носит название Workers AI. Заказчики смогут получать доступ к мощностям устройств NVIDIA для реализации своих ИИ-проектов.

Cloudflare также задействует коммутаторы NVIDIA Ethernet и полный набор софта NVIDIA для инференса, включая TensorRT-LLM и Triton Inference. Поначалу не планируется поддержка пользовательских ИИ-моделей: клиентам будет предоставляться доступ только к Meta Llama 2 7B и M2m100-1.2, OpenAI Whisper, Hugging Face Distilbert-sst-2-int8, Microsoft Resnet-50 и Baai bge-base-en-v1.5. В будущем этот перечень планируется расширять.

О моделях ускорителей, которые возьмёт на вооружение Cloudflare, ничего не говорится. Но отмечается, что к концу 2023 года решения NVIDIA будут внедрены более чем в 100 городах, а в течение 2024-го они появятся почти во всех зонах присутствия Cloudflare. Глобальная edge-сеть компании использует ЦОД более чем в 300 городах по всему миру.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Ещё одной новой инициативой Cloudflare в области ИИ является Vectorize — векторная база данных. Она поможет разработчикам создавать приложения на основе ИИ полностью на платформе Cloudflare. Говорится, что Vectorize получит интеграцию с Workers AI. Наконец, готовится AI Gateway — система оптимизации и управления производительностью, предназначенная для работы с ИИ-приложениями, развёрнутыми в сети Cloudflare.

Постоянный URL: http://servernews.ru/1093822
29.09.2023 [23:55], Алексей Степин

Без CUDA никуда? ИИ-стартап Lamini полагается исключительно на ускорители AMD Instinct

Когда речь заходит о больших языковых моделях (LLM), то чаще всего подразумевается их обучение, дообучение и запуск на аппаратном обеспечении NVIDIA, как наиболее широко распространённом и лучше всего освоенном разработчиками. Но эта тенденция понемногу меняется — появляются либо специфические решения, могущие поспорить в эффективности с ускорителями NVIDIA, либо разработчики осваивают другое «железо».

К числу последних принадлежит ИИ-стартап Lamini, сделавший ставку на решения AMD: ускорители Instinct и стек ROCm. Главным продуктом Lamini должна стать программно-аппаратная платформа Superstation, позволяющая создавать и развёртывать проекты на базе генеративного ИИ, дообучая базовые модели на данных клиента.

 Изображения: Lamini

Изображения: Lamini

Напомним, ROCm представляет собой своего рода аналог NVIDIA CUDA, но упор в решении AMD сделан на более широкую поддержку аппаратного обеспечения, куда входят не только ускорители и GPU, но также CPU и FPGA — всё в рамках инициативы Unified AI Stack. К тому же в этом году у ROCm появилась интеграция с популярнейшим фреймворком PyTorch, который в версии 2.0 получил поддержку ускорителей AMD Instinct.

Что же касается Lamini и её проекта, то, по словам основателей, он привлёк внимание уже более 5 тыс. потенциальных клиентов. Интерес к платформе проявили, например, Amazon, Walmart, eBay, GitLab и Adobe. В настоящее время платформа Lamini уже более года работает на кластере, включающем в себя более 100 ускорителей AMD Instinct MI250, и обслуживает клиентов. При этом заявляется возможность масштабирования до «тысяч таких ускорителей». Более того, AMD сама активно пользуется услугами Lamini.

На данный момент это единственная LLM-платформа, целиком работающая на аппаратном обеспечении AMD, при этом стоимость запуска на ней ИИ-модели Meta Llama 2 с 70 млрд параметров, как сообщается, на порядок дешевле, нежели в облаке AWS. Солидный объём набортной памяти (128 Гбайт) у MI250 позволяет разработчикам запускать более сложные модели, чем на A100.

Согласно тестам, проведённым Lamini для менее мощного ускорителя AMD Instinct MI210, аппаратное обеспечение «красных» способно демонстрировать в реальных условиях до 89% от теоретически возможного в тесте GEMM и до 70% от теоретической пропускной способности функции ROCm hipMemcpy.

Выбор Lamini несомненно принесёт AMD пользу в продвижении своих решений на рынке ИИ. К тому же в настоящее время они более доступны, чем от NVIDIA H10. Сама AMD объявила на мероприятии AI Hardware Summit, что развитие платформы ROCm в настоящее время является приоритетным для компании.

Постоянный URL: http://servernews.ru/1093795
29.09.2023 [21:29], Владимир Мироненко

AWS объявила о доступности Bedrock: широкий выбор базовых ИИ-моделей и тонкая настройка под нужды клиента

Amazon Web Services объявила об доступности сервиса Bedrock, анонсированного в апреле этого года. Amazon Bedrock представляет собой управляемый сервис, предлагающий высокопроизводительные базовые модели (FM) как от Amazon, так и от ведущих провайдеров, включая AI21 Labs, Anthropic, Cohere, Meta, Stability AI, а также широкий набор возможностей для создания клиентами собственных приложений на основе генеративного ИИ и их настройки с использованием собственных данных.

По словам Amazon, в ближайшие недели в Bedrock появится большая языковая модель (LLM) Llama 2 от Meta с 13 и 70 млрд параметров. Кроме того, в рамках недавно объявленного стратегического сотрудничества все будущие FM от Anthropic будут доступны в Amazon Bedrock с ранним доступом к уникальным функциям для кастомизации моделей и их тонкой настройки. Широкий выбор моделей, включая собственные модели Amazon Titan Embeddings, даст клиентам возможность найти нужное решение для каждого варианта применения и дообучить модель для достижения лучших результатов.

 Источник изображения: Amazon

Источник изображения: Amazon

Поскольку Amazon Bedrock является бессерверным сервисом, клиентам не нужно управлять какой-либо инфраструктурой. CloudWatch поможет в отслеживании использования Bedrock и создании дашбордов, а CloudTrail — в мониторинге API и устранении проблем при интеграции с другими системами. Bedrock позволяет создавать приложения, соответствующие общему регламенту ЕС по защите данных (GDPR) или выполнять конфиденциальные рабочие нагрузки, регулируемых Законом США о переносимости и подотчетности медицинского страхования (HIPAA).

Постоянный URL: http://servernews.ru/1093782
20.09.2023 [20:05], Алексей Степин

SambaNova представила ИИ-ускоритель SN40L с памятью HBM3, который в разы быстрее GPU

Бум больших языковых моделей (LLM) неизбежно порождает появление на рынке нового специализированного класса процессоров и ускорителей — и нередко такие решения оказываются эффективнее традиционного подхода с применением GPU. Компания SambaNova Systems, разработчик таких ускорителей и систем на их основе, представила новое, третье поколение ИИ-процессоров под названием SN40L.

Осенью 2022 года компания представила чип SN30 на базе уникальной тайловой архитектуры с программным управлением, уже тогда вполне осознавая тенденцию к увеличению объёмов данных в нейросетях: чип получил 640 Мбайт SRAM-кеша и комплектовался оперативной памятью объёмом 1 Тбайт.

 Источник изображений здесь и далее: SambaNova via EE Times

Источник изображений здесь и далее: SambaNova (via EE Times)

Эта наработка легла и в основу новейшего SN40L. Благодаря переходу от 7-нм техпроцесса TSMC к более совершенному 5-нм разработчикам удалось нарастить количество ядер до 1040, но их архитектура осталась прежней. Впрочем, с учётом реконфигурируемости недостатком это не является.

Чип SN40L состоит из двух больших чиплетов, на которые приходится 520 Мбайт SRAM-кеша, 1,5 Тбайт DDR5 DRAM, а также 64 Гбайт высокоскоростной HBM3. Последняя была добавлена в SN40L в качестве буфера между сверхбыстрой SRAM и относительно медленной DDR. Это должно улучшить показатели чипа при работе в режиме LLM-инференса. Для эффективного использования HBM3 программный стек SambaNova был соответствующим образом доработан.

Тайловая архитектура SambaNova состоит из вычислительных тайлов PCU, SRAM-тайлов PMU, управляющей логики и меш-интерконнекта

По сведениям SambaNova, восьмипроцессорная система на базе SN40L сможет запускать и обслуживать ИИ-модель поистине титанических «габаритов» — с 5 трлн параметров и глубиной запроса более 256к. В описываемой модели речь идёт о наборе экспертных моделей с LLM Llama-2 в качестве своеобразного дирижёра этого оркестра. Архитектура с традиционными GPU потребовала бы для запуска этой же модели 24 сервера с 8 ускорителями каждый; впрочем, модель ускорителей не уточняется.

Как и прежде, сторонним клиентам чипы SN40L и отдельные вычислительные узлы на их основе поставляться не будут. Компания продолжит использовать модель Dataflow-as-a-Service (DaaS) — расширяемую платформу ИИ-сервисов по подписке, включающей в себя услуги по установке оборудования, вводу его в строй и управлению в рамках сервиса. Однако SN40L появится в рамках этой услуги позднее, а дебютирует он в составе облачной службы SambaNova Suite.

Постоянный URL: http://servernews.ru/1093339
15.09.2023 [20:52], Алексей Степин

Groq назвала свои ИИ-чипы TSP четырёхлетней давности идеальными для LLM-инференса

Тензорный процессор TSP, разработанный стартапом Groq, был анонсирован ещё осенью 2019 года и его уже нельзя назвать новым. Тем не менее, как сообщает Groq, TSP всё ещё является достаточно мощным решением для инференса больших языковых моделей (LLM).

Теперь Groq позиционирует своё детище как LPU (Language Processing Unit) и продвигает его в качестве идеальной платформы для запуска больших языковых моделей (LLM). Согласно имеющимся данным, в этом качестве четырёхлетний процессор проявляет себя весьма неплохо. Groq открыто хвастается своим преимуществом над GPU, но в последних раундах MLPerf участвовать не желает.

 Источник изображений здесь и далее: Groq

Источник изображений здесь и далее: Groq

В своё время Groq разработала не только сам тензорный процессор, но и дизайн ускорителя на его основе, а также продумала вопрос взаимодействия нескольких TSP в составе вычислительного узла с дальнейшим масштабированием до уровня мини-кластера. Именно для такого кластера и опубликованы свежие данные о производительности Groq в сфере LLM.

Система разработки, содержащая в своём составе 640 процессоров Groq TSP, была успешно использована для запуска модели Meta Llama-2 с 70 млрд параметров. Как показали результаты тестов, модель на данной платформе работает с производительностью 240 токенов в секунду на пользователя. Для адаптации и развёртывания Llama-2, по словам создателей Groq, потребовалось всего несколько дней.

В настоящее время усилия Groq будут сконцентрированы на адаптации имеющейся платформы в сфере LLM-инференса, поскольку данный сектор рынка растёт быстрее, нежели сектор обучения ИИ-моделей. Для LLM-инференса важнее умение эффективно масштабировать потоки небольших блоков (8–16 Кбайт) на большое количество чипов.

В этом Groq TSP превосходит NVIDIA A100: если в сравнении двух серверов выиграет решение NVIDIA, то уже при 40 серверах показатели латентности у Groq TSP будут намного лучше. В распоряжении Groq имеется пара 10-стоечных кластеров с 640 процессорами, один из которых используется для разработки, а второй — в качестве облачной платформы для клиентов Groq в области финансовых услуг. Работает система Groq и в Аргоннской национальной лаборатории (ALCF), где она используется для исследований в области термоядерной энергетики.

В настоящее время Groq TSP производятся на мощностях GlobalFoundries, а упаковка чипов происходит в Канаде, но компания работает над вторым поколением своих процессоров, которое будет производиться уже на заводе Samsung в Техасе.

Параллельно Groq работает над созданием 8-чипового ускорителя на базе TSP первого поколения. Это делается для уплотнения вычислений, а также для более полного использования проприетарного интерконнекта и обхода ограничений, накладываемых шиной PCIe 4.0. Также ведётся дальнейшая оптимизация ПО для кремния первого поколения.

Простота и скорость разработки ПО для платформы Groq TSP объясняется историей создания этого процессора — начала Groq с создания компилятора и лишь затем принялась за проектирование кремния с учётом особенностей этого компилятора. Перекладывание на плечи компилятора всех задач оркестрации вычислений позволило существенно упростить дизайн TSP, а также сделать предсказуемыми показатели производительности и латентности ещё на этапе сборки ПО.

При этом архитектура Groq TSP вообще не предусматривает использования «ядер» (kernels), то есть не требует блоков низкоуровневого кода, предназначенного для общения непосредственно с аппаратной частью. В случае с TSP любая задача разбивается на набор небольших инструкций, реализованных в кремнии и выполняемых непосредственно чипом.

 Компилятор Groq позволяет визуализировать и предсказывать энергопотребление с точностью до наносекунд

Компилятор Groq позволяет визуализировать и предсказывать энергопотребление с точностью до наносекунд. Источник: Groq

Предсказуемость Groq TSP распространяется и на энергопотребление: оно полностью профилируется ещё на этапе компиляции, так что пики и провалы можно спрогнозировать с точностью вплоть до наносекунд. Это позволяет добиться от платформы более надёжного функционирования, избежав так называемой «тихой» порчи данных — сбоев, происходящих в результате резких всплесков энергетических и тепловых параметров кремния.

 Энергопотребление Groq TSP поддаётся тонкой настройке на уровне программного обеспечения. Источник: Groq

Энергопотребление Groq TSP поддаётся тонкой настройке на уровне программного обеспечения. Источник: Groq

Что касается будущего LLM-инференса, то Groq считает, что этой отрасли есть, куда расти. В настоящее время LLM дают ответ на запрос сразу, и затем пользователи могут уточнить его в последующих итерациях, но в будущем они начнут «рефлексировать» — то есть, «продумывать» несколько вариантов одновременно, используя совокупный результат для более точного «вывода» и ответа. Разумеется, такой механизм потребует больших вычислительных мощностей, и здесь масштабируемая и предсказуемая архитектура Groq TSP может прийтись как нельзя более к месту.

Постоянный URL: http://servernews.ru/1093119
11.09.2023 [19:00], Сергей Карасёв

Много памяти, быстрая шина и правильное питание: гибридный суперчип GH200 Grace Hopper обогнал H100 в ИИ-бенчмарке MLPerf Inference

Компания NVIDIA сообщила о том, что суперчип NVIDIA GH200 Grace Hopper и ускоритель H100 лидируют во всех тестах производительности ЦОД в бенчмарке MLPerf Inference v3.1 для генеративного ИИ, который включает инференс-задачи в области компьютерного зрения, распознавания речи, обработки медицинских изображений, а также работу с большими языковыми моделями (LLM).

Ранее NVIDIA уже объявляла о рекордах H100 в новом бенчмарке MLPerf. Теперь говорится, что суперчип GH200 Grace Hopper впервые прошёл все тесты MLPerf. Вместе с тем системы, оснащенные восемью ускорителями H100, обеспечили самую высокую пропускную способность в каждом тесте MLPerf Inference. Решения NVIDIA прошли обновленное тестирование в области рекомендательных систем (DLRM-DCNv2), а также выполнили первый эталонный тест GPT-J — LLM с 6 млрд параметров.

Примечательно, что GH200 оказался до 17 % быстрее H100, хотя чип самого ускорителя в обоих продуктах один и тот же. NVIDIA объясняет это несколько факторами. Во-первых, у GH200 больше набортной памяти — 96 Гбайт против 80 Гбайт. Во-вторых, ПСП составляет 4 Тбайт/с, а сам чип является гибридным, так что для передачи данных между LPDDR5x и HBM3 не используется PCIe. В-третьих, GH200 при низкой нагрузке на CPU умеет отдавать часть энергии ускорителю, оставаясь в заданных рамках энергопотребления. Правда, в тестах GH200 работал на полную мощность, т.е. с TDP на уровне 1 кВт (UPD: NVIDIA уточнила, что реально потребление GH200 под полной нагрузкой составляет 750–800 Вт).

 Источник изображений: NVIDIA

Источник изображений: NVIDIA

Отдельно внимание уделено оптимизации ПО — на днях NVIDIA анонсировала открый программный инструмент TensorRT-LLM, предназначенный для ускорения исполнения LLM на продуках NVIDIA. Этот софт даёт возможность вдвое увеличить производительность ускорителя H100 в тесте GPT-J 6B (входит в состав MLPerf Inference v3.1). NVIDIA отмечает, что улучшение ПО позволяет клиентам с течением времени повышать производительность ИИ-систем без дополнительных затрат.

Также отмечается, что модули NVIDIA Jetson Orin благодаря новому ПО показали прирост производительности до 84 % на задачах обнаружения объектов по сравнению с предыдущим раундом тестирования MLPerf. Ускорение произошло благодаря задействованию Programmable Vision Accelerator (PVA), отдельного движка для обработки изображений и алгоритмов компьютерного зрения работающего независимо от CPU и GPU.

Сообщается также, что ускоритель NVIDIA L4 в последних тестах MLPerf выполнил весь спектр рабочих нагрузок, показав отличную производительность. Так, в составе адаптера с энергопотреблением 72 Вт этот ускоритель демонстрирует в шесть раз более высокое быстродействие, нежели CPU, у которых показатель TDP почти в пять раз больше. Кроме того, NVIDIA применила новую технологию сжатия модели, что позволило продемонстрировать повышение производительности в 4,4 раза при использовании BERT LLM на ускорителе L4. Ожидается, что этот метод найдёт применение во всех рабочих нагрузках ИИ.

В число партнёров при проведении тестирования MLPerf вошли поставщики облачных услуг Microsoft Azure и Oracle Cloud Infrastructure, а также ASUS, Connect Tech, Dell Technologies, Fujitsu, Gigabyte, Hewlett Packard Enterprise, Lenovo, QCT и Supermicro. В целом, MLPerf поддерживается более чем 70 компаниями и организациями, включая Alibaba, Arm, Cisco, Google, Гарвардский университет, Intel, Meta, Microsoft и Университет Торонто.

Постоянный URL: http://servernews.ru/1092799
09.09.2023 [14:38], Сергей Карасёв

Сила оптимизации ПО: NVIDIA вдвое ускорила исполнение языковых моделей на H100 с помощью TensorRT-LLM

Компания NVIDIA анонсировала программное обеспечение TensorRT-LLM с открытым исходным кодом, специально разработанное для ускорения исполнения больших языковых моделей (LLM). Платформа станет доступна в ближайшие недели.

Отмечается, что NVIDIA тесно сотрудничает с такими компаниями, как Meta, Anyscale, Cohere, Deci, Grammarly, Mistral AI, MosaicML (входит в состав Databricks), OctoML, Tabnine и Together AI, для ускорения и оптимизации LLM. Однако большой размер и уникальные характеристики LLM могут затруднить их эффективное внедрение. Библиотека TensorRT-LLM как раз и призвана решить проблему.

 Источник изображений: NVIDIA

Источник изображений: NVIDIA

ПО включает в себя компилятор глубокого обучения TensorRT, оптимизированные ядра (kernel), инструменты предварительной и постобработки, а также компоненты для повышения производительности на ускорителях NVIDIA. Платформа позволяет разработчикам экспериментировать с новыми LLM, не требуя глубоких знаний C++ или CUDA. Применяется открытый модульный API Python для определения, оптимизации и выполнения новых архитектур и внедрения усовершенствований по мере развития LLM.

По оценкам NVIDIA, применение TensorRT-LLM позволяет вдвое увеличить производительность ускорителя H100 в тесте GPT-J 6B (входит в состав MLPerf Inference v3.1). При использовании модели Llama2 прирост быстродействия по сравнению с А100 достигает 4,6x. TensorRT-LLM уже включает полностью оптимизированные версии многих популярных LLM, включая Meta Llama 2, OpenAI GPT-2 и GPT-3, Falcon, Mosaic MPT, BLOOM и др.

 Источник изображений: NVIDIA

Софт TensorRT-LLM использует тензорный параллелизм — тип параллелизма моделей, при котором отдельные весовые матрицы разделяются между устройствами. При этом TensorRT-LLM автоматически распределяет нагрузка между несколькими ускорителями, связаннными посредством NVLink, или множественными узлами, объединёнными NVIDIA Quantum 2 InfiniBand. Это позволяет легко масштабировать задачи инференса с одного ускорителя до целой стойки.

Для управления нагрузками TensorRT-LLM использует специальный метод планирования — пакетную обработку в реальном времени, которая позволяет асинхронно обслуживать множество мелких запросов совместно с единичными большими на одном и том же ускорителе. Эта функция доступна для всех актуальных ускорителей NVIDIA, причём именно она даёт двукратный прирост производительности инференса в случае H100.

Наконец, конкретно в случае H100 библиотека активно использует возможностиTransformer Engine, позволяющего динамически привести вычисления к FP8-формату, что ускоряет и обработку и снижает потребление памяти без ухудшения точности итогового результата. Одна эта функция позволяет добиться четырёхкратного прироста быстродействия H100 в сравнении с A100.

Постоянный URL: http://servernews.ru/1092785
09.09.2023 [12:10], Сергей Карасёв

Разработчик размышляющего ИИ Imbue привлёк $200 млн, в том числе от NVIDIA

Исследовательская ИИ-лаборатория Imbue, по сообщению ресурса SiliconAngle, осуществила крупный раунд финансирования Series B, в ходе которого на развитие привлечено $200 млн. В результате этот стартап получил рыночную оценку в $1 млрд. Деньги предоставили NVIDIA, некоммерческая организация Astera Institute, генеральный директор Cruise LLC Кайл Фогт (Kyle Vogt), соучредитель Notion Labs Саймон Ласт (Simon Last) и ряд других инвесторов.

Imbue специализируется на разработке больших языковых моделей (LLM), оптимизированных специально для рассуждений (а также формирования выводов и предсказаний). Они имеют более 100 млрд параметров. Для сравнения: Llama-2 допускает использование до 70 млрд параметров. Imbue обучает модели, применяя особые наборы данных, сформированные с прицелом именно на развитие навыков рассуждения. Тренировка осуществляется на базе кластера, включающего около 10 тыс. ускорителей NVIDIA H100.

 Изображение: Drew Dizzy Graham / Unsplash

Изображение: Drew Dizzy Graham / Unsplash

Imbue использует свои LLM в составе ряда приложений автоматизации, которые компания называет агентами. Большинство из них предназначены для автоматизации задач кодирования. Некоторые агенты используются инженерами Imbue в рамках повседневной работы. Стартап также выполняет исследования в области теоретических основ глубокого обучения. Одним из направлений работ является обучение с самоконтролем — с использованием немаркированных данных, которые не содержат вспомогательной контекстной информации.

Постоянный URL: http://servernews.ru/1092779
09.09.2023 [11:27], Сергей Карасёв

NVIDIA и Reliance создадут большую языковую модель для Индии и развернут ИИ-инфраструктуру мощностью до 2 ГВт

Компании NVIDIA и Reliance Industries сообщили о заключении соглашения о сотрудничестве, которое предусматривает разработку большой языковой модели для Индии. Она будет обучена на различных языках страны и адаптирована для приложений генеративного ИИ. Кроме того, будет построена отдельная ИИ-инфраструктура мощностью до 2000 МВт. Внедрением системы займутся специалисты компании Jio.

Партнёры намерены развернуть аппаратную ИИ-инфраструктуру, которая по производительности более чем на порядок превзойдёт самый мощный суперкомпьютер Индии. Для этого планируется задействовать суперчипы NVIDIA GH200 Grace Hopper, а также облачный сервис DGX Cloud.

Говорится, что платформа NVIDIA станет основой ИИ-вычислений для Reliance Jio Infocomm, телекоммуникационного подразделения Reliance Industries. В рамках партнёрства Reliance будет создавать приложения и услуги на основе ИИ для примерно 450 млн клиентов Jio, а также предоставит энергоэффективную ИИ-инфраструктуру учёным, разработчикам и стартапам по всей Индии.

 Источник изображения: Reliance Industries

Источник изображения: Reliance Industries

Применять ИИ планируется в самых разных отраслях — в сельском хозяйстве, медицине, климатологии и пр. В частности, приложения нового типа помогут предсказывать циклонические штормы, а также улучшат экспертную диагностику симптомов тех или иных заболеваний. Похожий проект реализуется и с Tata Group.

Постоянный URL: http://servernews.ru/1092782
08.09.2023 [17:48], Владимир Мироненко

C3 AI выпустила пакет C3 Generative AI Suite с предметно-ориентированными ИИ-инструментами, которые не галлюцинируют и дают корректные ответы

C3 AI, разработчик решений для корпоративного ИИ, объявил о выходе пакета C3 Generative AI Suite, включающего 28 новых предложений в области генеративного ИИ, ориентированных на конкретные потребности различных отраслей, бизнес-процессов и корпоративных систем. Согласно заявлению C3 AI, вышедшие в марте 2023 года первоначальные модели C3 Generative AI уже используются целым рядом крупных компаний и организаций, включая Агентство по противоракетной обороне США.

C3 Generative AI Suite построен на платформе C3 AI, обеспечивающей единое рабочее пространство для разработки, тестирования и развёртывания моделей ИИ. Компания отметила, что в C3 Generative AI решены проблемы безопасности и достоверности, характерные для больших языковых моделей (LLM), из-за которых не допускается их широкое коммерческое использование на предприятиях.

Предложения C3 Generative AI Suite могут быть развернуты на любой облачной платформе и поддерживают широкий спектр ИИ-моделей, включая Falcon 40B, Llama 2, Flan-T5, Azure GPT-3.5, AWS Bedrock Claude 2, Google PaLM 2, OpenAI GPT-3.5 и MPT-7B. Платформа работает со структурированными и неструктурированными данными, а также может проводить оркестрацию инференса и глубокого обучения.

 Источник изображения: C3 AI

Источник изображения: C3 AI

По словам технического директора по продуктам компании, в дополнение к более широким отраслевым и предназначенным для отдельных случаев моделям, C3 AI также предлагает тонко настроенные LLM для конкретных задач, таких как ответы на вопросы, чат, обобщение, поиск и оркестрация. C3 AI рекомендует использовать генеративный ИИ с расширенным поиском (retrieval-augmented generative AI). Фреймворк подходит для извлечения фактов из внешней базы знаний, гарантирующий доступ модели к самой свежей информации.

«Такой подход помогает нам отделить LLM от личных данных клиента и избежать многих недостатков использования ориентированного на потребителя генеративного ИИ в корпоративном контексте, таких как отсутствие прослеживаемости и галлюцинации», — сказал Кришнан. «Это позволяет генеративному ИИ C3 минимизировать галлюцинации и предоставлять полные ссылки на источники, чтобы пользователи могли проверять ответы и проводить дальнейшие исследования», — отметил он.

C3 AI заявила, что её решения дают детерминированные ответы, а не случайные, и что результаты можно сразу проследить до источника. LLM закрыта брандмауэром от исходных данных, чтобы минимизировать риск утечки данных и кибератак. Компании также могут применять средства обеспечения кибербезопасности, такие как шифрование и многофакторная аутентификация, указывать в настройках, что модели работают только с принадлежащими предприятию и лицензированными данными, и обмениваться LLM с другими компаниями.

Все продукты из набора C3 Generative AI Suite уже доступны для установки заказчиком. C3 AI поможет заказчику внедрить своё приложение в производство в течение 12 недель, стоимость услуги — $250 тыс. После этого клиент производит почасовую оплату за использование vCPU/vGPU со скидками за объём.

Постоянный URL: http://servernews.ru/1092752

Входит в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности»;

Система Orphus