Материалы по тегу: groq

15.09.2023 [20:52], Алексей Степин

Groq назвала свои ИИ-чипы TSP четырёхлетней давности идеальными для LLM-инференса

Тензорный процессор TSP, разработанный стартапом Groq, был анонсирован ещё осенью 2019 года и его уже нельзя назвать новым. Тем не менее, как сообщает Groq, TSP всё ещё является достаточно мощным решением для инференса больших языковых моделей (LLM).

Теперь Groq позиционирует своё детище как LPU (Language Processing Unit) и продвигает его в качестве идеальной платформы для запуска больших языковых моделей (LLM). Согласно имеющимся данным, в этом качестве четырёхлетний процессор проявляет себя весьма неплохо. Groq открыто хвастается своим преимуществом над GPU, но в последних раундах MLPerf участвовать не желает.

 Источник изображений здесь и далее: Groq

Источник изображений здесь и далее: Groq

В своё время Groq разработала не только сам тензорный процессор, но и дизайн ускорителя на его основе, а также продумала вопрос взаимодействия нескольких TSP в составе вычислительного узла с дальнейшим масштабированием до уровня мини-кластера. Именно для такого кластера и опубликованы свежие данные о производительности Groq в сфере LLM.

Система разработки, содержащая в своём составе 640 процессоров Groq TSP, была успешно использована для запуска модели Meta Llama-2 с 70 млрд параметров. Как показали результаты тестов, модель на данной платформе работает с производительностью 240 токенов в секунду на пользователя. Для адаптации и развёртывания Llama-2, по словам создателей Groq, потребовалось всего несколько дней.

В настоящее время усилия Groq будут сконцентрированы на адаптации имеющейся платформы в сфере LLM-инференса, поскольку данный сектор рынка растёт быстрее, нежели сектор обучения ИИ-моделей. Для LLM-инференса важнее умение эффективно масштабировать потоки небольших блоков (8–16 Кбайт) на большое количество чипов.

В этом Groq TSP превосходит NVIDIA A100: если в сравнении двух серверов выиграет решение NVIDIA, то уже при 40 серверах показатели латентности у Groq TSP будут намного лучше. В распоряжении Groq имеется пара 10-стоечных кластеров с 640 процессорами, один из которых используется для разработки, а второй — в качестве облачной платформы для клиентов Groq в области финансовых услуг. Работает система Groq и в Аргоннской национальной лаборатории (ALCF), где она используется для исследований в области термоядерной энергетики.

В настоящее время Groq TSP производятся на мощностях GlobalFoundries, а упаковка чипов происходит в Канаде, но компания работает над вторым поколением своих процессоров, которое будет производиться уже на заводе Samsung в Техасе.

Параллельно Groq работает над созданием 8-чипового ускорителя на базе TSP первого поколения. Это делается для уплотнения вычислений, а также для более полного использования проприетарного интерконнекта и обхода ограничений, накладываемых шиной PCIe 4.0. Также ведётся дальнейшая оптимизация ПО для кремния первого поколения.

Простота и скорость разработки ПО для платформы Groq TSP объясняется историей создания этого процессора — начала Groq с создания компилятора и лишь затем принялась за проектирование кремния с учётом особенностей этого компилятора. Перекладывание на плечи компилятора всех задач оркестрации вычислений позволило существенно упростить дизайн TSP, а также сделать предсказуемыми показатели производительности и латентности ещё на этапе сборки ПО.

При этом архитектура Groq TSP вообще не предусматривает использования «ядер» (kernels), то есть не требует блоков низкоуровневого кода, предназначенного для общения непосредственно с аппаратной частью. В случае с TSP любая задача разбивается на набор небольших инструкций, реализованных в кремнии и выполняемых непосредственно чипом.

 Компилятор Groq позволяет визуализировать и предсказывать энергопотребление с точностью до наносекунд

Компилятор Groq позволяет визуализировать и предсказывать энергопотребление с точностью до наносекунд. Источник: Groq

Предсказуемость Groq TSP распространяется и на энергопотребление: оно полностью профилируется ещё на этапе компиляции, так что пики и провалы можно спрогнозировать с точностью вплоть до наносекунд. Это позволяет добиться от платформы более надёжного функционирования, избежав так называемой «тихой» порчи данных — сбоев, происходящих в результате резких всплесков энергетических и тепловых параметров кремния.

 Энергопотребление Groq TSP поддаётся тонкой настройке на уровне программного обеспечения. Источник: Groq

Энергопотребление Groq TSP поддаётся тонкой настройке на уровне программного обеспечения. Источник: Groq

Что касается будущего LLM-инференса, то Groq считает, что этой отрасли есть, куда расти. В настоящее время LLM дают ответ на запрос сразу, и затем пользователи могут уточнить его в последующих итерациях, но в будущем они начнут «рефлексировать» — то есть, «продумывать» несколько вариантов одновременно, используя совокупный результат для более точного «вывода» и ответа. Разумеется, такой механизм потребует больших вычислительных мощностей, и здесь масштабируемая и предсказуемая архитектура Groq TSP может прийтись как нельзя более к месту.

Постоянный URL: http://servernews.ru/1093119
12.03.2023 [12:41], Сергей Карасёв

Разработчик ИИ-ускорителей Groq взял на вооружение языковую модель Meta✴ LLaMA

Стартап Groq, специализирующийся на разработке ИИ-ускорителей, сообщил об адаптации языковой модели Meta LLaMA для своих аппаратных решений. Изначально эта модель ориентирована на работу в системах, оснащённых ускорителями NVIDIA.

Meta анонсировала LLaMA в конце февраля 2023 года. Модель предназначена для создания чат-ботов вроде ChatGPT. Количество параметров в случае LLaMA может варьироваться от 7 до 65 млрд против 175 млрд у OpenAI GPT-3, которая является основой ChatGPT. При этом, как утверждается, по производительности LLaMA выигрывает у GPT-3.

 Источник изображения: Groq

Источник изображения: Groq

По заявлениям Groq, команде компании из менее чем десяти человек понадобилось около недели для переноса LLaMA на собственную аппаратную платформу. Модель была запущена на сервере GroqNode, который оборудован восемью одноядерными процессорами GroqChip.

«Мы быстро перенесли LLaMA на GroqChip, несмотря на то, что эта модель изначально не предназначена для нашего оборудования. Для подготовки кода для компилятора Groq требуется минимальная работа. Связано это с тем, что компилятор Groq обнаруживает параллелизм программы и оптимальные макеты данных автоматически — вручную написанный код не требуется», — отмечает Groq.

Таким образом, теперь исследователи, а также специалисты по обработке и анализу данных смогут использовать передовую языковую ИИ-модель LLaMA на оборудовании Groq. Ожидается, что это повысит скорость разработки продуктов и их вывода на коммерческий рынок.

Постоянный URL: http://servernews.ru/1083274
16.04.2021 [00:11], Владимир Мироненко

Groq, разработчик ИИ-ускорителей TSP, привлёк ещё $300 млн инвестиций

Стартап Groq Inc., специализирующийся в области ускорителей вычислений для искусственного интеллекта (AI), машинного обучения (ML) и высокопроизводительных вычислений, объявил о завершении раунда финансирования серии C, который возглавили Tiger Global Management и D1 Capital при участии The Spruce House Partnership и Addition,, а также GCM Grosvenor, Xⁿ, Firebolt Ventures, General Global Capital и Tru Arrow Partners. В результате стартапу удалось привлечь $300 млн, а общая сумма инвестиций в него составила $367 млн.

Новые инвестиции позволят Groq наращивать усилия во всех направления, также расширив возможности компании по найму высококвалифицированных специалистов и ускорению разработки продуктов следующего поколения. Компания говорит, что её Tensor Streaming Processor (TSP) является самым быстрым одноядерным процессором в отрасли. Его легче программировать и он обеспечивает в 10 раз меньшую задержку по сравнению с чипами конкурентов. Новые инвестиции помогут компании достигнуть безубыточности.

«ИИ ограничен существующими системами, многие из которых отслеживаются или постепенно улучшаются новыми участниками. Независимо от того, сколько денег вы вкладываете в решение этой проблемы, устаревшие архитектуры, такие как GPU и CPU, с трудом справляются с растущими требованиями искусственного интеллекта и машинного обучения, — заявил Джонатан Росс (Jonathan Ross), основатель и генеральный директор Groq. — Наша миссия более прорывная: Groq стремится раскрыть потенциал ИИ, сводя стоимость вычислений к нулю».

Постоянный URL: http://servernews.ru/1037476
02.10.2020 [16:47], Алексей Степин

Groq начала поставки самой быстрой в мире ИИ-платформы TSP

Системы машинного интеллекта и особенно инференс-системы, чьей задачей является принятие решений в нейросетевых сценариях обработки, требуют особого подхода к реализации аппаратной части для достижения действительно высокой производительности при приемлемом уровне энергопотребления. Стартап Groq, который ещё осенью 2019 года анонсировал свой тензорный процессор Groq TSP, начал поставки систем на базе этого чипа.

В своё время Groq наделали немало шума, заявив о создании самого быстрого ИИ-процессора с производительностью 1 Петаопс (PetaOPS, 1015 операций в секунду, обычно целочисленных), оставляющего позади даже таких монстров, как NVIDIA Tesla V100. Добиться этого удалось благодаря уникальной многоядерной архитектуре, из которой Groq исключила всё лишнее для тех задач, на которые ориентирован свой процессор.

Подход оказался плодотворным: прототип ускорителя на базе Groq TSP, работая на частоте 1 ГГц, развил 205 Тфлопс в режиме FP16 и 820 Топс в режиме INT8. Для сравнения, V100 при аналогичном потреблении 300 Ватт показала лишь 125 Тфлопс и 250 Топс соответственно. В тесте ResNet-50 новый чип смог достичь производительности на уровне 21700 распознаваний в секунду, уступив лишь проприетарному ASIC Alibaba HanGuang, недоступному для приобретения.

Архитектура Groq TSP (Изображение: The Next Platform)

Об архитектуре Groq до недавних пор было известно немного, однако компания-разработчик, похоже, успешно набирает обороты: начались коммерческие поставки ускорителей на базе Groq TSP и даже законченных вычислительных узлов, позволяющих организовывать целые кластеры с высочайшим уровнем производительности. На днях компания рассказала The Next Platform об особенностях своих решений.

Шасси Groq (Изображение: The Next Platform)

Главной особенностью своего TSP разработчики по-прежнему называют наличие блока SRAM объёмом 220 Мбайт. Такая память обеспечивает пропускную способность на уровне 80 Тбайт/с, что является настоящим подарком для инференс-сценариев. Кроме того, теперь известно, что каждый TSP содержит два блока матричной математики (320×320 Fused Dot Product, INT8 или FP16, 32-битный аккумулятор) и один блок векторных вычислений (тензорные линейные и нелинейные вычисления в режимах INT8/16/32 и FP16/32, 5120 вычислительных элементов).

Структура узла Groq (Изображение: The Next Platform)

Как обычно, по краям кристалла расположены различные блоки ввода-вывода, в частности, контроллер PCI Express 4.0, а также два I/O-модуля для межпроцессорной связи. Последние обеспечивают Groq TSP 16 линиями с общей пропускной способностью 512 Гбайт/с, так что узким местом в многопроцессорных кластерах на базе TSP они стать не должны. Кроме того, на кристалле присутствует и небольшой блок управления, могущий оперировать очередями из 144 инструкций, так что полностью отказываться от управляющих структур в TSP разработчики всё-таки не стали.

Структура вычислительной системы на базе Groq TSP довольно проста. Она состоит из трёх функциональных блоков, два из которых занимаются собственно вычислениями и управляющего блока с классическими процессорами. Каждый из вычислительных модулей содержит по четыре ускорителя Groq TSP, соединённых по схеме «каждый с каждым» и имеет 16 свободных портов для дальнейшего масштабирования и добавления новых модулей TSP. Ускорители могут использоваться независимо, каждый для своей задачи, либо работать вместе над одной задачей, развивая большую производительность.

 Стартовавший, как отдельный ускоритель, Groq TSP вырос в масштабируемый кластер

Стартовавший, как отдельный ускоритель, Groq TSP вырос в масштабируемый кластер (Изображение: The Next Platform)

Управляющая часть с точки зрения архитектуры выглядит несложно: это обычная двухпроцессорная система на базе AMD EPYC 7002, и каждый из четырёх ускорителей подключен к своему процессору посредством PCI Express 4.0 x16. В этой части используются 32-ядерные процессоры AMD и установлен общий пул оперативной памяти объёмом 1 Тбайт. Вся система занимает модифицированный стоечный корпус высотой 5U и потребляет в пределе 3,3 кВт. Производительность такого комплекса заявлена на уровне 6 Петаопс в режиме INT8 и 1,5 Пфлопс в режиме FP16.

 Сервер Groq Node

Сервер Groq Node

И это далеко не предел, недаром Groq называет своё решение Node Scalable Compute System. Новинка действительно масштабируется, поскольку каждый из ускорителей имеет по четыре свободных порта интерконнекта. Стойка, разработанная и представленная Groq, может включать в себя 17 вычислительных модулей с вышеописанной архитектурой. 18-ое место занято модулем, содержащим в себе сетевые интерфейсы и дисковую подсистему.

 Платформа Groq TSP способна выполнять сложнейшие вычисления в реальном времени

Без программного обеспечения любая система мертва, тем более, с учётом архитектурных особенностей Groq TSP, практически целиком полагающегося на компилятор. Компания сопровождает новые системы комплектом ПО Groqware SDK. Он включает в себя все необходимые средства разработки и набор API, что позволит разработчикам в кратчайшие сроки начать создавать ПО, в полной мере раскрывающее немалый потенциал новой платформы.

Из-за того, что Groq лучше всего раскрывается на задачах с небольшой очередью (в пределе при batch size 1), эта инференс-платформа обеспечивает великолепную латентность, что делает её привлекательной для финансовых структур. Интересна платформа и учёным, но те более заинтересованы в возможностях TSP в области классических вычислений, в частности, линейной алгебры.

Из-за этого сложилась любопытная ситуация: стартовал Groq TSP как инференс-ускоритель, но первые клиенты компании потребовали большей универсальности, так что разработчикам пришлось создать сначала Groq Node, описанный выше, а потом и целый масштабируемый кластер на базе таких узлов. Таким образом, платформа, стартовавшая как узкоспециализированное решение, эволюционировала в более универсальный вычислительный комплекс, гибкий и масштабируемый.

Постоянный URL: http://servernews.ru/1022060
09.01.2020 [17:34], Алексей Степин

Тензорный ИИ-процессор Groq выбился в лидеры ResNet-50 v2

Бум машинного обучения продолжается. Мы уже рассказывали читателям о тензорном процессоре Groq с производительностью порядка 1 Петаопс.

По мнению разработчиков, их детище имеет самую эффективную архитектуру на сегодняшнем рынке. Для таких заявлений есть основания — Groq удалось занять первое место при исполнении ResNet-50 v2.

ResNet-50 — сложная свёрточная нейронная сеть, обученная при помощи свыше миллиона изображений, взятых из базы данных ImageNet. Глубина сети составляет 50 слоёв, она способна классифицировать объекты по 1000 различных категорий, точность распознавания составляет около 93%.

Ускоритель на базе Groq смог развить пиковую производительность на уровне 21700 распознаваний в секунду, что превосходит показатели любых других коммерческих нейроархитектур. Он оказался более чем в два раза быстрее, нежели решения на базе графических процессоров.

 Groq уступил лишь специализированному закрытому ASIC Alibaba HanGuang

Groq уступил лишь специализированному закрытому ASIC Alibaba HanGuang, который нельзя купить

Следует отметить, что производительность Groq была высокой и при малом размере серии изображений. Даже при распознавании единственной картинки за раз чип демонстрировал практически пиковую скорость, а задержки не превышали 0,05 миллисекунды.

Если на длинных сериях он превосходил GPU примерно в 2,5 раза, то на коротких отрыв увеличился до 17 раз, что является очень впечатляющим показателем. Особенно с учётом скромной базоврй тактовой частоты Groq, которая составляет всего 900 МГц.

 Groq состоит практически только из вычислительных ядер

Groq состоит практически только из вычислительных ядер

Напоминаем, что архитектура Groq довольно уникальна: разработчики этого процессора решили отказаться от многих традиционных блоков, таких как кеши, планировщики заданий и т.п., что позволило пустить весь сэкономленный транзисторный лимит на вычислительные ядра.

Задачи по предварительной обработке, такие как параллелизация, были возложены на компилятор. В итоге то, что в своё время погубило IA64, стало решающим фактором победы для Groq. Массовые поставки новинки намечены её создателями на середину текущего года.

Постоянный URL: http://servernews.ru/1001102

✴ Внесена в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности».

Система Orphus