Материалы по тегу: graphcore

05.03.2022 [01:28], Алексей Степин

Graphcore анонсировала ИИ-ускорители BOW IPU с 3D-упаковкой кристаллов WoW

Разработка специализированных ускорителей для задач и алгоритмов машинного обучения в последние несколько лет чрезвычайно популярна. Ещё в 2020 году британская компания Graphcore объявила о создании нового класса ускорителей, которые она назвала IPU: Intelligence Processing Unit. Их архитектура оказалась очень любопытной.

Основной единицей IPU является не ядро, а «тайл» — область кристалла, содержащая как вычислительную логику, так и некоторое количество быстрой памяти с пропускной способностью в районе 45 Тбайт/с (7,8 Тбайт/с между тайлами). В первой итерации чип Graphcore получил 1216 таких тайлов c 300 Мбайт памяти, а сейчас компания анонсировала следующее поколение своих IPU.

 Изображения: Graphcore

Изображения: Graphcore

Новый чип, получивший название BOW, можно условно отнести к «поколению 2,5». Он использует кристалл второго поколения Colossus Mk2: 892 Мбайт SRAM в 1472 тайлах, способных выполнять одновременно 8832 потока. Этот кристалл по-прежнему производится с использованием 7-нм техпроцесса TSMC, но теперь Graphcore перешла на использование более продвинутой упаковки типа 3D Wafer-on-Wafer (3D WoW).

Новый IPU стал первым в индустрии чипом высокой сложности, использующем новый тип упаковки, причём технология 3D WoW была совместно разработана Graphcore и TSMC с целью оптимизации подсистем питания. Процессоры такой сложности отличаются крайней прожорливостью, а «накормить» их при этом не просто. В итоге обычная упаковка не позволяет добиться от чипа уровня Colossus Mk2 максимальной производительности — слишком велики потери и паразитный нагрев.

Реализована 3D WoW во многом аналогично технологии, применённой AMD в серверных чипах Milan-X. Упрощённо говоря, медные структуры-стержни пронизывают кристалл и позволяют соединить его напрямую с другим кристаллом, причём «склеиваются» они друг с другом благодаря. В случае с BOW роль нижнего кристалла отводится распределителю питания с системой стабилизирующих конденсаторов, который питает верхний кристалл Colossus Mk2. За счёт перехода с плоских структур на объёмные можно как увеличить подводимый ток, так и сделать путь его протекания более короткими.

В итоге компании удалось дополнительно поднять частоту и производительность BOW, не прибегая к переделке основного процессора или переводу его на более тонкий и дорогой техпроцесс. Если у оригинального IPU второго поколения максимальная производительность составляла 250 Тфлопс, то сейчас речь идёт уже о 350 Тфлопс — для системы BOW-2000 с четырьмя чипами заявлено 1,4 Пфлопс совокупной производительности. И это хороший выигрыш, полученный без критических затрат.

С внешним миром IPU общается по-прежнему посредством 10 каналов IPU-Link (320 Гбайт/с). Внутренней памяти в такой системе уже почти 4 Гбайт, причём работает она на скорости 260 Тбайт/с — критически важный параметр для некоторых задач машинного обучения, которые требуют всё большие по объёму наборов данных. Ёмкость набортной памяти далека от предлагаемой NVIDIA и AMD, но выигрыш в скорости даёт детищу Graphcore серьёзное преимущество.

Узлы BOW-2000 совместимы с узлами предыдущей версии. Четыре таких узла (BOW POD16) с управляющим сервером — всё в 5U-шасси — имеют производительность до 5,6 Пфлопс. А полная стойка с 16 узлами BOW-2000 (BOW POD64) даёт уже 22,4 Пфлопс. По словам компании, производительность новой версии возросла на 30–40 %, а прирост энергоэффективности составляет от 10 % до 16 %.

Graphcore говорит о десятикратном превосходстве BOW POD16 над NVIDIA DGX-A100 в полной стоимости владения (TCO). Cтоит BOW POD16 вдвое дешевле DGX-A100. К сожалению, говорить о завоевании рынка машинного обучения Graphcore рано: клиентов у компании уже довольно много, но среди них нет таких гигантов, как Google или Baidu. В долгосрочной перспективе ситуация для Graphcore далеко не безоблачна, но компания уже готовит третье поколение IPU на базе 3-нм техпроцесса.

Постоянный URL: http://servernews.ru/1061392
23.07.2021 [14:04], Сергей Карасёв

Atos задействует ИИ-ускорители Graphcore в своей платформе ThinkAI

Компании Atos и Graphcore объявили о заключении партнёрского соглашения, целью которого является вывод на рынок решений для высокопроизводительных ИИ-вычислений. Речь идёт об интеграции платформы Atos ThinkAI с передовыми вычислительными системами Graphcore IPU-POD. Системы IPU-POD представлены в нескольких версиях, предназначенных для решения различных ИИ-задач. Производительность достигает 16 Пфлопс.

Напомним, что ThinkAI — это безопасное, комплексное, масштабируемое решение, которое позволяет организациям проектировать, разрабатывать и предоставлять высокопроизводительные приложения искусственного интеллекта. Ожидается, что сотрудничество будет выгодно обеим сторонам. Так, Graphcore сможет предложить свои продукты клиентам компании Atos, которая занимает одну из лидирующих позиций на европейском рынке высокопроизводительных вычислений.

 Graphcore

Graphcore

Вместе с тем Atos сможет привлечь дополнительных заказчиков из таких отраслей, как финансы, телекоммуникации, здравоохранение и пр. Кроме того, планируется работа с национальными лабораториями и университетами. Одним из первых клиентов Atos и Graphcore в рамках партнёрства стал корейский технологический гигант NHN.

Постоянный URL: http://servernews.ru/1045006
29.12.2020 [14:58], Владимир Мироненко

Производитель ИИ-чипов Graphcore получил $222 млн инвестиций и теперь оценивается почти в $3 млрд

Производитель ИИ-чипов Graphcore провёл раунд финансирования серии E, в ходе которого собрал $222 млн инвестиций. Генеральный директор и соучредитель Graphcore Найджел Тун (Nigel Toon) сообщил ресурсу TechCrunch, что с учётом этого раунда компания получила в общей сложности $440 млн и оценивается в $2,77 млрд.

По его словам, полученные средства компания направит на решение нескольких ключевых задач. Во-первых, благодаря финансированию Graphcore продолжит работу над своей технологией, основанной на архитектуре IPU (Intelligence Processing Unit, интеллектуальный сопроцессор), которая конкурирует с чипами NVIDIA и Intel, тоже оптимизированными для приложений ИИ. Во-вторых, деньги также будут использованы для поддержки финансов Graphcore перед возможным первичным публичным размещением (IPO).

 Graphcore

Graphcore

«У нас сильные позиции, чтобы удвоить ставки и быстро расти, а также воспользоваться открывающимися перед нами возможностями», — заявил Найджел Тун. Он отметил, что было бы «преждевременным» считать эту серию E как раунд «перед IPO» и добавил: «У нас достаточно денег, и это даёт нам возможность сделать следующий шаг», всё же намекая на такой вариант. По слухам, в последние недели компания рассматривает возможность проведения IPO не на родине (в Великобритании), а на бирже Nasdaq в США.

В июле Graphcore выпустила второе поколение своего флагманского чипа GC200 и основанную на нём систему IPU Machine M2000, которую компания описывает как первый ИИ-компьютер с одним петафлопсом вычислительной мощности «размером с коробку из-под пиццы».

Постоянный URL: http://servernews.ru/1029010
27.08.2020 [19:13], Алексей Степин

TSMC и Graphcore создают ИИ-платформу на базе технологии 3 нм

Несмотря на все проблемы в полупроводниковой индустрии, технологии продолжают развиваться. Технологические нормы 7 нм уже давно не являются чудом, вовсю осваиваются и более тонкие нормы, например, 5 нм. А ведущий контрактный производитель, TSMC, штурмует следующую вершину — 3-нм техпроцесс. Одним из первых продуктов на базе этой технологии станет ИИ-платформа Graphcore с четырьмя IPU нового поколения.

Британская компания Graphcore разрабатывает специфические ускорители уже не первый год. В прошлом году она представила процессор IPU (Intelligence Processing Unit), интересный тем, что состоит не из ядер, а из так называемых тайлов, каждый из которых содержит вычислительное ядро и некоторое количество интегрированной памяти. В совокупности 1216 таких тайлов дают 300 Мбайт сверхбыстрой памяти с ПСП до 45 Тбайт/с, а между собой процессоры IPU общаются посредством IPU-Link на скорости 320 Гбайт/с.

 Colossально: ИИ-сервер Graphcore с четырьмя IPU на борту

Colossально: ИИ-сервер Graphcore с четырьмя IPU на борту

Компания позаботилась о программном сопровождении своего детища, снабдив его стеком Poplar, в котором предусмотрена интеграция с TensorFlow и Open Neural Network Exchange. Разработкой Graphcore заинтересовалась Microsoft, применившая IPU в сервисах Azure, причём совместное тестирование показало самые положительные результаты. Следующее поколение IPU, Colossus MK2, представленное летом этого года, оказалось сложнее NVIDIA A100 и получило уже 900 Мбайт сверхбыстрой памяти.

Машинное обучение, в основе которого лежит тренировка и использование нейронных сетей, само по себе требует процессоров с весьма высокой степенью параллелизма, а она, в свою очередь, автоматически означает огромное количество транзисторов — 59,4 млрд в случае Colossus MK2. Поэтому освоение новых, более тонких и экономичных техпроцессов является для этого класса микрочипов ключевой задачей, и Graphcore это понимает, заявляя о своём сотрудничестве с TSMC.

 Тайловая архитектура Graphcore

Тайловая архитектура Graphcore Colossus MK2

В настоящее время TSMC готовит к началу «рискового» производства новый техпроцесс с нормами 3 нм, причём скорость внедрения такова, что первые продукты на его основе должны увидеть свет уже в 2021 году, а массовое производство будет развёрнуто во второй половине 2022 года. И одним из первых продуктов на базе 3-нм технологических норм станет новый вариант IPU за авторством Graphcore, известный сейчас как N3. Судя по всему, использовать 5 нм британский разработчик не собирается.

 В планах компании явно указано использование 3-нм техпроцесса

В планах компании явно указано использование 3-нм техпроцесса

В настоящее время чипы Colossus MK2 производятся с использованием техпроцесса 7 нм (TSMC N7). Они включают в себя 1472 тайла и способны одновременно выполнять 8832 потока. В режиме тренировки нейросетей с использованием вычислений FP16 это даёт 250 Тфлопс, но существует удобное решение мощностью 1 Пфлопс — это специальный 1U-сервер Graphcore, в нём четыре IPU дополнены 450 Гбайт внешней памяти. Доступны также платы расширения PCI Express c чипами IPU на борту.

Дела у Graphcore идут неплохо, её технология оказалась востребованной и среди инвесторов числятся Microsoft, BMW, DeepMind и ряд других компаний, разрабатывающих и внедряющих комплексы машинного обучения. Разработка 3-нм чипа ещё более упрочнит позиции этого разработчика. Более тонкие техпроцессы существенно увеличивают стоимость разработки, но финансовые резервы у Graphcore пока есть; при этом не и исключён вариант более тесного сотрудничества, при котором часть стоимости разработки возьмёт на себя TSMC.

Постоянный URL: http://servernews.ru/1019252
17.11.2019 [17:39], Алексей Степин

Microsoft Azure начинает использование ИИ-ускорителей Graphcore

Компания Graphcore объявила о дальнейшем расширении сотрудничества с Microsoft. Речь идёт о внедрении разработанного этими компаниями интеллектуального сопроцессора (IPU, Intelligence Processing Unit) и использовании его в серверах облачного сервиса Microsoft Azure.

Проведённое партнёрами совместное тестирование образца сервера, укомплектованного восемью акселераторами на базе пары чипов Graphcore C2, показало впечатляющие результаты.

При использовании языковой модели BERT для предварительного обучения нейросетей в течение 56 часов производительность машины с ускорителями Graphcore оказалась в три раза выше в сравнении с обычной системой. Также наблюдалось улучшение латентности. Ускорение обработки естественных языков очень важно для Microsoft, что неудивительно, учитывая растущую популярность облачных платформ и разного рода голосовых и языковых сервисов.

Graphcore позиционирует свою разработку в качестве конкурента GPU, заявляя о 100-кратном превосходстве чипа C2 над классическими графическими процессорами в ряде специфических задач. Помимо самого процессора, компания разработала и специальную шину IPU-Link, позволяющую нескольким платам-ускорителям общаться друг с другом без задержек.

Уже существует договорённость c Dell Technologies и система DSS8440, оснащённая ускорителями Graphcore будет демонстрироваться на конференции SC19.

Архитектура у Graphcore C2 достаточно любопытная. Он содержит 1216 так называемых тайлов, каждый из которых, в свою очередь, состоит из вычислительного ядра и небольшого количества памяти (In-Processor Memory). Этой памяти немного, всего 300 Мбайт на весь чип, но совокупная скорость работы с ней составляет 45 Тбайт/с.

Всего процессор может выполнять 7296 потоков кода параллельно. Скорость работы межпроцессорной шины IPU-Link ‒ 320 Гбайт/с.

Компания разработала для своего детища и соответствующий программный стек ‒ Poplar, который легко интегрируется с такими популярными средствами разработки, как TensorFlow или Open Neural Network Exchange (ONNX). В ближайшее время планируется также внедрение начальной поддержки PyTorch, а полная поддержка ожидается уже в начале 2020 года.

Постоянный URL: http://servernews.ru/997859
Система Orphus