Материалы по тегу: tpu
07.04.2023 [20:36], Сергей Карасёв
Google заявила, что её ИИ-кластеры на базе TPU v4 и оптических коммутаторов эффективнее кластеров на базе NVIDIA A100 и InfiniBandКомпания Google обнародовала новую информацию о своей облачной суперкомпьютерной платформе Cloud TPU v4, предназначенной для решения задач ИИ и машинного обучения с высокой эффективностью. Система может использоваться в том числе для работы с крупномасштабными языковыми моделями (LLM). Один кластер Cloud TPU Pod содержит 4096 чипов TPUv4, соединённых между собой через оптические коммутаторы (OCS). По словам Google, решение OCS быстрее, дешевле и потребляют меньше энергии по сравнению с InfiniBand. Google также утверждает, что в составе её платформы на OCS приходится менее 5 % от общей стоимости. Причём данная технология даёт возможность динамически менять топологию для улучшения масштабируемости, доступности, безопасности и производительности. Отмечается, что платформа Cloud TPU v4 в 1,2–1,7 раза производительнее и расходует в 1,3–1,9 раза меньше энергии, чем платформы на базе NVIDIA A100 в системах аналогичного размера. Правда, пока компания не сравнивала TPU v4 с более новыми ускорителями NVIDIA H100 из-за их ограниченной доступности и 4-нм архитектуры (по сравнению с 7-нм у TPU v4). Благодаря ключевым инновациям в области интерконнекта и специализированных ускорителей (DSA, Domain Specific Accelerator) платформа Google Cloud TPU v4 обеспечивает почти 10-кратный прирост в масштабировании производительности по сравнению с TPU v3. Это также позволяет повысить энергоэффективность примерно в 2–3 раза по сравнению с современными DSA ML и сократить углеродный след примерно в 20 раз по сравнению с обычными дата-центрами.
23.09.2022 [19:58], Алексей Степин
Google заявила, что использует процессоры SiFive Intelligence X280 на RISC-V вместе со своим TPUАрхитектура RISC-V продолжает понемногу набирать популярность и завоевывать внимание ведущих игроков на рынке информационных технологий. На мероприятии AI Hardware Summit в совместном выступлении ведущего архитектора SiFive и архитектора Google TPU было отмечено, что Google уже использует процессоры с ядрами Intelligence X280. Эти ядра — один из вариантов воплощения архитектуры RISC-V, из продвигаемых SiFive. Анонс Intelligence X280 состоялся ещё в апреле 2021 года, когда SiFive выпустила апдейт 21G1, основной упор в котором был сделан на максимизацию характеристик уже существующих ядер RISC-V в области операций с плавающей запятой. ![]() Процессорное ядро Intelligence X280 и его возможности. Источник: SiFive Как следует из названия, данный вариант процессора оптимизирован под задачи машинного интеллекта: ядра RISC-V в нём дополнены векторными конвейерами RISC-V Vector (RVV) с производительностью 4,5 Тфлопс bfloat16 и 9,2 Топс INT8 на ядро. Одной из самых интересных технологий в Intelligence X280 является интерфейс Vector Coprocessor Interface eXtension (VCIX). ![]() Устройство VCIX. Источник: SiFive Он позволяет подключать внешние ускорители векторных операций напрямую к регистровому файлу X280, минуя основную шину и кеши. Такой подход минимизирует накладные расходы и не требует использования специальных средств при программировании системы, поскольку связка из X280 и подключённого по VCIX ускорителя работает полностью прозрачно в рамках стандартных средств разработки SiFive. ![]() Сильные стороны Google TPU. Источник: SiFive На саммите в Санта-Кларе разработчики SiFive и Google TPU рассказали, что процессоры Intelligence X280 используются в качестве хост-процессоров к ускорителям систолической векторной математики Google MXU; правда, о масштабах внедрения RISC-V в Google сведений приведено не было. ![]() Разделение труда Intelligence X280 и Google TPU. Источник: SiFive Ранее уже появлялась информация, что Google активно тестирует ASIC сторонних разработчиков в связке со своим TPU, в частности, чипы Broadcom, дабы разгрузить его от второстепенных задач и сделать упор на сильных сторонах — матричной математике и быстром интерконнекте. Похоже, SiFive Intelligence X280 решает задачу интеграции подобного рода задач более изящно: как отметил в выступлении Клифф Янг (Cliff Young), архитектор Google TPU, с помощью VCIX можно построить машину, позволяющую усидеть на двух стульях (build a machine that lets you have your cake and eat it too).
13.05.2022 [04:30], Владимир Мироненко
Google представила 9-Эфлопс ИИ-кластер на базе собственных чипов TPU v4Google представила на конференции I/O 2022 облачные решения на базе собственного ИИ-ускорителя TPU v4, который более чем вдвое производительнее и втрое энергоэффективнее TPU v3. Компания предлагает кластеры, которые содержат сразу 4096 ускорителей, тогда как в прошлом поколении они включали не более 1024 чипов. Новые кластеры предлагают пропускную способность до 6 Тбит/с на хост, что позволяет быстро обучать самые большие модели. По словам компании, один кластер TPU v4 имеет производительность более 1 Эфлопс. Правда, в данном случае речь идёт о BF16- или INT8-вычислениях. Один облачный ускоритель TPU v4, оснащённый 32 Гбайт HBM2-памяти (1,2 Тбайт/с) выдаёт в этом режиме до 275 Тфлопс, потребляя в среднем 170 Вт. Сейчас компания занята установкой таких кластеров в собственных дата-центрах, причём питание многих из них будет на 90% поставляться из «зелёных» безуглеродных источников. Один из таких ЦОД, который находится в округе Мейс (штат Оклахома), получил комплекс из восьми кластеров TPU v4 с суммарной производительностью порядка 9 Эфлопс. По словам компании, это самый производительный среди публично доступных ($3,22/час за чип) кластеров такого класса.
02.06.2021 [14:10], Андрей Галадей
Google анонсировала новые облачные инстансы с TPU v4Компания Google сообщила о новых виртуальных машинах Cloud TPU, которые упрощают обучение нейросетей и систем машинного обучения. Они предлагают новый и улучшенный пользовательский интерфейс для разработки и развертывания TensorFlow, PyTorch и JAX на облачных системах с тензорными процессорами TPU v4, о которых компания рассказала ещё в прошлом году. Новинка позволяет создавать и обучать модель, используя одну виртуальную машину с тензорным процессором, а затем масштабировать её в рамках облака, используя все преимущества быстрого интерконнекта между TPU. Всё это позволяет ускорить работу, а также даёт полный доступ к каждой виртуальной машине. ![]() Как отмечается, ранее можно было получать доступ к Cloud TPU только удаленно. Обычно клиенты создавали одну или несколько виртуальных машин, которые подключались к хост-машинам с Cloud TPU по сети посредством gRPC. Теперь же виртуальные машины работают непосредственно на хостах с тензорными процессорами, то есть они напрямую подключены к ускорителям. Это позволяет обойтись без затрат времени на передачу данных от хоста к клиенту и обратно.
20.05.2021 [16:40], Владимир Агапов
Google похвасталась самым быстрым ИИ-кластером на базе ускорителей TPU v4На мероприятии Google I/O генеральный директор компании Сундар Пичаи (Sundar Pichai) заявил, что кластер из 4096 модулей TPU v4, оборудованный системой жидкостного охлаждения, обладает производительностью порядка 1 Эфлопс. «Это самая быстрая система, которую мы когда-либо развертывали в Google, это историческая веха для нас», — сказал Пичаи. Формально такой результат почти вдове превышает пиковую производительность системы Fugaku, возглавляющей список TOP500 самых производительных суперкомпьютеров мира. Однако TPU адаптированы для построения систем другого класса, поэтому такой результат был достигнут в вычислениях с меньшей точностью (вплоть до int8), которой для задач машинного обучения в ряде случаев вполне достаточно. Для сравнения — Fugaku в бенчмарке HPL-AI показывает результат в 2 Эфлопс. Высокая производительность созданного кластера достигнута не только благодаря TPU v4, но и особой технологии интерконнекта, позволяющего объединить сотни отдельных вычислителей в единую систему TPU Pod. Благодаря этому пропускная способность на чип, по словам компании, вдесятеро выше, чем при использовании любой другой доступной сегодня сетевой технологии. Потребность компании в решениях такого класса связана с развитием инструментов для обработки больших наборов данных и прогнозирования на их основе, для анализа естественного языка и улучшения работы с поисковыми запросами, для машинного перевода Google Translate, для улучшения возможностей сервиса Google Photos и других. Инстансы с TPU v4 также будут доступны клиентам Google Cloud в конце этого года. TPU (Tensor Processor Unit) — это семейство собственных ускорителей Google для нейронных сетей, которые обеспечивают более высокую производительность на Ватт в сравнении с CPU и GPU. Впервые компания применила его в своих дата-центрах ещё в 2016 году. TPU v2 были выпущены в 2018-м, а через год появились и TPU v3 (на фото выше), которым уже потребовалось жидкостное охлаждение для сохранения плотности размещения. А возможности TPU v4 впервые были продемонстрированы в прошлом году.
08.12.2020 [14:53], Сергей Карасёв
ИИ-шлюз Techbase совмещает Raspberry Pi CM4 и тензорный процессор Google Coral EdgeКомпания Techbase готовит к выпуску устройство ModBerry AI Gateway 9500-CM4 — шлюз с функциями искусственного интеллекта (ИИ). Поставки новинки планируется организовать в течение двух месяцев, но стоимость пока не раскрывается. Шлюз объединяет два ключевых компонента. Один из них — вычислительный узел Raspberry Pi Compute Module 4 (CM4), в основе которого лежит процессор Broadcom BCM2711 с четырьмя ядрами Cortex-A72 (ARM v8), функционирующими на тактовой частоте 1,5 ГГц. ![]() Вторым компонентом является тензорный процессор Google Coral Edge TPU, обеспечивающий производительность на уровне 4 TOPS (триллионов операций в секунду). ![]() Новинка может комплектоваться разными картами PCIe, обеспечивающими поддержку 4G/LTE или 5G, LPWAN (NB-IoT, LoRa, Sigfox), ZigBee и пр. Упомянута возможность использования интерфейсов USB, HDMI, Ethernet, последовательных портов и др. Шлюз будет предлагаться в корпусе, допускающем монтаж на DIN-рейку. Заказчики смогут выбирать между различными конфигурациями устройства.
29.07.2020 [22:04], Алексей Степин
Google похвасталась самым быстрым ИИ-суперкомпьютером на базе TPU v4Но с такой формулировкой согласятся не все, потому что результаты опубликованного сегодня рейтинга ML Perf 0.7 можно интерпретировать слегка по-разному. Например, NVIDIA говорит о самом быстром суперкомпьютере — на базе A100, конечно — среди коммерчески доступных решений. Тогда как Google использовала в тестах не анонсированные официально тензорные ускорители TPU v4. Когда речь идёт о системах машинного интеллекта, обычно подразумевается либо использование уже натренированных нейросетей, либо процесс тренировки новой сети. Последний требует на порядки больше вычислительных возможностей и подразумевает использование мощных многоядерных систем. Для оценки производительности зачастую и применяется набор тестов MLPerf. Что касается полного списка участников MLPerf 0.7 c подробными результатами, то он есть на сайте проекта MLPerf. Разработкой собственных ускорителей машинного обучения Google занимается давно: ещё в 2017 году мы описывали одну из первых моделей TPU, способную быстро перемножать матрицы размером 256 × 256. Ещё недавно третья версия TPU установила ряд рекордов именно в области «натаскивания» нейросетей. Основой системы-рекордсменки тогда стал модуль Cloud TPU Pod, каждый из таких модулей содержал более 1000 чипов Google TPU и развивал свыше 100 Пфлопс. ![]() Результаты, опубликованные Google. Серые столбики — быстрейшие соперники, не относящиеся к Google Главным конкурентом Google в этой области можно назвать NVIDIA, которая также уделяет весьма серьёзное внимание развитию ИИ-ускорителей. Даже решения на базе V100 легко конкурировали с Google TPU v3, а новейшие A100 на базе архитектуры Ampere продемонстрировали в MLPerf Training ещё более высокий уровень производительности. ![]() Google TPU v3 и v4 против NVIDIA и Huawei. Источник: ExtremeTech Однако Google сдаваться не собирается и подразделение Google Research опубликовало результаты нового тестирования MLPerf Training 0.7, основой которого стали ещё не анонсированные официально тензорные сопроцессоры TPU v4. Повергнуть в прах A100 во всех тестах не удалось, но соперничество вышло вполне достойное: в некоторых сценариях быстрее всё же оказалась NVIDIA, но в других вперёд вышла разработка Google. NVIDIA, в свою очередь, сообщает о 16 рекордах при использовании новейших DGX A100 и отдельно отмечает, что её продукты доступны для приобретения (и запуска любых тестов ML Perf или реальных нагрузок), тогда как результаты конкурентов зачастую или неполны, или получены на оборудовании, имеющем экспериментальный характер или которое невозможно приобрести прямо сейчас. ![]() Новая тест-платформа Google TPU содержит в четыре раза больше ИИ-сопроцессоров, их число достигает 4096 Для тестирования использовались реализации ИИ-моделей на TensorFlow, JAX, PyTorch, XLA и Lingvo. Четыре из восьми моделей удалось «натаскать» менее чем за 30 секунд, что является весьма впечатляющим результатом. Для сравнения, в 2015 на современном тому времени «железе» аналогичный процесс обучения занял бы более трёх недель. В целом TPU v4 обещает быть в 2,7 раза быстрее TPU v3, но все точки над i расставит официальный анонс четвёртой итерации сопроцессора Google. Более подробная информация о тестировании MLPerf 0.7 содержится в официальном блоге Google Cloud. Там же можно найти и детали о системах на базе TPU, но эта информация пока ограничена третьей версией чипа. Пока известно, что четвёртое поколение TPU более чем в два раза быстрее на операциях перемножения матриц, может похвастаться более быстрой подсистемой памяти и имеет усовершенствованную систему интерконнекта.
03.01.2020 [23:23], Алексей Степин
Google анонсировала новинки на базе TPU Edge: Coral Dev Board Mini и Coral Accelerator ModuleПопулярность экономичных ускорителей задач машинного обучения в последние годы постоянно растёт. Не осталась в стороне и компания Google. Решения Coral на базе тензорного сопроцессора Edge были анонсированы ещё весной 2019 года. А 3 января Google объявила о новых продуктах Coral. ![]() В настоящее время ускорители на базе TPU Edge доступны как в формате Mini PCie, так и виде платы для разъёма M.2. Оба варианта используют интерфейс PCI Express 2.0 x1 и питаются от стандартного напряжения 3.3 Вольта. Отличаются они, по сути, лишь габаритами: вариант M.2 с ключами B+M существенно длиннее двух других, дабы обеспечивать совместимость с креплением M.2 2280. Производительность чипа на этих платах может достигать 4 Топс при удельном энергопотреблении 0,5 Вт/Топс. Все три варианта доступны для заказа на сайте Seed Studio, стоимость — $35. Поставки должны начаться уже в середине февраля. ![]() В число новых продуктов Google Coral, которые увидят свет в этом году, вошел новый Coral Accelerator Module. По сути, это модульный чип (MCM) размерами 15 × 10 мм в упаковке LGA, поддерживающий как PCI Express, так и USB, что ещё более упростит его интеграцию в сравнении с первым поколением Coral. Производительность останется прежней, на уровне 4 Топс, но этого достаточно, к примеру, для работы системы машинного зрения MobileNet v2 на скорости 400 кадров в секунду. Появится новинка в первой половине 2020 года. ![]() Первой платой на базе Coral Accelerator Module станет Coral Dev Board Mini. Помимо самого CAM, на ней будет установлен процессор MediaTek 8167s (4 ядра ARM Cortex-A53 с графикой PowerVR GE8300), 2 Гбайт оперативной памяти DDR3L, 8 Гбайт eMMC. Плата получит поддержку Wi-Fi 5, интерфейсы HDMI, MIPI-DSI и MIPI-CSI2, а также USB 2.0 и 40-контактный разъём GPIO. Данный продукт станет более дешёвой заменой оригинальному комплекту разработчика Coral с процессором NXP i.MX 8M. Цена неизвестна, но с учётом текущей стоимости «большой» версии, $150, следует ожидать планки «$100 и менее». ![]() Первые версии Coral System-on-Module поставлялись с 1 Гбайт памяти LPDDR4, но Google вскоре планирует дополнить ассортимент этих модулей версиями 2 и 4 Гбайт памяти, что должно помочь в ряде ситуаций со сборкой приложений прямо на модуле. В текущей версии доступного объёма памяти может просто не хватать, что отражено на GitHub.
28.07.2018 [14:30], Геннадий Детинич
В платформах Google для машинного обучения могут появиться NVIDIA Tesla P4Как стало известно в ходе конференции Google Cloud Next 18, компания Google может дополнить свои облачные платформы по машинному обучению аппаратными решениями компании NVIDIA. Это довольно неожиданный шаг, поскольку для этих задач Google самостоятельно разрабатывает аппаратные ускорители Tensor Processing Unit (TPU) на базе ASIC. Оправданием этому может служить тот факт, что GPU NVIDIA в виде семейства решений Tesla пользуются широкой популярностью в отрасли как основа для платформ с машинным обучением. ![]() Google TPU Вместе с ускорителями Google TPU обещают соседствовать слегка устаревшие, но оптимальные для работы с разнообразными ML-моделями адаптеры NVIDIA Tesla P4. Решения выпускаются в виде 50-Вт и 75-Вт PCIe-карт. Максимальная производительность Tesla P4 для вычислений с одинарной точностью достигает 5,5 TFLOPS. Кроме этого ускоритель NVIDIA способен ускорять обработку видеопотоков (одновременно до 18 с разрешением Full HD) и обладает возможностью работать в составе виртуальных машин. Основная задача, которая будет возложена на Tesla P4 — это принятие решений, а не обучение, хотя GPU способны работать более-менее оптимально с целым спектром моделей, в отличие от того же Google TPU. ![]() В случае использования Tesla P4 в составе обучающихся платформ Google (для обучения) выигрыш может оказаться в упрощении потоков данных, и это не создаст трудностей разработчикам, уже погрузившимся в фреймворк Google TensorFlow. Последний имеет тесную связь с NVIDIA TensorRT и может быть экспортирован для запуска на движке NVIDIA. Что также немаловажно, решения NVIDIA на базе GPU работают с существенно меньшими задержками, чем процессоры общего назначения, что крайне важно для операций с принятием решений. Разработчики Google, например, продемонстрировали 27-кратное превосходство Tesla P4 над процессорами Intel Xeon по параметру соотношения числа обработанных с секунду изображений на ватт. ![]() В области облачных платформ для машинного обучения и принятия решений компании Google необходимо успешно соперничать с платформами Amazon AWS и Microsoft Azure. Последние не отказываются от продуктов NVIDIA Tesla, так что Google может взять от конкурентов лучшее, а не только полагаться на собственные аппаратные разработки.
25.08.2017 [12:18], Алексей Степин
Подробности о тензорном сопроцессоре Google TPUНе столь давно мы рассказывали о том, что в гонке решений, призванных ускорить работу нейросетей и оптимизировать процесс машинного обучения, компания Google принимает самое непосредственное участие с чипом собственной разработки с незамысловатым названием TPU (Tensor Processor Unit). Генеральный директор компании Сундар Пичаи (Sundar Pichai) тогда заявил, что эти процессоры на порядок эффективнее менее специализированных решений, таких, как FPGA или GPU. ![]() Архитектура и особенности Google TPU хранились в строжайшем секрете, но теперь мы, наконец, можем узнать об этих ускорителях много нового. Сама плата ускорителя выполнена в нестандартном форм-факторе, она имеет разъём, похожий на M.2, но на самом деле диаграммы указывают на использование интерфейса PCI Express 3.0 x16. В каждом сервере Google, рассчитанном на установку TPU, может устанавливаться четыре таких ускорителя, выполняющих операции с плавающей запятой. ![]() Сам процессор имеет двухканальный контроллер памяти DDR3-2133 МГц и на его плате установлено 18 чипов DDR3 общим объёмом 8 Гбайт. Судя по количеству чипов, используется коррекция ошибок. Главной частью процессора является матрица, выполняющая операции умножения-сложения (multiply-accumulate). Размер этой матрицы составляет 256 × 256, работает она с 8-битными данными на частоте 700 МГц. Пиковая производительность при этом достигает почти 92 триллионов операций в секунду. Ничего удивительного, блоков MAC у TPU в 25 раз больше, нежели у современных GPU. ![]() Имеется 4 Мбайт выделенной регистровой (accumulator) памяти и 24 Мбайт унифицированного буфера, это больше, чем у большинства графических процессоров; Google говорит о превосходстве в 3,5 раза. С внутренней пропускной способностью проблем нет. Пул результатов имеет доступ к буферу на скорости 167 Гбайт/с, тот связан с общим интерфейсом шиной 10 Гбайт/с. Производительность подсистемы памяти достигает 30 Гбайт/с, а с внешним миром сопроцессор общается на скорости, доступной интерфейсу PCIe 3.0 (8 гигатрансфер/с в каждом направлении). ![]() C точки зрения программиста TPU очень прост и имеет всего 11 инструкций из которых 5 основных: read_host_memory, write_host_memory, read_weights, matrix_multiple/convolve и activate. Каждая инструкция выполняется не более, чем за 10 тактов, имеется четырёхстадийный параллельный конвейер, каждая стадия которого может выполнять независимо одну из инструкций. Пока блок матричного перемножения занят, процессор умеет выполнять другие инструкции. Ветвления отсутствуют, внеочередного исполнения нет, управление буферами и синхронизацией конвейера полностью прозрачно для программиста. Проблема с промежуточными обращениями в SRAM была решена методом «систолического исполнения». ![]() Лучше всего этот процесс представлен на диаграмме, где потоки двигаются слева вниз, сначала происходят операции сложения, а потом аккумуляции. Архитектура такова, что задержки конвейера процессор может игнорировать. Впервые TPU появились в центрах обработки данных Google ещё в 2015 году, до Haswell и NVIDIA Tesla K80. В обоих случаях размер кристалла и уровень энергопотребления оказались меньше, нежели у конкурирующих решений. Компания признаёт, что основным лимитирующим производительность TPU фактором является пропускная способность памяти, а также считает, что обычные процессоры и GPU более универсальны и сбалансированы, но серьёзно уступают TPU в производительности. В новых версиях TPU память DDR3 уступит место более перспективной HBM, хотя исследования с GDDR5 показали хороший прирост производительности. Ситуация чем-то похожа на добычу биткоинов: сначала использовались универсальные ЦП, потом скорость удалось поднять за счёт параллелизма GPU, но узкоспециализированные ASIC, заточенные под одну задачу, превзошли все иные решения именно из-за своей простоты и экономичности. ![]() Как именно Google использует TPU в машинном обучении, компания пока предпочитает хранить в тайне, что неудивительно — с 92 триллионами операций в секунду её решения просто не имеют достойных в плане производительности конкурентов. По крайней мере, пока. Да, точность вычислений невелика (int8), но для задач машинного обучения и натаскивания нейросетей этого в большинстве случаев вполне достаточно. |
|