Материалы по тегу: tensor

17.05.2017 [22:37], Константин Ходаковский

Система обучения ИИ следующего поколения от Google невероятно быстра

Google представила второе поколение TPU (Tensor Processor Unit) — аппаратного обеспечения и программной экосистемы, которая лежит в основе самых амбициозных и далеко идущих технологий компании. Исполнительный директор Сандар Пичай (Sundar Pichai) рассказал о продукте во время ключевой презентации на ежегодной конференции разработчиков Google I/O.

Первое поколение TPU являлось специализированным чипом, созданным с прицелом на машинное обучение. Оно использовалось системой искусственного интеллекта AlphaGo в качестве основы для предсказания и принятия решений. Google также использует вычислительные возможности своих TPU каждый раз, когда кто-либо вбивает запрос в поисковую строку. Не так давно технология была использована для улучшения возможностей Google Translate, Google Photos и других служб при помощи машинного обучения.

Обычно подобные расчёты производятся при помощи графических ускорителей, отличающихся впечатляющими возможностями в области высокопараллельных вычислений. Например, Facebook использует карты NVIDIA в своих серверах Big Basin AI. Но Google приняла решение создать собственное аппаратное решение и оптимизировать под него своё ПО.

Поэтому оригинальный TPU создавался для оптимальной работы с Google TensorFlow, одной из многих открытых библиотек машинного обучения. Благодаря успехам Google из подразделений Brain и DeepMind, а также интеграции ПО с оборудованием TensorFlow стала одной из лидирующих платформ для создания ПО на базе ИИ.

Теперь Google сообщила, что второе поколение системы TPU уже полностью работоспособно и начало развёртываться в рамках платформы Google Compute Engine, которую другие компании и исследователи могут использовать по аналогии с Amazon AWS и Microsoft Azure. Google, разумеется, будет использовать систему и сама, но также продвигает TPU в качестве непревзойдённого ресурса, который могут использовать и другие заинтересованные компании.

Google разработала способ объединения множества TPU в серверные стойки TPU Pod, каждая из которых обеспечивает 11,5 Пфлопс вычислительных мощностей. Отдельные же TPU обладают впечатляющей мощью в 180 Тфлопс — разумеется, в том типе вычислений, которые сегодня наиболее часто применяются в технологиях машинного обучения.

Серверные стойки с ускорителями Tensor Processing Unit, которые используются для тренировки ИИ-систем и осуществления ими расчётов в реальном времени

Серверные стойки с ускорителями Tensor Processing Unit, которые используются для тренировки ИИ-систем и осуществления ими расчётов в реальном времени

Такая производительность даёт Google и её клиентам существенное преимущество и свободу экспериментирования в передовой области ИИ. Компания отмечает, что её новая крупномасштабная модель перевода на основе ИИ требует полной загруженности 32 самых мощных GPU в мире в течение суток, а одна восьмая стойки TPU Pod справляется с задачей всего за шесть часов.

Вдобавок второе поколение TPU позволяет серверам Google проводить одну и ту же работу как в режиме принятия решений, так и в режиме обучения. Оригинальный TPU мог только принимать решения в реальном времени на основе существующего алгоритма. Обучение же является собственно частью процесса разработки алгоритма.

Машинное обучение — процесс анализа искусственным интеллектом огромного массива данных, чтобы нейронная сеть могла решать задачи с использованием нечёткой логики так, как не может обычный алгоритм. Результатом, например, становится более качественные возможности перевода между языками или более человекоподобное поведение машины при игре в шахматы и так далее. В общем, системы обучения улучшают алгоритм ИИ на основе огромных массивов данных, так что если каждый эксперимент занимает не недели, а дни или даже часы, то возможности разработчиков ИИ принципиально улучшаются (при условии использования библиотеки TensorFlow, конечно).

Google также поддерживает тех разработчиков, которые готовы публиковать результаты своих исследований, в том числе исходные коды — в рамках программы TensorFlow Research Cloud, таким разработчикам будет бесплатно предоставляться доступ к кластеру из 1000 TPU.

Постоянный URL: http://servernews.ru/952393
11.05.2017 [10:00], Иван Грудцын

Эра NVIDIA Volta началась с ускорителя Tesla V100

На конференции GTC 2017 в американском городе Сан-Хосе компания NVIDIA в лице её генерального директора Дженсена Хуанга (Jen-Hsun Huang) представила ускоритель Tesla V100 для дата-центров на основе графического процессора Volta GV100. Разработка последнего обошлась NVIDIA в $3 млрд, и в результате свет увидел чип площадью 815 мм², содержащий 21,1 млрд транзисторов, более 5000 потоковых процессоров и новые блоки Tensor, повышающие производительность GPU в так называемых матричных вычислениях. Изготовление ядер GV100 было поручено давнему партнёру NVIDIA — тайваньскому полупроводниковому гиганту TSMC. Техпроцесс выпуска — 12-нм FFN. Последняя буква в аббревиатуре FFN обозначает не что иное, как «NVIDIA»: технологическая норма разрабатывалась с учётом требований заказчика.

Tesla V100

Tesla V100

Из года в год сложность архитектуры кремниевых кристаллов для HPC-задач продолжает расти, и теперь, с дебютом NVIDIA Volta, остаётся констатировать, что помимо потоковых процессоров, кеш-памяти первого и второго уровней, текстурных блоков, контроллеров VRAM и системного интерфейса, частью high-end GPU становятся блоки Tensor. У GV100 их по 8 на мультипроцессорный кластер (SM) и 672 в целом.

SM-блок Volta GV100

SM-блок Volta GV100

Матричные вычисления в блоках Tensor увеличивают производительность нового ядра в задачах машинного обучения до 120 Тфлопс. В то же время быстродействие GV100 в FP32-вычислениях составляет 15 Тфлопс, а в FP64-вычислениях — 7,5 Тфлопс.

Ядро Volta GV100

Volta GV100

Ядро Volta GV100 неотделимо от буферной памяти — четырёх микросхем HBM2, взаимодействующих с GPU по 4096-битной шине. Объём каждого чипа составляет 4 Гбайт, пропускная способность подсистемы памяти — 900 Гбайт/с. Кристалл GV100 дебютирует одновременно с ускорителем Tesla V100, являясь его основой. В V100 ядро работает на частоте до 1455 МГц (с учётом динамического разгона) обеспечивая вышеуказанную производительность в FP32-, FP64- и матричных (Tensor) вычислениях. Адаптер с GPU впечатляющих размеров потребляет умеренные 300 Вт — столько же, сколько и Tesla P100.

Спецификации ускорителей NVIDIA Tesla разных лет

Спецификации ускорителей NVIDIA Tesla разных лет

Вычислительные возможности Volta GV100

Вычислительные возможности Volta GV100

По эскизу в начале данной заметки можно было догадаться, что соединение Tesla V100 с такими же ускорителями и центральным процессором обеспечивает интерфейс типа NVLink. В этот раз это не интерфейс первого поколения, а NVLink 2.0 — соответствующие контакты находятся на тыльной поверхности карты. В Tesla V100 реализовано шесть двунаправленных 25-Гбайт соединений (суммарно 300 Гбайт/с), а также функция согласования содержимого кеш-памяти с кешем центрального процессора IBM POWER9.

Распространение новых HPC-ускорителей будет осуществляться по межкорпоративным (B2B) каналам. При этом заказчики получат свободный выбор между готовыми решениями вкупе с сопутствующим программным обеспечением и технической поддержкой. Все три системы — DGX-1, HGX-1 и DGX Station — предназначены для решения задач, связанных с развитием искусственного интеллекта (AI).

С системой глубинного обучения NVIDIA DGX-1 первого поколения мы уже знакомили читателей — она использует восемь ускорителей Tesla P100 с производительностью 170 Тфлопс в вычислениях половинной точности (FP16). Обновлённый сервер DGX-1 содержит восемь карт Tesla V100 с быстродействием 960 Тфлопс (FP16), два центральных процессора Intel Xeon и блок(-и) питания суммарной мощностью не менее 3200 Вт. Такой апгрейд позволяет выполнять не только типичные задачи в области исследования AI, но и переходить к новым, целесообразность решения которых прежде была под вопросом ввиду высокой сложности вычислений.

Предварительный заказ системы NVIDIA DGX-1 второго поколения обойдётся всем желающим в $149 000. Ориентировочный срок начала поставок — третий квартал текущего года.

Сервер HGX-1 на восьми ускорителях Tesla V100 аналогичен DGX-1. Ключевое отличие данной системы заключается в применении жидкостного охлаждения компонентов. Кроме того, NVIDIA HGX-1 проще внедрить с ИТ-инфраструктуру компаний. Помимо глубинного обучения, этот сервер может использоваться в экосистеме GRID, а также для решения широкого круга HPC-задач.

NVIDIA HGX

NVIDIA DGX Station представляет собой высокопроизводительную рабочую станцию с четырьмя картами Tesla V100, центральным процессором Intel Xeon, системой жидкостного охлаждения и 1500-ваттным источником питания. Ускорители NVIDIA в составе DGX Station оснащены интерфейсом NVLink 200 Гбайт/с и тремя разъёмами DisplayPort с поддержкой разрешения 4K.

В матричных Tensor-вычислениях  DGX Station обеспечивает быстродействие на уровне 480 Тфлопс. Стоимость рабочей станции для рынка США равна $69 000.

Постоянный URL: http://servernews.ru/952008
Система Orphus