Материалы по тегу: нейронная сеть

09.02.2018 [13:27], Сергей Карасёв

Сбербанк развернул масштабную нейронную сеть

Сбербанк объявил о разработке первой в России масштабной нейронной сети: платформа, как сообщается, предназначена для оценки коммерческой недвижимости.

В основу системы положены алгоритмы глубокого машинного обучения. Сеть позволяет автоматизировать выполнение рутинных операций, снизив нагрузку на специалистов и повысив эффективность выполнения задач.

Отмечается, что коммерческая недвижимость выступает одним из наиболее популярных видов залога. Для выбора наиболее подходящих аналогов нейронная сеть обрабатывает информацию о характеристиках объекта, его местоположении, пешеходном трафике, цене, а также близости к более чем 200 категориям точек интереса (POI).

Благодаря внедрению системы сроки проведения оценки сокращаются с нескольких дней до минут при одновременном повышении её качества. Кроме того, за счёт использования единой платформы унифицируются методология и подходы к оценке.

На данный момент сервис охватывает 36 крупнейших городов России с населением более полумиллиона человек и используется для оценки объектов типа Street Retail —  разновидность торговой недвижимости, представляющая собой торговые помещения, расположенные на первых этажах зданий, имеющие отдельный вход и собственные витрины.

В дальнейшем планируется расширение сферы применения нейронной сети. «Использование новейших технологий позволяет нам исключить механический труд и использовать высвободившееся время для решения сложных задач», — отмечает Сбербанк. 

Постоянный URL: http://servernews.ru/965393
25.10.2017 [18:18], Сергей Карасёв

Компьютеры «Эльбрус» получат систему распознавания документов на основе нейронных сетей

Объединённый холдинг «Росэлектроника» (входит в госкорпорацию «Ростех») сообщает о том, что вычислительные комплексы «Эльбрус» будут оснащаться системой распознавания паспортов и других стандартизированных документов, разработанной российской компанией Smart Engines.

Система будет функционировать в составе рабочей станции базового уровня «Эльбрус 101-РС» на чипе «Эльбрус-1С+». Программное обеспечение Smart Engines адаптировано и для других компьютеров семейства «Эльбрус» — станций «Эльбрус-801», персональных компьютеров и серверов на базе микропроцессоров «Эльбрус-4С».

Отмечается, что система распознавания документов построена с использованием «сверхбыстрых нейронных сетей», а высокое качество распознавания обеспечивается благодаря «глубокой алгоритмической оптимизации под специфику программно-аппаратной архитектуры Эльбрус».

В настоящее время на базе «Эльбрус 101-РС» доступно распознавание удостоверяющих документов России и более чем 35 стран мира, а также машиночитаемой зоны на любых документах (паспорта, ID-карты, визы). Из российских документов система распознаёт паспорт гражданина РФ, СНИЛС, водительские удостоверения, свидетельство о регистрации транспортных средств (СТС), визу и свидетельство о рождении.

Новый комплекс предлагается использовать для организации рабочих мест сотрудников, занятых вводом данных из анкет, заявлений, различных бланков и других типовых документов. Автоматическое извлечение информации позволяет повысить эффективность работы по вводу данных и сократить количество ошибок, вызванных человеческим фактором.

Кроме того, система может применяться на контрольно-пропускных пунктах для распознавания автомобильных номеров. 

Постоянный URL: http://servernews.ru/960532
01.09.2017 [22:39], Алексей Степин

В обучении нейросетей достигнута производительность 15 петафлопс

Разработчики нейросетей и систем машинного обучения продолжают работы по усовершенствованию и ускорению соответствующих задач. Смешанная группа инженеров и учёных из Национальной лаборатории имени Лоуренса в Беркли, Стэнфордского университета и корпорации Intel впервые преодолела барьер 10 петафлопс при выполнении двух различных программ глубинного машинного обучения. Одна из них смогла показать рекордный результат — 15 петафлопс. Исследование проводилось с использованием суперкомпьютера Cori, установленного в министерстве энергетики США. Результаты эксперимента были опубликованы 17 августа и ознакомиться с ними можно по этой ссылке. В процессе вычислений использовалась математика одинарной точности — режима FP32 обычно достаточно с точки зрения достигаемой точности вычислений при обучении нейронных сетей. Иногда используются даже менее точные вычисления, такие, как FP16 или даже INT8.

Машинный зал Cori

Машинный зал Cori

В системе Cori, которая представляет собой Cray XC40, проблем с такой математикой нет: она состоит из 9688 процессоров Intel Xeon Phi 7250 серии Knights Landing. Пиковая производительность комплекса в режиме одинарной точности достигает 59 петафлопс, но из-за активного использования векторных инструкций (AVX), применяемых в матричной математике, тактовые частоты процессоров снизились с 1,4 до 1,2 ГГц, что понизило пиковую производительность до 50,6 петафлопс. Для тестовой задачи были использованы метеорологические данные общим объемом 15 Тбайт, полученные с помощью климатического симулятора. Именно при обработке этих моделей была достигнута пиковая производительность 15,07 петафлопс при устоявшейся 13,27 петафлопс. Задействовалось 9622 ядер Cori из 9688 физически имеющихся в системе. Показатели масштабируемости тоже впечатляют: 7205-кратное увеличение скорости вычислений было получено при переходе от 1 процессорного ядра к 9622. Второй тестовой задачей был обсчёт набора данных из области физики высоких энергий. Здесь скорости составили 11,73 и 11,41 петафлопс, соответственно, а масштабируемость достигла показателя 6173.

Некоторые полученные данные о масштабируемости задач

Некоторые полученные данные о масштабируемости задач

К сожалению, в тестовых задачах каждый из Xeon Phi смог выдать около 2 терафлопс из 6 возможных, но это практически предел для реальных приложений — как традиционных задач класса HPC, так и задач машинного обучения. Что касается точности, то итоговые показатели оказались неплохими: в задаче из области физики высоких энергий точность корректного распознавания сигналов составила 72 %, что существенно выше, нежели при применении традиционного анализа, при котором достигается точность порядка 42 %. К сожалению, численная оценка точности климатической задачи не производилась, но исследователи утверждают, что нейронная сеть отлично справилась с поиском, локализацией и идентификацией тропических циклонов, что было её главной целью. Исследователи намерены продолжать работы: планируется как оптимизация имеющихся алгоритмов машинного обучения, так и внедрение новых. В планах есть и применение систем с более низкой точностью обработки данных, поскольку это может позволить добиться ускорения процесса обучения нейросетей.

Постоянный URL: http://servernews.ru/957957
01.09.2017 [15:00], Сергей Карасёв

Новый российский суперкомпьютер предназначен для обучения нейросетей

В Лаборатории нейронных систем и глубокого обучения Московского физико-технического института (МФТИ) появился уникальный суперкомпьютер, о чём сообщает сетевое издание «РИА Новости».

Комплекс спроектирован специально для обучения искусственных нейронных сетей. Это, как утверждается, первая в мире система высокопроизводительных вычислений подобного рода.

Суперкомпьютер использует вычислительные узлы NVIDIA DGX-1. В их основе — профессиональные ускорители Tesla P100, взаимодействующие посредством интерфейса NVIDIA NVLink. Модули DGX-1 выбраны в качестве основы для нового суперкомпьютера по той причине, что они способны обрабатывать и анализировать информацию в 100 раз быстрее по сравнению с традиционными вычислительными системами.

«Вычислительная мощность принципиально важна для глубокого обучения. Чем более мощное железо есть в нашем распоряжении, тем с более сложными нейросетевыми архитектурами мы сможем работать. Сложность модели зачастую позволяет совершить революционный скачок в решении практических задач», — говорят в МФТИ.

Ресурсы вычислительного комплекса будут задействованы прежде всего в рамках проекта по созданию разговорного искусственного интеллекта iPavlov, который лаборатория реализует совместно со Сбербанком. Ожидается, что такая система сможет вести содержательный диалог с человеком и достигать цели, поставленной в процессе общения, не только отвечая на вопросы, но и запрашивая недостающую информацию. Для этого специально созданный алгоритм будет обучаться на больших массивах документов и текстовых записей диалогов между людьми. 

Постоянный URL: http://servernews.ru/957932
01.09.2017 [12:00], Алексей Степин

Первые сведения о процессоре машинного обучения Baidu

Мы продолжаем рассказывать нашим читателям о тенденциях в области аппаратного обеспечения для систем машинного обучения. Все уже знают, что такой гигант, как Google, вложил немалые средства в разработку так называемого «тензорного сопроцессора», о котором не так давно говорилось в одной из наших заметок. Но у Google есть конкурент, а точнее, параллельно работающий с ним гигант — компания Baidu, охватывающая огромный рынок КНР. Неудивительно, что она тоже ведёт исследования в аналогичных областях. Китай — не самая открытая страна, да и коммерческая тайна продолжает оставаться коммерческой тайной, но, тем не менее, кое-что про процессор Baidu под названием XPU стало известно.

Пока китайские разработчики отстают от своих американских коллег: в их распоряжении есть рабочее устройство, но собрано оно на основе больших микросхем программируемой логики (ПЛИС) производства Xilinx. Как показывает практика, это не самое энергоэффективное решение, хотя и более экономичное, нежели использование графических чипов или процессоров x86 общего назначения. По словам главы команды разработчиков, целью является создание универсального процессора, способного справляться с различными задачами и сценариями машинного обучения, и при этом не менее гибкого, нежели обычные ЦП. Пока приходится использовать ПЛИС, а их программирование — сложнейшая задача. Процессор XPU должен будет содержать массив блоков для специализированных вычислений — перемножения матриц, свёртки тензоров и прочих задач.

Этому массиву потребуется широкая шина памяти с высокой пропускной способностью и низкими задержками. Планируется использовать внешнюю DDR4 в связке с многослойной HBM, которая отлично показывает себя в ускорителях NVIDIA. В чипе будет также некоторое количество сверхбыстрой памяти SRAM. Число ядер должно достигнуть 256, а в целом архитектура XPU будет напоминать MIPS. Небольшие ядра обойдутся без кеша, а эффективность будет достигнута за счёт их специализации и параллельного использования. Частота работы всех 256 ядер составит 600 МГц. С системой синхронизации данных масштабируемость устройства будет выше, нежели без таковой.

К сожалению, хотя проект уже и существует в форме ПЛИС, компилятора к новому процессору Baidu пока нет. Код приходится писать на ассемблере, как это делалось раньше в мире x86, но задача значительно сложнее, поскольку приходится заниматься и разделением работы между ядрами, а также проверкой работоспособности в Linux. Пока рано говорить о производительности Baidu XPU, но сама идея выглядит неплохо, и к тому же у компании уже накоплен солидный опыт использования ПЛИС в своих центрах обработки данных. Вполне возможно, что уже подрастает достойный соперник Google TPU, причём, более универсальный.

Постоянный URL: http://servernews.ru/957895
31.08.2017 [06:40], Алексей Степин

Популярность машинного обучения влияет на эволюцию архитектуры процессоров

Процесс развития архитектур центральных процессоров подобен эволюционному. Их создают разработчики для соответствия той или иной эволюционной нише, требующей каких-либо специфических вычислений, наборов инструкций и тому подобное. Иногда эволюционные ниши схлопываются —  и вымирают целые семейства процессоров. В качестве примера можно привести Alpha. Сейчас основную нишу удерживают x86-совместимые решения, но о них чуть позже. В 2017 году уже ни у кого нет сомнений, что возникла новая экологическая ниша — специализированные процессоры для нейронных сетей и машинного обучения.

Google TPU

Google TPU

О таких решениях мы писали неоднократно. Здесь и Google Tensor Processing Unit, и разработка Fujitsu под названием DLU (Deep Learning Unit), и процессор Graphcore IPU (Intelligent Processing Unit), и многочисленные разработки и прототипы на базе ПЛИС компаний Altera и Xilinx, которыми интересуется всё больше крупных владельцев ЦОД по всему миру, например, Baidu. Да и графические чипы последних поколений отлично справляются с задачей создания и натаскивания нейросетей благодаря глубокой степени параллелизма, хотя делают они это не столь экономично, как специально созданные для этой цели решения. Смысл в том, что эволюционная ниша сформирована, и теперь в ней наблюдается типичная борьба за выживание: в графических чипах NVIDIA появляются специальные ядра для тензорных вычислений (в Volta V100 таких ядер 640).

Intel Knights Mill

Intel Knights Mill

Обычно эти ядра оперируют математикой с упрощённой точностью (32 и 16 бит с плавающей запятой, а иногда и целочисленными форматами вплоть до 8 битных). У AMD есть аналогичный продукт — ускорители серии Radeon Instinct. Но что самое интересное, эволюционная «мутация» закрепляется и в обычных, казалось бы, x86-совместимых процессорах — совсем недавно мы описывали читателям чипы Intel Knights Mill, в которых часть общей производительности принесена в угоду производительности на специализированных задачах машинного обучения. Кто победит в эволюционной гонке? Пока сказать трудно. Такие решения, как NVIDIA Volta и Radeon Instinct может ждать судьба динозавров — по соотношению энергопотребления к производительности в специальных задачах они проигрывают тому же Google TPU.

Fujitsu Deep Learning Unit

Fujitsu Deep Learning Unit

Роль протомлекопитающих в этом процессе, судя по всему, играют решения на базе ПЛИС, а королями нейронных сетей станут специализированные мощные процессоры, такие, как Google TPU. Но эволюция — процесс нелинейный, и ряд ниш вполне может найтись для решений, способных не только работать с системами машинного обучения. К тому же, сами системы обучения могут быть очень разными и требовать гибкости, к которой чипы типа ASIC не способны по определению. Может потребоваться и параллельное выполнение задач иного порядка, так что чипам вроде Intel Knights Mill тоже найдётся место на ветвистом дереве эволюции процессоров. Пока ясно одно —  «ген» машинного обучения поселился в современных процессорах надолго.

Постоянный URL: http://servernews.ru/957816
25.08.2017 [12:44], Алексей Степин

Intel проливает свет на архитектуру процессоров Knights Mill

Во времена, когда машинное обучение и технологии на базе нейросетей активно развиваются, прогрессирует и аппаратное обеспечение для этих сфер. Но каждый разработчик подходит к вопросу по-своему: производители графических процессоров полагаются на изначально массивный параллелизм своих разработок, такие компании как Google разрабатывают сравнительно простые чипы, всё в которых подчинено единственной задаче, выполняемой максимально быстро, ну а такие компании как Intel адаптируют существующие процессорные архитектуры. Так, недавно «синие» раскрыли некоторые секреты, касающиеся наследников серии Knights Landing — процессоров Knights Mill.

Конечно, компания исследует и другие направления, например, решения на базе FPGA Altera, а также разрабатывает сопроцессоры Lake Crest и Knights Crest, которые, скорее всего, будут напоминать Google TPU. Однако и наследник серии Knights Landing — чип Knights Mill — получит изменённую с учётом популярности технологий машинного обучения архитектуру. Основа останется прежней, но каждый модуль (VPU) получит вместо двух «больших» блоков FPU (32/64 бита) меньший блок вычислений с плавающей запятой и четыре блока Vector Neural Network Instruction (VNNI). Последние будут поддерживать операции с плавающей запятой одинарной точности, а также получат способность работать со смешанными целочисленными форматами (16 бит на входе, 32 на выходе). Похожие ядра есть в составе NVIDIA V100, но они поддерживают более традиционные форматы FP32/64.

Конечный результат можно предсказать довольно точно: Knights Mill будет вдвое уступать Knights Landing на операциях двойной точности, но вдвое же превосходить на операциях точности одинарной. А появление блоков VNNI с поддержкой целочисленных форматов может поднять производительность Knights Mill в четыре раза в задачах, связанных с глубинным машинным обучением. Таким образом, процессор получится более специализированным, но в своих областях специализации он превзойдёт предшественника весьма существенно. Чипы Knights Mill не будут страдать от нехватки ПСП, поскольку получат 16 Гбайт MCDRAM, дополняющий 6-канальный контроллер DDR4. Общее количество ядер останется прежним — 72, с учётом 256 операций на такт в блоках VPU, Knights Mill сможет продемонстрировать более 27 триллионов операций в секунду при частотах порядка 1,5 ГГц. Это меньше, нежели 92 триллиона операций у Google TPU, но решение Intel выглядит более универсальным и сбалансированным. Появится оно на рынке уже в четвёртом квартале этого года.

Постоянный URL: http://servernews.ru/957549
25.08.2017 [12:18], Алексей Степин

Подробности о тензорном сопроцессоре Google TPU

Не столь давно мы рассказывали о том, что в гонке решений, призванных ускорить работу нейросетей и оптимизировать процесс машинного обучения, компания Google принимает самое непосредственное участие с чипом собственной разработки с незамысловатым названием TPU (Tensor Processor Unit). Генеральный директор компании Сундар Пичаи (Sundar Pichai) тогда заявил, что эти процессоры на порядок эффективнее менее специализированных решений, таких, как FPGA или GPU.

Архитектура и особенности Google TPU хранились в строжайшем секрете, но теперь мы, наконец, можем узнать об этих ускорителях много нового. Сама плата ускорителя выполнена в нестандартном форм-факторе, она имеет разъём, похожий на M.2, но на самом деле диаграммы указывают на использование интерфейса PCI Express 3.0 x16. В каждом сервере Google, рассчитанном на установку TPU, может устанавливаться четыре таких ускорителя, выполняющих операции с плавающей запятой.

Сам процессор имеет двухканальный контроллер памяти DDR3-2133 МГц и на его плате установлено 18 чипов DDR3 общим объёмом 8 Гбайт. Судя по количеству чипов, используется коррекция ошибок. Главной частью процессора является матрица, выполняющая операции умножения-сложения (multiply-accumulate). Размер этой матрицы составляет 256 × 256, работает она с 8-битными данными на частоте 700 МГц. Пиковая производительность при этом достигает почти 92 триллионов операций в секунду. Ничего удивительного, блоков MAC у TPU в 25 раз больше, нежели у современных GPU.

Имеется 4 Мбайт выделенной регистровой (accumulator) памяти и 24 Мбайт унифицированного буфера, это больше, чем у большинства графических процессоров; Google говорит о превосходстве в 3,5 раза. С внутренней пропускной способностью проблем нет. Пул результатов имеет доступ к буферу на скорости 167 Гбайт/с, тот связан с общим интерфейсом шиной 10 Гбайт/с. Производительность подсистемы памяти достигает 30 Гбайт/с, а с внешним миром сопроцессор общается на скорости, доступной интерфейсу PCIe 3.0 (8 гигатрансфер/с в каждом направлении).

C точки зрения программиста TPU очень прост и имеет всего 11 инструкций из которых 5 основных: read_host_memory, write_host_memory, read_weights, matrix_multiple/convolve и activate. Каждая инструкция выполняется не более, чем за 10 тактов, имеется четырёхстадийный параллельный конвейер, каждая стадия которого может выполнять независимо одну из инструкций. Пока блок матричного перемножения занят, процессор умеет выполнять другие инструкции. Ветвления отсутствуют, внеочередного исполнения нет, управление буферами и синхронизацией конвейера полностью прозрачно для программиста. Проблема с промежуточными обращениями в SRAM была решена методом «систолического исполнения».

Лучше всего этот процесс представлен на диаграмме, где потоки двигаются слева вниз, сначала происходят операции сложения, а потом аккумуляции. Архитектура такова, что задержки конвейера процессор может игнорировать. Впервые TPU появились в центрах обработки данных Google ещё в 2015 году, до Haswell и NVIDIA Tesla K80. В обоих случаях размер кристалла и уровень энергопотребления оказались меньше, нежели у конкурирующих решений. Компания признаёт, что основным лимитирующим производительность TPU фактором является пропускная способность памяти, а также считает, что обычные процессоры и GPU более универсальны и сбалансированы, но серьёзно уступают TPU в производительности. В новых версиях TPU память DDR3 уступит место более перспективной HBM, хотя исследования с GDDR5 показали хороший прирост производительности. Ситуация чем-то похожа на добычу биткоинов: сначала использовались универсальные ЦП, потом скорость удалось поднять за счёт параллелизма GPU, но узкоспециализированные ASIC, заточенные под одну задачу, превзошли все иные решения именно из-за своей простоты и экономичности.

Как именно Google использует TPU в машинном обучении, компания пока предпочитает хранить в тайне, что неудивительно — с 92 триллионами операций в секунду её решения просто не имеют достойных в плане производительности конкурентов. По крайней мере, пока. Да, точность вычислений невелика (int8), но для задач машинного обучения и натаскивания нейросетей этого в большинстве случаев вполне достаточно.

Постоянный URL: http://servernews.ru/957543
23.08.2017 [18:28], Геннадий Детинич

Microsoft Brainwave: решение задач ИИ в реальном времени

На конференции Hot Chips компания Microsoft раскрыла детали проекта «Brainwave». Слухи и даже некоторая официальная информация об этой разработке ходили давно. Речь идёт об аппаратной платформе для решения задач, связанных с искусственным интеллектом и глубоким машинным обучением. Для этого Microsoft выбрала программируемые матрицы компании Intel (Altera). На базе 14-нм матриц Intel Stratix 10 создан ускоритель, который обещает значительно изменить ландшафт услуг, связанных с интеллектуальной обработкой видео, распознаванием голоса, автопилотами и многими другими сферами, где важны скорость ответа.

Подчеркнём, в компании Microsoft не стали использовать фиксированные решения подобно Google TPU (Tensor Processing Units), NVIDIA Volta или Intel Lake Crest. Выбор был сделан в пользу FPGA-матриц с неизменным мощным процессорным ядром и программируемой областью, архитектуру которой можно менять по необходимости. Это позволяет перепрограммировать ускорители на новый тип данных или на новые алгоритмы обработки данных не меняя «железо» в составе серверов. На весь процесс уйдёт неделя без каких-либо дополнительных затрат на оборудование. В итоге, уверены в Microsoft, на старте можно проиграть конкурентам в пиковой производительности платформы, но в длительной перспективе её подход окажется более выгодным вложением средств.

Ускоритель Microsoft Brainwave

Ускоритель Microsoft Brainwave

Впрочем, проект Microsoft Brainwave интересен другим — это заявленная возможность обрабатывать запросы для ИИ в реальном масштабе времени. Альтернативные платформы для наиболее эффективной работы нейронных сетей требуют пакетной (накопительной) передачи данных. Платформа Microsoft Brainwave эффективно работает в потоковом режиме по мере поступления одиночных запросов и не требует сложной тренировки. Большую модель GRU (Gated Recurrent Unit) Microsoft Brainwave без пакетирования обрабатывает в пять раз быстрее, чем архитектура ResNet-50. Демонстрация опирается на собственный формат Microsoft ms-fp8, который не теряет точности для широкого спектра моделей. Полученная на ускорителе Stratix 10 устоявшаяся производительность достигает 39,5 терафлопс с временем запроса менее одной миллисекунды.

Матрица FPGA Intel Stratix 10

Матрица FPGA Intel Stratix 10

Сейчас специалисты Microsoft разворачивают системы ИИ на базе Brainwave для использования в облачном сервисе Azure. Системы помогут пользователям и партнёрам компании использовать сервис как для обработки запросов, так и для запуска своих моделей нейронных сетей для глубокого обучения, благо ускорители изначально спроектированы с учётом возможности последующей перенастройки.

Постоянный URL: http://servernews.ru/957451
17.05.2017 [22:37], Константин Ходаковский

Система обучения ИИ следующего поколения от Google невероятно быстра

Google представила второе поколение TPU (Tensor Processor Unit) — аппаратного обеспечения и программной экосистемы, которая лежит в основе самых амбициозных и далеко идущих технологий компании. Исполнительный директор Сандар Пичай (Sundar Pichai) рассказал о продукте во время ключевой презентации на ежегодной конференции разработчиков Google I/O.

Первое поколение TPU являлось специализированным чипом, созданным с прицелом на машинное обучение. Оно использовалось системой искусственного интеллекта AlphaGo в качестве основы для предсказания и принятия решений. Google также использует вычислительные возможности своих TPU каждый раз, когда кто-либо вбивает запрос в поисковую строку. Не так давно технология была использована для улучшения возможностей Google Translate, Google Photos и других служб при помощи машинного обучения.

Обычно подобные расчёты производятся при помощи графических ускорителей, отличающихся впечатляющими возможностями в области высокопараллельных вычислений. Например, Facebook использует карты NVIDIA в своих серверах Big Basin AI. Но Google приняла решение создать собственное аппаратное решение и оптимизировать под него своё ПО.

Поэтому оригинальный TPU создавался для оптимальной работы с Google TensorFlow, одной из многих открытых библиотек машинного обучения. Благодаря успехам Google из подразделений Brain и DeepMind, а также интеграции ПО с оборудованием TensorFlow стала одной из лидирующих платформ для создания ПО на базе ИИ.

Теперь Google сообщила, что второе поколение системы TPU уже полностью работоспособно и начало развёртываться в рамках платформы Google Compute Engine, которую другие компании и исследователи могут использовать по аналогии с Amazon AWS и Microsoft Azure. Google, разумеется, будет использовать систему и сама, но также продвигает TPU в качестве непревзойдённого ресурса, который могут использовать и другие заинтересованные компании.

Google разработала способ объединения множества TPU в серверные стойки TPU Pod, каждая из которых обеспечивает 11,5 Пфлопс вычислительных мощностей. Отдельные же TPU обладают впечатляющей мощью в 180 Тфлопс — разумеется, в том типе вычислений, которые сегодня наиболее часто применяются в технологиях машинного обучения.

Серверные стойки с ускорителями Tensor Processing Unit, которые используются для тренировки ИИ-систем и осуществления ими расчётов в реальном времени

Серверные стойки с ускорителями Tensor Processing Unit, которые используются для тренировки ИИ-систем и осуществления ими расчётов в реальном времени

Такая производительность даёт Google и её клиентам существенное преимущество и свободу экспериментирования в передовой области ИИ. Компания отмечает, что её новая крупномасштабная модель перевода на основе ИИ требует полной загруженности 32 самых мощных GPU в мире в течение суток, а одна восьмая стойки TPU Pod справляется с задачей всего за шесть часов.

Вдобавок второе поколение TPU позволяет серверам Google проводить одну и ту же работу как в режиме принятия решений, так и в режиме обучения. Оригинальный TPU мог только принимать решения в реальном времени на основе существующего алгоритма. Обучение же является собственно частью процесса разработки алгоритма.

Машинное обучение — процесс анализа искусственным интеллектом огромного массива данных, чтобы нейронная сеть могла решать задачи с использованием нечёткой логики так, как не может обычный алгоритм. Результатом, например, становится более качественные возможности перевода между языками или более человекоподобное поведение машины при игре в шахматы и так далее. В общем, системы обучения улучшают алгоритм ИИ на основе огромных массивов данных, так что если каждый эксперимент занимает не недели, а дни или даже часы, то возможности разработчиков ИИ принципиально улучшаются (при условии использования библиотеки TensorFlow, конечно).

Google также поддерживает тех разработчиков, которые готовы публиковать результаты своих исследований, в том числе исходные коды — в рамках программы TensorFlow Research Cloud, таким разработчикам будет бесплатно предоставляться доступ к кластеру из 1000 TPU.

Постоянный URL: http://servernews.ru/952393
Система Orphus