Материалы по тегу: глубинное обучение

22.11.2017 [13:00], Иван Грудцын

Суперкомпьютер Summit: подробности о будущем лидере рейтинга TOP500

В эти дни в Национальной лаборатории Ок-Ридж (Oak Ridge National Laboratory, ORNL), находящейся в американском штате Теннесси, кипит работа по вводу в строй суперкомпьютера Summit, расчётная производительность которого примерно в два раза выше, чем у нынешнего рекордсмена Sunway TaihuLight с пропиской в Китае. С показателем быстродействия около 200 Пфлопс Summit опережает в том числе и своего предшественника Titan (17,6 Тфлопс), базирующегося на процессорах Opteron 6274 и HPC-ускорителях Tesla K20X.

Основой Summit являются приблизительно 4600 серверных узлов IBM Power Systems AC922 «Newell». У Titan узлов в четыре раза больше (18 688 шт.), но на каждый приходится только по одному CPU и GPU. В свою очередь, у «строительного блока» Summit по два центральных и шесть графических процессоров. Узлы AC922, сочетающие в себе процессоры IBM POWER9 и HPC-ускорители NVIDIA Volta GV100 (Tesla V100), демонстрировались на недавней выставке-конференции SC17 в Денвере (штат Колорадо, США).

IBM Power Systems AC922 «Newell»

Узел IBM Power Systems AC922 «Newell»

IBM AC922 собираются в 2U-корпусах, где, кроме прочего, размещаются 16 модулей оперативной памяти DDR4-2666 общим объёмом 512 Гбайт (с возможностью расширения до 2 Тбайт), 1,6 Тбайт энергонезависимой буферной памяти для нужд основного хранилища (суммарно 250 Пбайт, интерфейс 2,5 Тбайт/с), два 2200-Вт блока питания с возможностью горячей замены и множественные узлы системы жидкостного охлаждения.

СЖО замысловатой конструкции призвана справиться с шестью 300-Вт GPU и парой 190-Вт CPU. Воздушное охлаждение для тех же целей было бы не таким дорогим, но эксплуатационные расходы в таком случае могли бы значительно вырасти. Пиковое энергопотребление суперкомпьютера ожидается на уровне 13 МВт (по другим данным — 15 МВт). По этому показателю ORNL Titan скромнее с его 9 МВт в условиях максимальной нагрузки. Система питания Summit проектируется с учётом возможного усиления суперкомпьютера дополнительными узлами. После гипотетического апгрейда предельное энергопотребление может достигать 20 МВт.

HPC-ускоритель NVIDIA на чипе Volta GV100 в форм-факторе SMX2

HPC-ускоритель NVIDIA на чипе Volta GV100 в форм-факторе SMX2

Согласно Tom’s Hardware, полностью собранный ORNL Summit займёт площадь двух баскетбольных площадок, то есть около 873 квадратных метров. Суммарная длина кабелей Summit составит 219 км. Прежде сообщалось, что суперкомпьютер будет готов к загрузке ресурсоёмкими научными задачами с января 2019 года. Теперь же речь идёт о его вводе в эксплуатацию в течение 2018 года. При этом, как указывает пресс-служба TOP500, Summit уже в июне возглавит обновлённый рейтинг мощнейших серверных систем, где, похоже, пропишется и NVIDIA DGX SaturnV второго поколения на 5280 ускорителях Tesla V100.

Директор Национальной лаборатории Ок-Ридж Томас Закария (Thomas Zacharia) в общении с представителями ресурса top500.org подчеркнул важность ввода в эксплуатацию такого производительного суперкомпьютера, как Summit:

«Один из наших коллективов разрабатывает алгоритм машинного обучения для Summit, чтобы помочь в выборе лучшего метода лечения рака у каждого конкретного пациента, — отметил г-н Закария. — Другая команда сегодня использует ресурсы Titan для проектирования и мониторинга реакторов на базе технологии управляемого термоядерного синтеза. Ещё одна группа специалистов использует машинное обучение, чтобы помочь классифицировать типы траекторий нейтрино, наблюдаемых в ходе различных экспериментов».

Томас Закария (Thomas Zacharia), фото knoxnews.com

Томас Закария (Thomas Zacharia), фото knoxnews.com

Впрочем, исключительно машинным обучением дело не ограничится. Директор лаборатории Ок-Ридж упомянул о таких вариантах использования Summit, как моделирование климата, решение задач из области релятивистской квантовой химии, вычислительной химии, астрофизики, физики плазмы и биофизики. Собственно, многие проекты уже запущены либо могут быть запущены на мощностях Titan, однако нехватка производительности является препятствием для углублённых исследований.

Комплекс зданий Национальной лаборатории Ок-Ридж

Комплекс зданий Национальной лаборатории Ок-Ридж

Длительная подготовка к запуску Summit объясняется не только необходимостью предварительного тестирования тысяч серверных узлов, но и задержкой со стороны IBM, которая пока не изготовила все заказанные ORNL процессоры POWER9. Со стороны NVIDIA, наоборот, задержек нет, ведь HPC-ускорители Tesla V100 поставляются клиентам уже не первый месяц.

«Сегодня Национальная лаборатория Ок-Ридж находится в завидном положении, — продолжил Томас Закария. — Мы располагаем уникальным опытом исследований в областях химии и физики материалов, нейтронной физики, ядерной физики, компьютерных наук и технических решений. Всё это в сочетании с талантом наших сотрудников позволяет решать проблемы и задачи, связанные с энергетикой, национальной безопасностью, производством и сетевой кибербезопасностью. Одна из наших основных целей заключается в том, чтобы стать ведущим исследовательским центром в мире. Это само по себе вдохновляет нас на новые свершения».

Постоянный URL: http://servernews.ru/961817
12.10.2017 [13:03], Валерий Косихин

GTC Europe 2017: библиотека NVIDIA TensoRT 3 ускоряет работу нейросетей в 18 раз по сравнению с универсальным решением

NVIDIA представила третью версию пакета TensorRT, который представляет собой набор высокопроизводительных библиотек, выполняющих операции вывода (inference) на основе сетей глубинного обучения, и инструмент оптимизации сетей. В число функций TensorRT входит модификация параметров узлов нейросети (веса, пороги активации), объединение слоев, настройка и многопоточное исполнение вычислительных ядер (kernels).

TensorRT 3 находится в статусе релиз-кандидата и доступен для скачивания на сайте NVIDIA. Программа совместима с ускорителями вычислений на основе архитектур Pascal и Volta и встраиваемыми компьютерами семейства Jetson. Использование TensorRT 3 обеспечивает 3,7-кратный прирост пропускной способности на платформе Tesla V100 (Volta) по сравнению с Tesla P100 (Pascal). Кроме того, решение NVIDIA обладает в 18 раз более высокой производительностью, нежели универсальная библиотека TensorFlow, запущенная на оборудовании NVIDIA.

По сравнению с центральными процессорами Tesla V100 под управлением TensorRT 3 в 40–140 раз ускоряет задачу опознания изображений и вдвое снижает латентность операций. Сервер NVIDIA HGX, оснащенный восемью ускорителями Tesla V100, обеспечивает быстродействие, сопоставимое со 160 центральными процессорами (NVIDIA не уточняет количество ядер CPU), потребляя 1/20 долю электроэнергии. Общая стоимость владения с учетом цены оборудования и электрической мощности отдает 10-кратное преимущество решению NVIDIA.

Постоянный URL: http://servernews.ru/959837
01.09.2017 [22:39], Алексей Степин

В обучении нейросетей достигнута производительность 15 петафлопс

Разработчики нейросетей и систем машинного обучения продолжают работы по усовершенствованию и ускорению соответствующих задач. Смешанная группа инженеров и учёных из Национальной лаборатории имени Лоуренса в Беркли, Стэнфордского университета и корпорации Intel впервые преодолела барьер 10 петафлопс при выполнении двух различных программ глубинного машинного обучения. Одна из них смогла показать рекордный результат — 15 петафлопс. Исследование проводилось с использованием суперкомпьютера Cori, установленного в министерстве энергетики США. Результаты эксперимента были опубликованы 17 августа и ознакомиться с ними можно по этой ссылке. В процессе вычислений использовалась математика одинарной точности — режима FP32 обычно достаточно с точки зрения достигаемой точности вычислений при обучении нейронных сетей. Иногда используются даже менее точные вычисления, такие, как FP16 или даже INT8.

Машинный зал Cori

Машинный зал Cori

В системе Cori, которая представляет собой Cray XC40, проблем с такой математикой нет: она состоит из 9688 процессоров Intel Xeon Phi 7250 серии Knights Landing. Пиковая производительность комплекса в режиме одинарной точности достигает 59 петафлопс, но из-за активного использования векторных инструкций (AVX), применяемых в матричной математике, тактовые частоты процессоров снизились с 1,4 до 1,2 ГГц, что понизило пиковую производительность до 50,6 петафлопс. Для тестовой задачи были использованы метеорологические данные общим объемом 15 Тбайт, полученные с помощью климатического симулятора. Именно при обработке этих моделей была достигнута пиковая производительность 15,07 петафлопс при устоявшейся 13,27 петафлопс. Задействовалось 9622 ядер Cori из 9688 физически имеющихся в системе. Показатели масштабируемости тоже впечатляют: 7205-кратное увеличение скорости вычислений было получено при переходе от 1 процессорного ядра к 9622. Второй тестовой задачей был обсчёт набора данных из области физики высоких энергий. Здесь скорости составили 11,73 и 11,41 петафлопс, соответственно, а масштабируемость достигла показателя 6173.

Некоторые полученные данные о масштабируемости задач

Некоторые полученные данные о масштабируемости задач

К сожалению, в тестовых задачах каждый из Xeon Phi смог выдать около 2 терафлопс из 6 возможных, но это практически предел для реальных приложений — как традиционных задач класса HPC, так и задач машинного обучения. Что касается точности, то итоговые показатели оказались неплохими: в задаче из области физики высоких энергий точность корректного распознавания сигналов составила 72 %, что существенно выше, нежели при применении традиционного анализа, при котором достигается точность порядка 42 %. К сожалению, численная оценка точности климатической задачи не производилась, но исследователи утверждают, что нейронная сеть отлично справилась с поиском, локализацией и идентификацией тропических циклонов, что было её главной целью. Исследователи намерены продолжать работы: планируется как оптимизация имеющихся алгоритмов машинного обучения, так и внедрение новых. В планах есть и применение систем с более низкой точностью обработки данных, поскольку это может позволить добиться ускорения процесса обучения нейросетей.

Постоянный URL: http://servernews.ru/957957
01.09.2017 [12:00], Алексей Степин

Первые сведения о процессоре машинного обучения Baidu

Мы продолжаем рассказывать нашим читателям о тенденциях в области аппаратного обеспечения для систем машинного обучения. Все уже знают, что такой гигант, как Google, вложил немалые средства в разработку так называемого «тензорного сопроцессора», о котором не так давно говорилось в одной из наших заметок. Но у Google есть конкурент, а точнее, параллельно работающий с ним гигант — компания Baidu, охватывающая огромный рынок КНР. Неудивительно, что она тоже ведёт исследования в аналогичных областях. Китай — не самая открытая страна, да и коммерческая тайна продолжает оставаться коммерческой тайной, но, тем не менее, кое-что про процессор Baidu под названием XPU стало известно.

Пока китайские разработчики отстают от своих американских коллег: в их распоряжении есть рабочее устройство, но собрано оно на основе больших микросхем программируемой логики (ПЛИС) производства Xilinx. Как показывает практика, это не самое энергоэффективное решение, хотя и более экономичное, нежели использование графических чипов или процессоров x86 общего назначения. По словам главы команды разработчиков, целью является создание универсального процессора, способного справляться с различными задачами и сценариями машинного обучения, и при этом не менее гибкого, нежели обычные ЦП. Пока приходится использовать ПЛИС, а их программирование — сложнейшая задача. Процессор XPU должен будет содержать массив блоков для специализированных вычислений — перемножения матриц, свёртки тензоров и прочих задач.

Этому массиву потребуется широкая шина памяти с высокой пропускной способностью и низкими задержками. Планируется использовать внешнюю DDR4 в связке с многослойной HBM, которая отлично показывает себя в ускорителях NVIDIA. В чипе будет также некоторое количество сверхбыстрой памяти SRAM. Число ядер должно достигнуть 256, а в целом архитектура XPU будет напоминать MIPS. Небольшие ядра обойдутся без кеша, а эффективность будет достигнута за счёт их специализации и параллельного использования. Частота работы всех 256 ядер составит 600 МГц. С системой синхронизации данных масштабируемость устройства будет выше, нежели без таковой.

К сожалению, хотя проект уже и существует в форме ПЛИС, компилятора к новому процессору Baidu пока нет. Код приходится писать на ассемблере, как это делалось раньше в мире x86, но задача значительно сложнее, поскольку приходится заниматься и разделением работы между ядрами, а также проверкой работоспособности в Linux. Пока рано говорить о производительности Baidu XPU, но сама идея выглядит неплохо, и к тому же у компании уже накоплен солидный опыт использования ПЛИС в своих центрах обработки данных. Вполне возможно, что уже подрастает достойный соперник Google TPU, причём, более универсальный.

Постоянный URL: http://servernews.ru/957895
31.08.2017 [06:40], Алексей Степин

Популярность машинного обучения влияет на эволюцию архитектуры процессоров

Процесс развития архитектур центральных процессоров подобен эволюционному. Их создают разработчики для соответствия той или иной эволюционной нише, требующей каких-либо специфических вычислений, наборов инструкций и тому подобное. Иногда эволюционные ниши схлопываются —  и вымирают целые семейства процессоров. В качестве примера можно привести Alpha. Сейчас основную нишу удерживают x86-совместимые решения, но о них чуть позже. В 2017 году уже ни у кого нет сомнений, что возникла новая экологическая ниша — специализированные процессоры для нейронных сетей и машинного обучения.

Google TPU

Google TPU

О таких решениях мы писали неоднократно. Здесь и Google Tensor Processing Unit, и разработка Fujitsu под названием DLU (Deep Learning Unit), и процессор Graphcore IPU (Intelligent Processing Unit), и многочисленные разработки и прототипы на базе ПЛИС компаний Altera и Xilinx, которыми интересуется всё больше крупных владельцев ЦОД по всему миру, например, Baidu. Да и графические чипы последних поколений отлично справляются с задачей создания и натаскивания нейросетей благодаря глубокой степени параллелизма, хотя делают они это не столь экономично, как специально созданные для этой цели решения. Смысл в том, что эволюционная ниша сформирована, и теперь в ней наблюдается типичная борьба за выживание: в графических чипах NVIDIA появляются специальные ядра для тензорных вычислений (в Volta V100 таких ядер 640).

Intel Knights Mill

Intel Knights Mill

Обычно эти ядра оперируют математикой с упрощённой точностью (32 и 16 бит с плавающей запятой, а иногда и целочисленными форматами вплоть до 8 битных). У AMD есть аналогичный продукт — ускорители серии Radeon Instinct. Но что самое интересное, эволюционная «мутация» закрепляется и в обычных, казалось бы, x86-совместимых процессорах — совсем недавно мы описывали читателям чипы Intel Knights Mill, в которых часть общей производительности принесена в угоду производительности на специализированных задачах машинного обучения. Кто победит в эволюционной гонке? Пока сказать трудно. Такие решения, как NVIDIA Volta и Radeon Instinct может ждать судьба динозавров — по соотношению энергопотребления к производительности в специальных задачах они проигрывают тому же Google TPU.

Fujitsu Deep Learning Unit

Fujitsu Deep Learning Unit

Роль протомлекопитающих в этом процессе, судя по всему, играют решения на базе ПЛИС, а королями нейронных сетей станут специализированные мощные процессоры, такие, как Google TPU. Но эволюция — процесс нелинейный, и ряд ниш вполне может найтись для решений, способных не только работать с системами машинного обучения. К тому же, сами системы обучения могут быть очень разными и требовать гибкости, к которой чипы типа ASIC не способны по определению. Может потребоваться и параллельное выполнение задач иного порядка, так что чипам вроде Intel Knights Mill тоже найдётся место на ветвистом дереве эволюции процессоров. Пока ясно одно —  «ген» машинного обучения поселился в современных процессорах надолго.

Постоянный URL: http://servernews.ru/957816
25.08.2017 [12:44], Алексей Степин

Intel проливает свет на архитектуру процессоров Knights Mill

Во времена, когда машинное обучение и технологии на базе нейросетей активно развиваются, прогрессирует и аппаратное обеспечение для этих сфер. Но каждый разработчик подходит к вопросу по-своему: производители графических процессоров полагаются на изначально массивный параллелизм своих разработок, такие компании как Google разрабатывают сравнительно простые чипы, всё в которых подчинено единственной задаче, выполняемой максимально быстро, ну а такие компании как Intel адаптируют существующие процессорные архитектуры. Так, недавно «синие» раскрыли некоторые секреты, касающиеся наследников серии Knights Landing — процессоров Knights Mill.

Конечно, компания исследует и другие направления, например, решения на базе FPGA Altera, а также разрабатывает сопроцессоры Lake Crest и Knights Crest, которые, скорее всего, будут напоминать Google TPU. Однако и наследник серии Knights Landing — чип Knights Mill — получит изменённую с учётом популярности технологий машинного обучения архитектуру. Основа останется прежней, но каждый модуль (VPU) получит вместо двух «больших» блоков FPU (32/64 бита) меньший блок вычислений с плавающей запятой и четыре блока Vector Neural Network Instruction (VNNI). Последние будут поддерживать операции с плавающей запятой одинарной точности, а также получат способность работать со смешанными целочисленными форматами (16 бит на входе, 32 на выходе). Похожие ядра есть в составе NVIDIA V100, но они поддерживают более традиционные форматы FP32/64.

Конечный результат можно предсказать довольно точно: Knights Mill будет вдвое уступать Knights Landing на операциях двойной точности, но вдвое же превосходить на операциях точности одинарной. А появление блоков VNNI с поддержкой целочисленных форматов может поднять производительность Knights Mill в четыре раза в задачах, связанных с глубинным машинным обучением. Таким образом, процессор получится более специализированным, но в своих областях специализации он превзойдёт предшественника весьма существенно. Чипы Knights Mill не будут страдать от нехватки ПСП, поскольку получат 16 Гбайт MCDRAM, дополняющий 6-канальный контроллер DDR4. Общее количество ядер останется прежним — 72, с учётом 256 операций на такт в блоках VPU, Knights Mill сможет продемонстрировать более 27 триллионов операций в секунду при частотах порядка 1,5 ГГц. Это меньше, нежели 92 триллиона операций у Google TPU, но решение Intel выглядит более универсальным и сбалансированным. Появится оно на рынке уже в четвёртом квартале этого года.

Постоянный URL: http://servernews.ru/957549
24.07.2017 [22:55], Алексей Степин

Fujitsu разрабатывает специализированный процессор для систем ИИ

Глубокое машинное обучение и системы искусственного интеллекта в наше время являются очень популярными направлениями. Но современные процессорные архитектуры для задач подобного рода подходят далеко не лучшим образом, поэтому всё больше и больше разработчиков микроэлектроники обращаются к альтернативным и специализированным дизайнам. В гонку за искусственным интеллектом включился и такой японский гигант как Fujitsu — компания объявила о том, что ведёт работы над созданием специализированного процессора. Проект носит кодовое имя DLU (Deep Learning Unit), что в полной мере раскрывает его предназначение. Основной целью проекта является достижение десятикратного преимущества над конкурирующими решениями по соотношению «производительность на ватт». В разработке DLU находится с 2015 года, но лишь в этом году стали известны некоторые подробности об архитектуре нового процессора Fujitsu.

Глава отдела разработок ИИ, Такуми Маруяма (Takumi Maruyama), отметил, что архитектура DLU активно использует вычисления со сравнительно низкой точностью, как это делают и многие другие чипы, предназначенные для глубокого машинного обучения. Это позволяет добиться оптимального соотношения производительности и потребляемой мощности. Чип DLU поддерживает форматы FP32, FP16 INT16 и INT8, и компания продемонстрировала, что даже целочисленные 8 и 16-битные форматы могут эффективно использоваться в ряде задач машинного обучения без серьёзных проблем, вызванных низкой точностью вычислений. Архитектура Fujitsu DLU спроектирована таким образом, чтобы быть полностью управляемой со стороны программного обеспечения. Процессор разбит на блоки DPU (Deep Learning Processing Units), их общее количество может быть разным, но каждый блок DPU состоит из 16 более простых блоков DPE (Deep Learning Processing Elements).

В свою очередь, каждый DPE состоит из восьми блоков исполнения SIMD-инструкций и большого набора регистров. Последний, в отличие от традиционных кешей, полностью управляем программно. В состав чипа также входит некоторый объём памяти HBM2, которая выступает в роли кеша, а также интерфейсы межпроцессорной шины Tofu. Последняя позволяет объединять массив DLU в единую сеть с развитой топологией. Структура этой сети приведена на слайде выше. Как обычно, специализированные процессоры, к числу которых относится и Fujitsu DLU, работают в тандеме с процессорами общего назначения. В данном случае компания планирует использование чипов с архитектурой SPARC, что неудивительно — именно Такуми Маруяма принимал самое активное участие в разработке этой архитектуры начиная с 1993 года. Первый выход DLU на рынок запланирован на 2018 год, именно в виде сопроцессора, но у Fujitsu имеются и планы по интеграции данной архитектуры в ЦП общего назначения с архитектурой SPARC. Соперниками новинки будут чипы Intel Lake Crest, ускорители Radeon Instinct, а также чипы NVIDIA. Последняя имеет неплохую фору в сфере машинного обучения и конкурировать с ней будет непросто.

Постоянный URL: http://servernews.ru/955927
25.02.2017 [11:30], Валерий Косихин

Intel предлагает полный стек ПО для машинного обучения искусственного интеллекта

На прошедшем недавно в Мюнхене мероприятии Intel AI Day компания обнародовала подробное описание своих программных продуктов, связанных с машинным обучением и искусственным интеллектом в целом. Портфолио ПО Intel образовано двумя сферами, одна из которых представляет накопление данных путем машинного обучения, а другая — доступ к данными и их обработку.

На низком уровне стека Intel предлагает проприетарный набор математических библиотек MKL (Math Kernel Library), в который входят вычислительные примитивы для глубинного обучения. Функции библиотек оптимизированы под собственную аппаратуру Intel — процессоры Xeon и укорители Xeon Phi, в частности, с использованием 512-битных расширений AVX. Стандартные API на языках C и Fortran позволяют легко интегрировать Intel MKL в готовые приложения.

С другой стороны, существует библиотека с открытым исходным кодом Intel MKL-DNN (Math Kernel Library for Deep Neural Networks), предназначенная специально для глубинного обучения, в которую разработчики могут включать сторонние функции, отсутствующие в Intel MKL. Другая библиотека Intel DAAL (Data Analytics Acceleration Library) состоит из аналитических функций, совместимых с популярным статистическим ПО и платформами обработки данных — Hadoop, Spark, R и пр.

Все библиотеки рассчитаны на работу с популярными фреймворками глубинного обучения, среди которых есть версии Caffe и Theano, оптимизированные для чипов Xeon. Помимо прочего, Intel внедрила в эти платформы возможности эффективного распределения нагрузки между множественными узлами в кластере. Фреймворк глубинного обучения Neon, разработанный фирмой Nervana (создателем кремния Lake Crest и Knights Crest), также перешел в распоряжение Intel и в будущем будет дополнен ПО Nervana Graph Complier — прослойкой для масштабирования и оптимизации в задачах тренировки нейросетей. Intel также владеет собственным вариантом Python — Neon работает именно на этом языке.

Существует и отдельная библиотека для коммуникации между узлами (Intel Deep Learning Multi-node Scaling Library), а в будущем компания собирается выпустить полный API для масштабирования глубинного обучения (Machine Learning Scaling Library — MLSL).

Наконец, Intel выпустила собственную среду для обучения и внедрения глубинных нейросетей в виде Intel Deep Learning SDK. Пакет включает графический интерфейс, с помощью которого исследователь или администратор сможет установить оптимизированные для архитектуры Intel фреймворки глубинного обучения, запустить и наблюдать за процессом тренировки сети. Кроме того, есть инструмент командной строки для импорта готовых моделей, созданных в различных фреймворках, и runtime-библиотека для применения нейросети (inference). SDK совместим с операционными системами Linux и macOS, однако inference поддерживается только в Linux.

Другой подход к искусственному интеллекту воплощает Natural Intelligence Platform, разработанная компанией Saffron, которая также теперь входит в состав Intel. В основе NIP лежит база данных, построенная по принципам, сходным с человеческой ассоциативной памятью. В привычных реляционных СУБД данные хранятся в виде таблиц «строка-колонка». В системе Saffron основным форматом представления данных является матрица, принадлежащая каждой отдельной сущности. Если речь идет о базе заказов предприятия, то сущностями могут быть компания, регион, контактное лицо, номер заказа и пр.

В матрице, в свою очередь, отражены отношения между другими сущностями: например, в матрице страны это отношения между номером заказа и контактным лицом. При этом матрица компании содержит отношения между страной и номером заказа, а в целом подобные матрицы исчерпывают все возможные комбинации сущностей. Благодаря такой структуре Saffron позволяет разворачивать легко масштабируемые и гибкие базы, в которых изначально заложены функции анализа данных и принятия решений. А в качестве сырого материала могут выступать как данные, собранные вручную, так и полученные методом машинного обучения.

Постоянный URL: http://servernews.ru/948008
20.11.2016 [09:55], Валерий Косихин

Intel анонсировала чипы Lake Crest и Knights Crest для ускорителей глубинного обучения

На прошедшем 17 ноября в Сан-Франциско мероприятии Intel AI Day были анонсированы продукты, которые войдут в портфолио решений Intel для ускорения высокопараллельных вычислений. В отличие от процессоров Knights Landing и грядущего Knights Mill, предварительный анонс которого состоялся на Intel Developer Forum в этом году, новые чипы воплощают логику, специализированную для глубинного обучения — класса алгоритмов машинного обучения, который использует глубокие графы признаков для моделирования высокоуровневых абстракций. Глубинное обучение интенсивно развивается как ведущий метод построения искусственного интеллекта и находит применение в таких областях, как машинное зрение и распознавание речи.

Глубинное обучение в данный момент является вотчиной графических процессоров, однако полупроводниковый гигант предлагает на замену GP-GPU узкоспециализированную архитектуру, которая сочетает опыт Intel в проектировании интегральных схем с инновациями компании Nervana, которая недавно вошла в состав Intel и дала свое имя аппаратной платформе для машинного обучения, включающей процессоры Xeon, ускорители Xeon Phi и FPGA компании Altera (поглощенной Intel в прошлом году).

Чипы Lake Crest и Knights Crest, которые в будущем дополнят платформу Nervana, подобно графическим процессорами и Xeon Phi, состоят из большого числа вычислительных ядер, но фундаментально отличаются от обоих по используемой ISA и формату данных. Если GPU и подобные устройства оперируют скалярными либо векторными величинами, то архитектура Lake Crest и Knights Crest пользуется тензорами — объектами, которые описывают преобразования элементов одного линейного пространства в другое и могут быть представлены как многомерные массивы чисел. Тензорная архитектура позволит новым ASIC с первого дня получить 10-кратное преимущество над ускорителями общего назначения.

Первые ревизии кремния Lake Crest будут получены уже в первой половине 2017 года. На базе этого чипа Intel планирует выпустить дискретный ускоритель, оснащенный памятью HBM2 и проприетарной высокоскоростной шиной для коммуникации между узлами. Впоследствии появится гибридный продукт Knights Crest, включающий CPU Xeon, на котором можно будет непосредственно загружать ОС. Пользуясь новой архитектурой, Intel планирует к 2020 году снизить расход времени на обучение нейросетей в 100 раз по сравнению с текущими стандартами.

Корреспондент ServerNews участвовал в Intel AI Day, и в ближайшие дни мы выпустим репортаж с мероприятия, где представим более подробную информацию об архитектуре Lake Crest и Knights Crest и платформе Nervana в целом.

Постоянный URL: http://servernews.ru/943018
15.11.2016 [15:09], Александр Будик

IBM и NVIDIA совместно занялись продвижением глубинного обучения

Два гиганта IT-индустрии, компании IBM и NVIDIA объединили свои усилия в создании набора инструментов, нацеленных на зарождающийся рынок искусственного интеллекта для корпоративного сегмента. Новый продукт включает решение NVIDIA PowerAI, а также аппаратную платформу IBM Power S822LC.

HPC-сервер IBM Power S822LC

HPC-сервер IBM Power S822LC

Первоначально глубинное обучение было прерогативой отдельных IT-компаний, таких как Google, Baidu, Microsoft. Но теперь AI-приложения всё чаще находят применение в традиционных предприятиях - в банках (например, для распознавания угроз в режиме реального времени), занимающихся производством автомобилей организациях (в системах автономного вождения), розничной торговле (для создания полностью автоматизированных сервисов поддержки с использованием чат-ботов). IBM одной из первых начала внедрение современных технологий искусственного интеллекта в бизнес-процессы предприятий, и технологии NVIDIA помогут развивать это направление, считают представители обеих компаний.

Современный высокопроизводительный GPU NVIDIA P100

Современный высокопроизводительный GPU NVIDIA P100

PowerAI включает большое количество популярных фреймворков для реализации глубинного обучения, в том числе, Caffe, Theano, Torch, NVCaffe, IBM-Caffe. Высокопроизводительный сервер IBM S822LC был представлен в сентябре. Этот компьютер оснащён двумя процессорами Power8 и поддерживает установку до четырёх ускорителей NVIDIA P100. В настоящее время этот сервер является единственным на рынке, который полностью интегрирует технологию NVIDIA NVLink (Power8 является единственным в мире процессором со встроенной поддержкой NVLink).

Как отметила компания IBM, S822LC пользуется популярностью, и вся партия оказалась распроданной к концу третьего квартала. Комплект PowerAI предлагается в качестве бесплатного бонуса к серверу.

Постоянный URL: http://servernews.ru/942738
Система Orphus