Первые сведения о процессоре машинного обучения Baidu

 

Мы продолжаем рассказывать нашим читателям о тенденциях в области аппаратного обеспечения для систем машинного обучения. Все уже знают, что такой гигант, как Google, вложил немалые средства в разработку так называемого «тензорного сопроцессора», о котором не так давно говорилось в одной из наших заметок. Но у Google есть конкурент, а точнее, параллельно работающий с ним гигант — компания Baidu, охватывающая огромный рынок КНР. Неудивительно, что она тоже ведёт исследования в аналогичных областях. Китай — не самая открытая страна, да и коммерческая тайна продолжает оставаться коммерческой тайной, но, тем не менее, кое-что про процессор Baidu под названием XPU стало известно.

Пока китайские разработчики отстают от своих американских коллег: в их распоряжении есть рабочее устройство, но собрано оно на основе больших микросхем программируемой логики (ПЛИС) производства Xilinx. Как показывает практика, это не самое энергоэффективное решение, хотя и более экономичное, нежели использование графических чипов или процессоров x86 общего назначения. По словам главы команды разработчиков, целью является создание универсального процессора, способного справляться с различными задачами и сценариями машинного обучения, и при этом не менее гибкого, нежели обычные ЦП. Пока приходится использовать ПЛИС, а их программирование — сложнейшая задача. Процессор XPU должен будет содержать массив блоков для специализированных вычислений — перемножения матриц, свёртки тензоров и прочих задач.

Этому массиву потребуется широкая шина памяти с высокой пропускной способностью и низкими задержками. Планируется использовать внешнюю DDR4 в связке с многослойной HBM, которая отлично показывает себя в ускорителях NVIDIA. В чипе будет также некоторое количество сверхбыстрой памяти SRAM. Число ядер должно достигнуть 256, а в целом архитектура XPU будет напоминать MIPS. Небольшие ядра обойдутся без кеша, а эффективность будет достигнута за счёт их специализации и параллельного использования. Частота работы всех 256 ядер составит 600 МГц. С системой синхронизации данных масштабируемость устройства будет выше, нежели без таковой.

К сожалению, хотя проект уже и существует в форме ПЛИС, компилятора к новому процессору Baidu пока нет. Код приходится писать на ассемблере, как это делалось раньше в мире x86, но задача значительно сложнее, поскольку приходится заниматься и разделением работы между ядрами, а также проверкой работоспособности в Linux. Пока рано говорить о производительности Baidu XPU, но сама идея выглядит неплохо, и к тому же у компании уже накоплен солидный опыт использования ПЛИС в своих центрах обработки данных. Вполне возможно, что уже подрастает достойный соперник Google TPU, причём, более универсальный.

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER.

Источник:

Постоянный URL: https://servernews.ru/957895
Поделиться:  

Комментарии

Система Orphus