Материалы по тегу: процессоры

17.10.2017 [18:12], Алексей Степин

Intel отправила экспериментальный квантовый процессор европейскому партнёру

Не столь давно корпорация Intel совершила очередной шаг в деле освоения квантовых вычислений. Она выслала рабочий образец экспериментального 17-кубитного процессора европейскому партнёру QuTech. Эта исследовательская команда работает в старейшем и крупнейшем техническом университете Нидерландов, расположенном в городе Делфт. Сотрудничество с Делтфским техническим университетом длится уже 10 лет и вложено в него $50 миллионов. Первый квантовый процессор Intel должен помочь учёным в достижении новых вех в области квантовых вычислений.

Джим Кларк (Jim Clarke), глава отдела квантовых вычислений Intel держит в руках образец чипа

Джим Кларк (Jim Clarke), глава отдела квантовых вычислений Intel держит в руках образец чипа

17 кубитов по меркам квантовых процессоров это довольно много. Хотя D-Wave и хвасталась созданием 2048-кубитного чипа ещё в 2014 году, о связности всех кубитов речи не шло. А в настоящее время считается, что для превосходства квантовых вычислений над обычными в ряде задач соответствующие процессоры должны достичь связанности в районе 50 кубитов. То есть, по сути, Intel осталось повысить связность своего квантового процессора всего в три раза. Для сравнения, ранние образцы квантовых процессоров оперировали куда меньшим количеством кубитов  — от трёх до семи, что не позволяло выполнять на них сколько-нибудь серьёзные задачи, хотя сама возможность квантовых вычислений и была успешно доказана.

Так выглядел якобы 2048-кубитный процессор D-Wave

Так выглядел якобы 2048-кубитный процессор D-Wave

Квантовые вычисления любят тишину и холод  для нормальной работы кубитов требуется температура порядка 20 милликельвин. Это очень недалеко от абсолютного нуля. Новый чип имеет оптимизированную архитектуру, в нём существенно снижено взаимное влияние кубитов друг на друга в радиодиапазоне. В сравнении с решениями других исследователей, интерфейс чипа Intel позволяет использовать в 10‒100 раз больше сигналов. Скорее всего, «квантовое превосходство» будет достигнуто уже через пару лет, но по-настоящему мощные квантовые вычислительные системы пока являются делом отдалённого будущего, поскольку в них потребуется обеспечение связности тысяч или даже миллионов кубитов.

Постоянный URL: http://servernews.ru/960129
18.09.2017 [09:49], Алексей Степин

Cisco NPU: сетевой процессор с производительностью 400 Гбит/с

О проблемах и путях развития стандарта Ethernet мы совсем недавно рассказывали читателям. Как было упомянуто в заметке, одной из самых важных вех в процессе этого развития является создание сетевых процессоров с огромной агрегированной пропускной способностью. Об одном из таких процессоров мы поведаем сегодня. На конференции Hot Chips представитель компании Cisco Systems Джейме Маркевич (Jamie Markevitch) продемонстрировал безымянный, но уже поставляемый клиентам чип и рассказал о его особенностях. Это большая редкость — услышать подробности о корпоративных разработках такого уровня, исключением может послужить Mellanox и ещё пара компаний. К сожалению, самого интересного, а именно, снимков процессора для коммутаторов с пропускной способностью 6,5 Тбит/с показано не было, но интерес представляет и архитектура чипа, способного работать на скорости 400 Гбит/с.

Против ожидания, вся процессорная мощь NPU находится в правом кристалле

Против ожидания, вся процессорная мощь NPU находится в правом кристалле

Это не 16-нм ASIC под названием CloudScale, представленный Cisco в марте 2016 года, основанный на сигнальном стандарте 25G и применяемый в серии корневых коммутаторов Nexus 9500. Данная версия выпущена раньше и использует 22-нм техпроцесс, но, скорее всего, имеет схожую с CloudScale архитектуру. Данный NPU не является монолитным устройством с фиксированным количеством портов, он предназначен для построения модульных систем с несколькими такими сетевыми процессорами на борту, соединяемыми собственной шиной. Чип очень похож на начинку коммутаторов Nexus 9000, но в тех была использована ещё более старая 28-нм версия. Пока Intel рассуждает о гибридных процессорах, Cisco уже имеет решения с такой архитектурой в своём арсенале и выпускает их серийно. Описываемый кристалл состоит из 9,2 миллиардов транзисторов и имеет 672 процессорных ядра, каждое из которых способно выполнять до 4 потоков.

Общая архитектура и расположение функциональных блоков внутри NPU

Общая архитектура и расположение функциональных блоков внутри NPU

Объём памяти SRAM составляет внушительные 353 Мбайт. Это очень дорогая и быстрая память, в данном процессоре она играет роль кеша нулевого уровня, в котором хранятся как инструкции, так и данные для каждого потока (не ядра!). На каждый кластер из 16 ядер имеется и более привычный кеш L1. Каждое ядро имеет восьмистадийный неблокируемый конвейер, между потоками он переключается по алгоритму round-robin. Всего в чипе 42 16-ядерных кластера, они соединены с кешем инструкций L2, имеющим 4-уровневую ассоциативность. Он же служит межъядерной соединительной сетью, объединяющей все функциональные блоки процессора воедино. Внутренняя сеть работает на частоте 1 ГГц и обладает совокупной пропускной способностью более 9 Тбит/с. Имеется 276 интерфейсов типа SERDES для общения с внешним миром. Часть транзисторного бюджета, разумеется, задействована для реализации всяческих ускорителей, буферов и контроллеров интерфейсов.

NPU и его подсистемы памяти

NPU и его подсистемы памяти

Cisco не раскрывает деталей о том, какой набор инструкций используется в их сетевых процессорах. Это может быть что угодно, включая полностью уникальный набор, не похожий на существующие ARM, MIPS, POWER или x86. Ядра ориентированы на «работу до конца», это означает, что каждый поток, обрабатывающий пакет, отвечает за него в течение всего времени прохождения через NPU. Это исключает простаивание или «переброс пакетов» между ядрами. Различные типы пакетов требуют разных вычислений и имеют разные размеры, поэтому производительность процессорного массива в Cisco NPU непостоянна. Тем не менее, решение поддерживает традиционные пути программирования и может использовать языки C или ассемблер. Поскольку каждый пакет занимает свой поток, это означает одновременную обработку 2688 пакетов. Пакеты поступают из внешней памяти DRAM в массив SRAM, причём, ускорители могут обращаться к DRAM независимо от основного массива, который получает данные из SRAM.

Серия корневых коммутаторов Cisco Nexus 9000 использует описываемые в заметке NPU

Серия корневых коммутаторов Cisco Nexus 9000 использует описываемые в заметке NPU

Сетевой процессор Cisco, описанный в презентации, способен обрабатывать пакеты на скорости 800 Гбит/с, но более привычно говорить о 400 Гбит/с в полнодуплексном режиме. Интерфейс SERDES имеет совокупную пропускную способность порядка 6,5 Тбит/с. Большая часть линий используется для подключения DRAM и TCAM (Ternary Content Addressable Memory) — последняя являет собой некий гибрид SRAM и DRAM и обычно используется для хранения списков доступа (Access Control List, ACL). Большая часть функциональных блоков NPU работает на частоте 760 МГц или 1 ГГц, что на фоне современных ЦП общего назначения выглядит весьма скромно. Интерфейсы MAC поддерживают воплощение PHY практически любого типа со скоростями от 10 до 100 Гбит/с. В составе процессора имеется встроенный менеджер трафика, способный дирижировать 256 тысячами запросов за раз и выдерживать при этом нагрузку порядка половины триллиона объектов в секунду (в основном, пакетов).

В модели Nexus 9000 на снимке хорошо видны четыре NPU. Сверхмощное охлаждение не требуется

В модели Nexus 9000 на снимке хорошо видны четыре NPU. Сверхмощное охлаждение не требуется

Интегрированные блоки ускорителей предназначены для разгрузки процессора от обработки таких функций, как IPv4 и IPv6 prefix look ups, сжатия и хеширования диапазона IP-адресов, приоритизации пакетов и сбора статистики QoS. Внутри упаковки имеется также некоторое количество собственной памяти DRAM, и это хорошо видно на снимке процессора — причём, логика, против ожиданий, занимает меньший кристалл, а больший приходится именно на память. Подключается она с помощью 28 линий SERDES, работающих на скорости 12,5 Гбит/с, что вдвое медленнее продвигаемого сейчас стандарта 25, но совокупная производительность двух контроллеров памяти составляет порядка 37,5 Гбайт/с — не так уж мало, хотя современные ЦП умеют работать с памятью и быстрее. Интересно, что 22-нм техпроцесс используется не везде: с его применением произведён только сам процессор, а вот логика SERDES использует 28-нм, а DRAM и вовсе выпущена с применением 30-нм технологических норм. Приведённое описание даёт неплохое представление о возможностях NPU Cisco. Пусть это предыдущее поколение, но с учётом параметров чипа довольно легко представить, на что способны аналогичные процессоры нового поколения, выпущенные с использованием 16-нм техпроцесса.

Постоянный URL: http://servernews.ru/958639
01.09.2017 [12:00], Алексей Степин

Первые сведения о процессоре машинного обучения Baidu

Мы продолжаем рассказывать нашим читателям о тенденциях в области аппаратного обеспечения для систем машинного обучения. Все уже знают, что такой гигант, как Google, вложил немалые средства в разработку так называемого «тензорного сопроцессора», о котором не так давно говорилось в одной из наших заметок. Но у Google есть конкурент, а точнее, параллельно работающий с ним гигант — компания Baidu, охватывающая огромный рынок КНР. Неудивительно, что она тоже ведёт исследования в аналогичных областях. Китай — не самая открытая страна, да и коммерческая тайна продолжает оставаться коммерческой тайной, но, тем не менее, кое-что про процессор Baidu под названием XPU стало известно.

Пока китайские разработчики отстают от своих американских коллег: в их распоряжении есть рабочее устройство, но собрано оно на основе больших микросхем программируемой логики (ПЛИС) производства Xilinx. Как показывает практика, это не самое энергоэффективное решение, хотя и более экономичное, нежели использование графических чипов или процессоров x86 общего назначения. По словам главы команды разработчиков, целью является создание универсального процессора, способного справляться с различными задачами и сценариями машинного обучения, и при этом не менее гибкого, нежели обычные ЦП. Пока приходится использовать ПЛИС, а их программирование — сложнейшая задача. Процессор XPU должен будет содержать массив блоков для специализированных вычислений — перемножения матриц, свёртки тензоров и прочих задач.

Этому массиву потребуется широкая шина памяти с высокой пропускной способностью и низкими задержками. Планируется использовать внешнюю DDR4 в связке с многослойной HBM, которая отлично показывает себя в ускорителях NVIDIA. В чипе будет также некоторое количество сверхбыстрой памяти SRAM. Число ядер должно достигнуть 256, а в целом архитектура XPU будет напоминать MIPS. Небольшие ядра обойдутся без кеша, а эффективность будет достигнута за счёт их специализации и параллельного использования. Частота работы всех 256 ядер составит 600 МГц. С системой синхронизации данных масштабируемость устройства будет выше, нежели без таковой.

К сожалению, хотя проект уже и существует в форме ПЛИС, компилятора к новому процессору Baidu пока нет. Код приходится писать на ассемблере, как это делалось раньше в мире x86, но задача значительно сложнее, поскольку приходится заниматься и разделением работы между ядрами, а также проверкой работоспособности в Linux. Пока рано говорить о производительности Baidu XPU, но сама идея выглядит неплохо, и к тому же у компании уже накоплен солидный опыт использования ПЛИС в своих центрах обработки данных. Вполне возможно, что уже подрастает достойный соперник Google TPU, причём, более универсальный.

Постоянный URL: http://servernews.ru/957895
31.08.2017 [06:40], Алексей Степин

Популярность машинного обучения влияет на эволюцию архитектуры процессоров

Процесс развития архитектур центральных процессоров подобен эволюционному. Их создают разработчики для соответствия той или иной эволюционной нише, требующей каких-либо специфических вычислений, наборов инструкций и тому подобное. Иногда эволюционные ниши схлопываются —  и вымирают целые семейства процессоров. В качестве примера можно привести Alpha. Сейчас основную нишу удерживают x86-совместимые решения, но о них чуть позже. В 2017 году уже ни у кого нет сомнений, что возникла новая экологическая ниша — специализированные процессоры для нейронных сетей и машинного обучения.

Google TPU

Google TPU

О таких решениях мы писали неоднократно. Здесь и Google Tensor Processing Unit, и разработка Fujitsu под названием DLU (Deep Learning Unit), и процессор Graphcore IPU (Intelligent Processing Unit), и многочисленные разработки и прототипы на базе ПЛИС компаний Altera и Xilinx, которыми интересуется всё больше крупных владельцев ЦОД по всему миру, например, Baidu. Да и графические чипы последних поколений отлично справляются с задачей создания и натаскивания нейросетей благодаря глубокой степени параллелизма, хотя делают они это не столь экономично, как специально созданные для этой цели решения. Смысл в том, что эволюционная ниша сформирована, и теперь в ней наблюдается типичная борьба за выживание: в графических чипах NVIDIA появляются специальные ядра для тензорных вычислений (в Volta V100 таких ядер 640).

Intel Knights Mill

Intel Knights Mill

Обычно эти ядра оперируют математикой с упрощённой точностью (32 и 16 бит с плавающей запятой, а иногда и целочисленными форматами вплоть до 8 битных). У AMD есть аналогичный продукт — ускорители серии Radeon Instinct. Но что самое интересное, эволюционная «мутация» закрепляется и в обычных, казалось бы, x86-совместимых процессорах — совсем недавно мы описывали читателям чипы Intel Knights Mill, в которых часть общей производительности принесена в угоду производительности на специализированных задачах машинного обучения. Кто победит в эволюционной гонке? Пока сказать трудно. Такие решения, как NVIDIA Volta и Radeon Instinct может ждать судьба динозавров — по соотношению энергопотребления к производительности в специальных задачах они проигрывают тому же Google TPU.

Fujitsu Deep Learning Unit

Fujitsu Deep Learning Unit

Роль протомлекопитающих в этом процессе, судя по всему, играют решения на базе ПЛИС, а королями нейронных сетей станут специализированные мощные процессоры, такие, как Google TPU. Но эволюция — процесс нелинейный, и ряд ниш вполне может найтись для решений, способных не только работать с системами машинного обучения. К тому же, сами системы обучения могут быть очень разными и требовать гибкости, к которой чипы типа ASIC не способны по определению. Может потребоваться и параллельное выполнение задач иного порядка, так что чипам вроде Intel Knights Mill тоже найдётся место на ветвистом дереве эволюции процессоров. Пока ясно одно —  «ген» машинного обучения поселился в современных процессорах надолго.

Постоянный URL: http://servernews.ru/957816
25.08.2017 [12:44], Алексей Степин

Intel проливает свет на архитектуру процессоров Knights Mill

Во времена, когда машинное обучение и технологии на базе нейросетей активно развиваются, прогрессирует и аппаратное обеспечение для этих сфер. Но каждый разработчик подходит к вопросу по-своему: производители графических процессоров полагаются на изначально массивный параллелизм своих разработок, такие компании как Google разрабатывают сравнительно простые чипы, всё в которых подчинено единственной задаче, выполняемой максимально быстро, ну а такие компании как Intel адаптируют существующие процессорные архитектуры. Так, недавно «синие» раскрыли некоторые секреты, касающиеся наследников серии Knights Landing — процессоров Knights Mill.

Конечно, компания исследует и другие направления, например, решения на базе FPGA Altera, а также разрабатывает сопроцессоры Lake Crest и Knights Crest, которые, скорее всего, будут напоминать Google TPU. Однако и наследник серии Knights Landing — чип Knights Mill — получит изменённую с учётом популярности технологий машинного обучения архитектуру. Основа останется прежней, но каждый модуль (VPU) получит вместо двух «больших» блоков FPU (32/64 бита) меньший блок вычислений с плавающей запятой и четыре блока Vector Neural Network Instruction (VNNI). Последние будут поддерживать операции с плавающей запятой одинарной точности, а также получат способность работать со смешанными целочисленными форматами (16 бит на входе, 32 на выходе). Похожие ядра есть в составе NVIDIA V100, но они поддерживают более традиционные форматы FP32/64.

Конечный результат можно предсказать довольно точно: Knights Mill будет вдвое уступать Knights Landing на операциях двойной точности, но вдвое же превосходить на операциях точности одинарной. А появление блоков VNNI с поддержкой целочисленных форматов может поднять производительность Knights Mill в четыре раза в задачах, связанных с глубинным машинным обучением. Таким образом, процессор получится более специализированным, но в своих областях специализации он превзойдёт предшественника весьма существенно. Чипы Knights Mill не будут страдать от нехватки ПСП, поскольку получат 16 Гбайт MCDRAM, дополняющий 6-канальный контроллер DDR4. Общее количество ядер останется прежним — 72, с учётом 256 операций на такт в блоках VPU, Knights Mill сможет продемонстрировать более 27 триллионов операций в секунду при частотах порядка 1,5 ГГц. Это меньше, нежели 92 триллиона операций у Google TPU, но решение Intel выглядит более универсальным и сбалансированным. Появится оно на рынке уже в четвёртом квартале этого года.

Постоянный URL: http://servernews.ru/957549
25.08.2017 [12:18], Алексей Степин

Подробности о тензорном сопроцессоре Google TPU

Не столь давно мы рассказывали о том, что в гонке решений, призванных ускорить работу нейросетей и оптимизировать процесс машинного обучения, компания Google принимает самое непосредственное участие с чипом собственной разработки с незамысловатым названием TPU (Tensor Processor Unit). Генеральный директор компании Сундар Пичаи (Sundar Pichai) тогда заявил, что эти процессоры на порядок эффективнее менее специализированных решений, таких, как FPGA или GPU.

Архитектура и особенности Google TPU хранились в строжайшем секрете, но теперь мы, наконец, можем узнать об этих ускорителях много нового. Сама плата ускорителя выполнена в нестандартном форм-факторе, она имеет разъём, похожий на M.2, но на самом деле диаграммы указывают на использование интерфейса PCI Express 3.0 x16. В каждом сервере Google, рассчитанном на установку TPU, может устанавливаться четыре таких ускорителя, выполняющих операции с плавающей запятой.

Сам процессор имеет двухканальный контроллер памяти DDR3-2133 МГц и на его плате установлено 18 чипов DDR3 общим объёмом 8 Гбайт. Судя по количеству чипов, используется коррекция ошибок. Главной частью процессора является матрица, выполняющая операции умножения-сложения (multiply-accumulate). Размер этой матрицы составляет 256 × 256, работает она с 8-битными данными на частоте 700 МГц. Пиковая производительность при этом достигает почти 92 триллионов операций в секунду. Ничего удивительного, блоков MAC у TPU в 25 раз больше, нежели у современных GPU.

Имеется 4 Мбайт выделенной регистровой (accumulator) памяти и 24 Мбайт унифицированного буфера, это больше, чем у большинства графических процессоров; Google говорит о превосходстве в 3,5 раза. С внутренней пропускной способностью проблем нет. Пул результатов имеет доступ к буферу на скорости 167 Гбайт/с, тот связан с общим интерфейсом шиной 10 Гбайт/с. Производительность подсистемы памяти достигает 30 Гбайт/с, а с внешним миром сопроцессор общается на скорости, доступной интерфейсу PCIe 3.0 (8 гигатрансфер/с в каждом направлении).

C точки зрения программиста TPU очень прост и имеет всего 11 инструкций из которых 5 основных: read_host_memory, write_host_memory, read_weights, matrix_multiple/convolve и activate. Каждая инструкция выполняется не более, чем за 10 тактов, имеется четырёхстадийный параллельный конвейер, каждая стадия которого может выполнять независимо одну из инструкций. Пока блок матричного перемножения занят, процессор умеет выполнять другие инструкции. Ветвления отсутствуют, внеочередного исполнения нет, управление буферами и синхронизацией конвейера полностью прозрачно для программиста. Проблема с промежуточными обращениями в SRAM была решена методом «систолического исполнения».

Лучше всего этот процесс представлен на диаграмме, где потоки двигаются слева вниз, сначала происходят операции сложения, а потом аккумуляции. Архитектура такова, что задержки конвейера процессор может игнорировать. Впервые TPU появились в центрах обработки данных Google ещё в 2015 году, до Haswell и NVIDIA Tesla K80. В обоих случаях размер кристалла и уровень энергопотребления оказались меньше, нежели у конкурирующих решений. Компания признаёт, что основным лимитирующим производительность TPU фактором является пропускная способность памяти, а также считает, что обычные процессоры и GPU более универсальны и сбалансированы, но серьёзно уступают TPU в производительности. В новых версиях TPU память DDR3 уступит место более перспективной HBM, хотя исследования с GDDR5 показали хороший прирост производительности. Ситуация чем-то похожа на добычу биткоинов: сначала использовались универсальные ЦП, потом скорость удалось поднять за счёт параллелизма GPU, но узкоспециализированные ASIC, заточенные под одну задачу, превзошли все иные решения именно из-за своей простоты и экономичности.

Как именно Google использует TPU в машинном обучении, компания пока предпочитает хранить в тайне, что неудивительно — с 92 триллионами операций в секунду её решения просто не имеют достойных в плане производительности конкурентов. По крайней мере, пока. Да, точность вычислений невелика (int8), но для задач машинного обучения и натаскивания нейросетей этого в большинстве случаев вполне достаточно.

Постоянный URL: http://servernews.ru/957543
21.08.2017 [07:55], Алексей Степин

AMD EPYC наступает: новое видео демонстрирует преимущество в STREAM и Fluent

Долгое время о компании AMD было ничего не слышно в серверном сегменте: имевшиеся в распоряжении «красных» процессоры Opteron уступали конкурирующим решениям «синих», да и разработчики кластерных систем класса HPC предпочитали проверенные временем процессоры. Но с появлением EPYC всё пошло иначе: «красные» активно напирают именно в серверном сегменте, и на этом фронте у них есть заметные успехи. Не столь давно AMD опубликовала видеоролик, в котором система на базе чипов EPYC опередила аналогичную по классу систему с процессорами Intel Xeon v4 (Broadwell-EP) в тестах STREAM и ANSYS Fluent.

Платформа «красных» была оснащена двумя 32-ядерными чипами EPYC 7601 (32C/64T, 2,2/2,7 ГГц, 64 Мбайт L3), а соперник выставил двухпроцессорную систему на базе Intel Xeon E5-2699 v4 (22C/44T, 2,2/3,6 ГГц, 55 Мбайт L3). Назвать их равными определённо нельзя, если опираться только на количество ядер — здесь у AMD преимущество. Но надо учесть, что в целом, удельная производительность на ядро выше именно у Intel. Несмотря на архитектуру MCM, в тесте STREAM AMD победила с разгромным счётом: 266 Гбайт/с против 116 Гбайт/с; AMD заявила, что данный тест является неплохой оценкой производительности для систем, работающих с задачами класса HPC.

Грамотное использование Infinity Fabric сводит на нет все недостатки компоновки МСМ

Грамотное использование Infinity Fabric сводит на нет все недостатки компоновки МСМ

В симуляторе поведения жидкостей и газов Fluent «красные» также опередили «синих», выигрыш составил примерно 78 %. В задаче обсчитывалось поведение 14 миллионов частиц при различных аэродинамических эффектах, возникающих в полёте реактивного лайнера. Здесь сыграли свою роль как более высокая пропускная способность подсистемы памяти, так и «чистое» количество ядер. По словам Скотта Эйлора (Scott Aylor), главы отдела бизнес-решений AMD, компания не просто вернулась в сектор HPC с одним продуктом, она намеревается остаться там надолго и предложить своим клиентам уверенность в будущем: по мере развития серии EPYC партнёры AMD могут быть уверены: их не бросят наедине с несовместимой ни с чем платформой, а предложат планомерное обновление до более высокого уровня производительности.

Постоянный URL: http://servernews.ru/957223
18.08.2017 [18:25], Сергей Карасёв

Intel раскрыла характеристики процессоров Atom C3000

Корпорация Intel опубликовала на своём сайте информацию о технических характеристиках процессоров Atom C3000, пробные поставки которых были начаты в феврале нынешнего года.

Чипы рассчитаны на использование в серверном и сетевом оборудовании, массивах хранения данных и устройствах Интернета вещей. Изделия производятся с применением 14-нанометровой технологии. Заявлена поддержка оперативной памяти DDR4 ECC ёмкостью до 256 Гбайт, до четырёх портов 10Gb Ethernet, интерфейсов USB 3.0 и Serial ATA 3.0.

Говорится о реализации технологии Intel QuickAssist (Intel QAT), которая позволяет ускорить выполнение ресурсоемких вычислительных операций. Система оптимизирует производительность платформ и приложений. Технология позволяет использовать симметричное шифрование и аутентификацию, асимметричное шифрование, цифровые подписи, RSA, DH, ECC и сжатие данных без потерь.

На сегодняшний день в семейство Atom C3000 входят пятнадцать процессоров. Они насчитывают от двух до шестнадцати вычислительных ядер. Тактовая частота варьируется от 1,5 до 2,2 ГГц, максимальное значение рассеиваемой тепловой энергии — от 8,5 до 32 Вт.

Среди прочего стоит выделить поддержку средств виртуализации Intel Virtualization Technology (Intel VT). Диапазон рабочих температур для семейства Atom C3000 простирается от минус 40 до плюс 85 градусов Цельсия. 

Постоянный URL: http://servernews.ru/957182
12.08.2017 [22:00], Алексей Степин

Новые продукты Broadcom: адаптеры NVMe over FC и сетевые процессоры с поддержкой 100G

Вычислительные мощности постоянно растут, и вместе с ними растут требования к сетевой инфраструктуре. Если для домашнего пользователя стандартом давно стал проводной Gigabit Ethernet, который в последнее время активно теснит распространение беспроводных устройств формата 802.11ac, то в серверных и кластерных системах, а также суперкомпьютерах остро стоит вопрос производительности сетевой среды. Скоростями в районе 10‒40 Гбит/с уже никого не удивишь, и индустрия активно осваивает новые стандарты, такие, как 100G. Компания Broadcom, известная в числе прочего и своими сетевыми процессорами, представила новое поколение чипов с поддержкой скорости 100 Гбит/с.

Новые чипы серии Smart NIC NetXtreme BCM588xx являются первыми в мире полностью программируемыми сетевыми процессорами с поддержкой стандарта 100G. В их основе лежит кластер из 8 ядер ARMv8 (Cortex-A72) с частотой 3 ГГц, оптимизированный с учётом использования в сценариях типа NVMe over Fabric. Чипы производятся с использованием 16-нм техпроцесса FinFET+ и поддерживают интерфейс PCI Express 3.0. Также в них интегрирован трёхканальный контроллер памяти DDR4 — опция, абсолютно необходимая при построении эффективных сетей с такими скоростями. Имеется криптографический движок с производительностью 90 Гбит/с и средства разгрузки при работе с массивами RAID. В настоящее время Broadcom уже поставляет образцы новых сетевых платформ как в виде платы расширения PCIe 3.0 формата HHHL (BCM58802), так и в виде платы формата ATX (BCM58808). Полностью с характеристиками нового семейства можно ознакомиться на сайте компании-разработчика.

Адаптер Emulex Fibre Channel шестого поколения (3,2 Гбайт/с)

Адаптер Emulex Fibre Channel шестого поколения (3,2 Гбайт/с)

Также Broadcom анонсировала новые решения класса NVMe over Fibre Channel — эта физическая среда часто используется для подключения вычислительных узлов к системам хранения данных, и полноценная поддержка набирающего популярность протокола NVMe приходится тут как нельзя более кстати. Этот протокол оптимизирован с учётом особенности твердотельных накопителей, которые в последнее время активно вытесняют традиционные механические жёсткие диски из СХД, особенно там, где требуется высокая производительность на случайных операциях. Новые адаптеры, выпускаемые под брендом Emulex, прошли квалификационное тестирование на соответствие стандарту NVMe over FC (Gen 6, 3,2 Гбайт/с) и совместимость с продуктами других производителей, в частности, коммутаторами Brocade X6 Director, G620 и серией Cisco MDS 9000.

Постоянный URL: http://servernews.ru/956875
26.07.2017 [13:02], Сергей Карасёв

Новые процессоры Intel Atom нацелены на коммуникационное и сетевое оборудование

Корпорация Intel пополнила семейство процессоров Atom моделями C2316 и C2516 поколения Rangeley, которые предназначены для использования в сетевых и коммуникационных устройствах.

Модель Atom C2316 наделена двумя вычислительными ядрами Silvermont с тактовой частотой 1,5 ГГц и 1 Мбайт кеш-памяти второго уровня. Максимальное значение рассеиваемой тепловой энергии (TDP) составляет 7 Вт.

Чип Atom C2516, в свою очередь, содержит четыре вычислительных ядра с тактовой частотой 1,4 ГГц. Объём кеша второго уровня равен 2 Мбайт. Изделие характеризуется показателем TDP в 10 Вт.

Процессоры могут работать с памятью DDR3-1333. Технологии Hyper-Threading и Turbo Boost не поддерживаются. Среди доступных интерфейсов можно упомянуть PCI-Express 2.0, USB 2.0, SATA 3.0 и Gigabit Ethernet.

Процессоры выпускаются в упаковке типа BGA. Цена изделий Atom C2316 и Atom C2516 составляет соответственно 39 и 64 доллара США. 

Постоянный URL: http://servernews.ru/956014