Материалы по тегу: архитектура

16.11.2020 [20:44], Алексей Степин

Подробности об архитектуре AMD CDNA ускорителей Instinct MI100

Лидером в области использования графических архитектур для вычислений долгое время была NVIDIA, однако давний соперник в лице AMD вовсе не собирается сдавать свои позиции. В ответ на анонс архитектуры Ampere и ускорителей нового поколения A100 на её основе компания AMD сегодня ответила своим анонсом первого в мире ускорителя на основе архитектуры CDNA — сверхмощного процессора Instinct MI100.

Достаточно долго подход к проектированию графических чипов оставался унифицированным, однако быстро выяснилось, что то, что хорошо для игр, далеко не всегда хорошо для вычислений, а некоторые возможности для областей применения, не связанных с рендерингом 3D-графики, попросту избыточны. Примером могут служить модули растровых операций (RBE/ROP) или наложения текстур. Произошло то, что должно было произойти: слившиеся на какое-то время воедино ветви эволюции «графических» и «вычислительных» процессоров вновь начали расходиться. И новый процессор AMD Instinct MI100 относится к чисто вычислительной ветви развития подобного рода чипов.

Теперь AMD имеет в своём распоряжении две основных архитектуры, RDNA и CDNA, которые и представляют собой вышеупомянутые ветви развития GPU. Естественно, новый процессор Instinct MI100 унаследовал у своих собратьев по эволюции многое — в частности, блоки исполнения скалярных и векторных инструкций: в конце концов, всё равно, работают ли они для расчёта графики или для вычисления чего-либо иного. Однако новинка содержит и ряд отличий, позволяющих ей претендовать на звание самого мощного и универсального в мире ускорителя на базе GPU.

Схема эволюции графических процессоров: налицо дивергенция признаков

Схема эволюции графических процессоров: налицо дивергенция признаков

AMD в последние годы существенно укрепила свои позиции, и это отражается в создании собственной единой IP-инфраструктуры: новый чип выполнен с использованием 7-нм техпроцесса и все системы интерконнекта, как внутренние, так и внешние, в MI100 базируются на шине AMD Infinity второго поколения. Внешние каналы имеют ширину 16 бит и оперируют на скорости 23 Гт/с, однако если в предыдущих моделях Instinct их было максимум два, то теперь количество каналов Infinity Fabric увеличено до трёх. Это позволяет легко организовывать системы на базе четырёх MI100 с организацией межпроцессорного общения по схеме «все со всеми», что минимизирует задержки.

Ускорители Instinct MI100 получили третий канал Infinity Fabric

Ускорители Instinct MI100 получили третий канал Infinity Fabric

Общую организацию внутренней архитектуры процессор MI100 унаследовал ещё от архитектуры GCN; его основу составляют 120 вычислительных блоков (compute units, CU). При принятой AMD схеме «64 шейдерных блока на 1 CU» это позволяет говорить о 7680 процессорах. Однако на уровне вычислительного блока архитектура существенно переработана, чтобы лучше отвечать требованиям, предъявляемым современному вычислительному ускорителю.

В дополнение к стандартным блокам исполнения скалярных и векторных инструкций добавился новый модуль матричной математики, так называемый Matrix Core Engine, но из кремния MI100 удалены все блоки фиксированных функций: растеризации, тесселяции, графических кешей и, конечно, дисплейного вывода. Универсальный движок кодирования-декодирования видеоформатов, однако, сохранён — он достаточно часто используется в вычислительных нагрузках, связанных с обработкой мультимедийных данных.

Структурная схема вычислительных модулей в MI100

Каждый CU содержит в себе по одному блоку скалярных инструкций со своим регистровым файлом и кешем данных, и по четыре блока векторных инструкций, оптимизированных для вычислений в формате FP32 саналогичными блоками. Векторные модули имеют ширину 16 потоков и обрабатывают 64 потока (т.н. wavefront в терминологии AMD) за четыре такта. Но самое главное в архитектуре нового процессора — это новые блоки матричных операций.

Наличие Matrix Core Engines позволяет MI100 работать с новым типом инструкций — MFMA (Matrix Fused Multiply-Add). Операции над матрицами размера KxN могут содержать смешанные типы входных данных: поддерживаются режимы INT4, INT8, FP16, FP32, а также новый тип Bfloat16 (bf16); результат, однако, выводится только в форматах INT32 или FP32. Поддержка столь многих типов данных введена для универсальности и MI100 сможет показать высокую эффективность в вычислительных сценариях разного рода.

Использование Infinity Fabric 2.0 позволило ещё более увеличить производительность MI100

Использование Infinity Fabric 2.0 позволило ещё более увеличить производительность MI100

Каждый блок CU имеет свой планировщик, блок ветвления, 16 модулей load-store, а также кеши L1 и Data Share объёмами 16 и 64 Кбайт соответственно. А вот кеш второго уровня общий для всего чипа, он имеет ассоциативность 16 и объём 8 Мбайт. Совокупная пропускная способность L2-кеша достигает 6 Тбайт/с.

Более серьёзные объёмы данных уже ложатся на подсистему внешней памяти. В MI100 это HBM2 — новый процессор поддерживает установку четырёх или восьми сборок HBM2, работающих на скорости 2,4 Гт/с. Общая пропускная способность подсистемы памяти может достигать 1,23 Тбайт/с, что на 20% быстрее, нежели у предыдущих вычислительных ускорителей AMD. Память имеет объём 32 Гбайт и поддерживает коррекцию ошибок.

Общая блок-схема Instinct MI100

«Мозг» чипа Instinct MI100 составляют четыре командных процессора (ACE на блок-схеме). Их задача — принять поток команд от API и распределить рабочие задания по отдельным вычислительным модулям. Для подключения к хост-процессору системы в составе MI100 имеется контроллер PCI Express 4.0, что даёт пропускную способность на уровне 32 Гбайт/с в каждом направлении. Таким образом, «уютнее всего» ускоритель Instinct MI100 будет чувствовать себя совместно с ЦП AMD EPYC второго поколения, либо в системах на базе IBM POWER9/10.

Избавление от лишних архитектурных блоков и оптимизация архитектуры под вычисления в как можно более широком числе форматов позволяют Instinct MI100 претендовать на универсальность. Ускорители с подобными возможностями, как справедливо считает AMD, станут важным строительным блоком в экосистеме HPC-машин нового поколения, относящихся к экзафлопсному классу. AMD заявляет о том, что это первый ускоритель, способный развить более 10 Тфлопс в режиме двойной точности FP64 — пиковый показатель составляет 11,5 Тфлопс.

Удельные и пиковые показатели производительности MI100

Удельные и пиковые показатели производительности MI100

В менее точных форматах новинка пропорционально быстрее, и особенно хорошо ей даются именно матричные вычисления: для FP32 производительность достигает 46,1 Тфлопс, а в новом, оптимизированном под задачи машинного обучения bf16 — и вовсе 92,3 Тфлопс, причём, ускорители Instinct предыдущего поколения таких вычислений выполнять вообще не могут. В зависимости от типов данных, превосходство MI100 перед MI50 варьируется от 1,74х до 6,97x. Впрочем, NVIDIA A100 в этих задача всё равно заметно быстрее, а вот в FP64/FP32 проигрывают.

Постоянный URL: http://servernews.ru/1025502
13.01.2020 [21:33], Алексей Степин

2020 год станет годом разнообразия на рынке супервычислений

Довольно долго рынок супервычислений был скучным местом, если рассматривать его с точки зрения разнообразия вычислительных архитектур. Доминирующей стала x86-64, и практически всегда речь шла о процессорах Intel Xeon, «дополненных» в последние годы ускорителями NVIDIA. 

Однако ушедший год показал, что ситуация меняется и разнообразие нарастает: к Intel присоединилась AMD, появились производительные чипы на базе архитектуры ARM, не собирается сдаваться OpenPOWER. В 2020 году эти тенденции по мнению зарубежных аналитиков лишь укрепятся.

Подавляющее большинство систем класса HPC всё ещё использует процессоры Intel Xeon и ускорители NVIDIA, но 2020 год обещает стать настоящим годом перемен. Во-первых, производители суперкомпьютеров проявляют очень живой интерес ко второму поколению AMD EPYC (Rome), как обеспечивающему великолепное соотношение цены и производительности. Именно в этом году войдёт в строй ряд новых машин на базе AMD Rome в разных странах, от Великобритании до Финляндии или Люксембурга. Впервые за достаточно долгий период времени Intel придётся защищаться. Насколько успешной окажется эта защита в лице новых Xeon Cooper Lake (14 нм) и Ice Lake (10 нм), покажет время.

Во-вторых, нарастает давление со стороны архитектуры ARM. Она хотя и не обеспечивает серьёзных технических преимуществ перед x86 или POWER, является лицензируемой, что позволит создавать множество вариантов процессоров под конкретные задачи, но объединены они будут единой программной экосистемой. Жизнеспособность ARM на рынке HPC должен доказать японский проект Fugaku с проектной мощностью 400 Пфлопс, базирующийся на процессорах Fujitsu A64FX.

Также ожидается, что конкуренцию AMD Rome может составить и новый 7-нм процессор Marvell ThunderX3. Аналитики полагают, что поставки процессоров с архитектурой ARM для рынка HPC возрастут с 50 тысяч единиц в прошлом году до 233 тысяч в этом, 2020 году, а к 2024 году превысят 610 тысяч.

В секторе POWER пока остаётся один игрок, это по-прежнему IBM, несмотря на все усилия консорциума OpenPOWER. Хотя компания и готовит к выпуску процессоры POWER10, но, по всей видимости, они увидят свет только в 2021 году. Тем не менее, европейская лаборатория открытых архитектур (LOCA) выбрала OpenPOWER в качестве одной из трёх архитектур для создания высокопроизводительных процессоров. Двумя другими архитектурами, напомним, являются RISC-V и MIPS.

А вот в сегменте вычислительных ускорителей наблюдается настоящий бум разнообразия: здесь и различные китайские разработки вроде Sugon DCU и Matrix-3000, и самые разнообразные ИИ-ускорители, как, например, Intel Nervana, и решения на базе ПЛИС последнего поколения Intel и Xilinx.

Главной ускорительной платформой пока останутся потомки графических процессоров, но NVIDIA может быть потеснена на этом рынке AMD c её ускорителями Radeon Instinct. Характеристики у них весьма серьёзные: старшая модель MI60 развивает 7,4 Тфлопс на 64-битных вычислениях с плавающей запятой, несёт на борту 32 Гбайт быстрой памяти HBM2 и использует систему межсоединений Infinity Fabric со скоростью 200 Гбайт/с. Возможности Infinity Fabric будут протестированы Национальной лабораторией Ок-Риджа в экзафлопной системе Frontier.

А в Аргоннской национальной лаборатории будет запущена другая система экзафлопного класса, Aurora, в которой дебютируют ускорители Intel Xe, которые компания-разработчик позиционирует в качестве ответа NVIDIA V100 и T4. Впрочем, «зелёные» сдаваться не планируют и новая архитектура Ampere, которая также должна дебютировать в этом году, может вновь укрепить позиции NVIDIA.

Суммируя сказанное, можно с уверенностью заявить — 2020 год действительно станет годом разнообразия на рынке HPC. Подействовать это разнообразие должно благотворно: усилившаяся конкуренция приведёт к ускорению разработки новых, ещё более производительных решений, расширится выбор у производителей суперкомпьютеров, а учёные и инженеры получат ещё больше вычислительных мощностей для решения важных задач, стоящих перед человечеством.

Постоянный URL: http://servernews.ru/1001347
18.11.2019 [07:02], Игорь Осколков

SC19: подробности об архитектуре ускорителей Intel Xe HPC

Как и было обещано ранее, архитектура Xe (Exascale for everyone) будет универсальной, и на её основе можно будет создавать GPU любого уровня. Правда, речь, как оказалось, шла всё-таки больше о программной совместимости на уровне драйверов и интерфейсов для сохранения наследия, оставшегося от интегрированной графики. Ведь пользователей таких GPU миллионы и миллионы. 

А вот микроархитектур для разных задач будет несколько, и их соотношение в готовых продуктах тоже будет разным.

Ускоритель Intel X<sup>e</sup> HPC

Ускоритель Intel Xe HPC

Для ультрабуков и мобильных устройств всё так же останется интегрированная видеокарта класса Xe LP (Low Power) с упором на энергоэффективность. В картах среднего уровня Intel сделает акцент на графическую составляющую. Решения класса Xe HP для дата-центров уже не имеют существенных ограничений по питанию, поэтому получат более мощные вычислительные блоки.

Наконец, карты Xe HPC под кодовым названием Ponte Vecchio, которые и были представлены сегодня, получат тысячи исполнительных блоков и будут самыми мощными во всей серии. Ускорители Xe будут сочетать подходы SIMT и SIMD, характерные для GPU и CPU соответственно, и использовать векторные инструкции переменной длины. Предварительные тесты показывают, что такое сочетание может дать прирост в 1,5–2,5 раза на некоторых классах задач. Для упрощения разработки и портирования кода предлагается воспользоваться oneAPI, который также был анонсирован в рамках доклада Intel.

Кроме того, новые ускорители обещают эффективную работу и с разными типами данных. Для форматов INT8, Bfloat16 и FP32 будет отдельный движок Matrix Engine для параллельной обработки матриц. Вероятно, это аналог TensorCore. Проще говоря, всё это нужно для ИИ, машинного обучения и так далее. Но и классические для HPC вычисления двойной точности тоже не забыты. Обещано ускорение таких операций до 40 раз на каждый исполнительный блок.

Масштабирование касается не только типов вычислительных блоков и их числа, но и доступа к памяти, который в Xe тоже кардинально переделали. Сами блоки Xe и HBM2-память связаны посредством отдельной фабрики XEMF (XE Memory Fabric) с поддержкой когерентности. К ней же подключаются и CPU, и GPU, и другие ускорители. XEMF оснащена особым, сверхбыстрым и ёмким кешем Rambo Cache. Такой подход призван устранить дисбаланс, характерный для ряда современных ускорителей, которые могут попросту не получать вовремя данные для обработки.

Конкретный размер Rambo Cache пока не уточняется, но говорится, что его объёма хватит для наиболее крупных блоков данных, которые сейчас используются при вычислениях. Rambo Cache будет упакован с помощью Foveros, а для подключения HBM-памяти будет использоваться EMIB. Техпроцесс, как уже было сказано много-много раз, будет 7-нм.

Кроме того, ускорители Xe HPC получат те же технологии обеспечения надёжности и стабильности работы, что используются в Intel Xeon. Итого: к 2021 году за счёт аппаратных и программных инноваций компания обещает в 500 раз повысить производительность вычислительных узлов на базе технологий Intel.

Постоянный URL: http://servernews.ru/997874
16.06.2017 [15:00], Алексей Степин

В новых процессорах Intel используется mesh-схема соединений

Один из ведущих разработчиков Intel, Ахилеш Кумар (Akhilesh Kumar), ответственный за разработку серверных процессоров Skylake-SP, опубликовал в блоге пост, посвящённый анонсу новой архитектуры внутрипроцессорных соединений, которая придёт на смену предыдущей, реализованной в чипах Core i7 класса HEDT, а также в процессорах Xeon v3 и v4 (Haswell/Broadwell-EP). Новая технология носит название Intel Scalable Processor Platform и главной её целью является конкуренция с технологией AMD Infinity Fabric. Последняя, как известно, служит для связи между модулями в процессорах Ryzen, Threadripper и EPYC. Чтобы понять, почему Intel решила сменить структуру внутрипроцессорных соединений, надо понять, в чём заключается узкое место предыдущей структуры. Здесь надо отметить, что Intel всегда использовала монолитные кристаллы даже в многоядерных процессорах, тогда как AMD в Threadripper и EPYC решила прибегнуть к компоновке типа MCM (Multi-Chip Module) с несколькими кристаллами в едином корпусе. Каждый подход имеет свои достоинства и недостатки, о чём ниже.

Схема внутрипроцессорных соединений в Broadwell-EP. Серым цветом выделены межкольцевые коммутаторы

Схема внутрипроцессорных соединений в Broadwell-EP. Серым цветом выделены межкольцевые коммутаторы

Если в обычных потребительских процессорах проблема пропускной способности внутренних шин стоит не так остро, то в многоядерных решениях она начинает играть существенную роль, ведь для эффективной многопоточной обработки данных все ядра должны быть вовремя «накормлены», иначе они просто будут простаивать впустую в ожидании поступления новой порции данных. До появления Scalable Processor Platform компания Intel использовала три разновидности кристаллов: LCC (Low Core Count, до 10 ядер), MCC (Medium Core Count, до 14 ядер) и HCC (High Core Count, от 16 ядер); это справедливо для Broadwell-EP, в случае с Haswell-EP числа несколько иные, но это не столь важно. На приведённой выше диаграмме хорошо видно, что для соединения отдельных кластеров ядер используются двунаправленные кольцевые шины. В случае с LCC такая шина всего одна, в MCC вторая шина не образует полное кольцо, и, наконец, в HCC работают два полноценных двунаправленных кольца. Друг с другом кольца соединяются посредством буферизированных коммутаторов (серые прямоугольники), что порождает дополнительную задержку в 5 тактов при необходимости передать данные из одного кольца в другое.

В новых решениях Intel используется одноранговая сеть

В новых решениях Intel используется одноранговая сеть...

По мере наращивания количества ядер задержки растут, шины и коммутаторы должны работать на более высокой частоте, чтобы это компенсировать, а это, в свою очередь, приводит к повышению потребляемой процессором мощности и росту уровня тепловыделения. Именно с этой проблемой столкнулась бывшая ATI Technologies в процессе увеличения количества потоковых процессоров в графических чипах Radeon, и именно поэтому в новой архитектуре Skylake (как HEDT, так и Xeon v5) Intel отказалась от кольцевой топологии, перейдя к сетевой (mesh). Впервые сетевая топология внутренних соединений была использована в чипах Knights Landing, и это неудивительно с учётом огромного количества ядер у этих процессоров.

Схема сети для процессоров Knights Landing

Схема сети для процессоров Knights Landing

Новая схема выглядит как двунаправленная решётка, а контроллеры памяти переехали к краям кристалла. Исчезли коммутаторы и сопутствующие им схемы буферизации. Небольшие кольца, впрочем, сохранились — теперь они находятся в пересечениях горизонтальных и вертикальных шин и обеспечивают оптимальное распределение потоков данных. Если верить Intel, то возросла и пропускная способность новых шин. Кроме того, для систем с процессорами Purley будет применён новый внешний интерфейс UPI вместо привычного QPI. В целом, новый дизайн кристалла, разработанный Intel, не просто эффективнее старого, но и позволяет наращивать количество процессорных ядер сравнительно малой кровью.

Но с её топологией в реальном кристалле Skylake-X всё не так просто, как на схеме

...но с её топологией в реальном кристалле Skylake-X всё не так просто, как на схеме

На диаграмме соединения сосредоточены в правой части каждого ядра или функционального блока, однако снимок ядра XCC (eXtreme Core Count) демонстрирует несколько иную топологию: ядра ориентированы зеркально по отношению друг к другу. Это может внести дополнительные задержки при перемещении данных по горизонтали, поскольку расстояние между узлами сети в этом случае неодинаково, но это в любом случае эффективнее старой схемы с двумя кольцами и буферизированными коммутаторами.

Межкристалльные шины AMD Infinity Fabric в процессоре EPYC

Межкристалльные шины AMD Infinity Fabric в процессоре EPYC

Схема, реализованная AMD, выглядит совершенно иначе: каждые два четырёхъядерных блока CCX (CPU Complex) образуют восьмиядерный кристалл, в котором они общаются между собой с помощью 256-битной двунаправленной шины Infinity Fabric. В 32-ядерном процессоре EPYC таких кристаллов четыре, соединяются они аналогичным образом, но шины пролегают в корпусе чипа. Это ведёт к задержкам при обращении одного процессорного кристалла к данным, находящимся в кеше другого кристалла, особенно, расположенного диагонально — данным приходится преодолевать и промежуточный кристалл, поскольку шин всего четыре и Х-образное соединение в решении AMD не используется.

Сборка из двух AMD CCX делит общий контроллер памяти

Сборка из двух AMD CCX делит общий контроллер памяти

Впрочем, этот эффект может компенсировать грамотная программная оптимизация, а что касается наращивания количества ядер, тут AMD в выигрыше: отказ от монолитного многоядерного кристалла позволяет в случае нужды установить в корпусе вместо четырёх восьмиядерных сборок шесть или даже восемь, расплатившись, разумеется, соответствующим ростом латентности и уровня тепловыделения. Intel наверняка использует этот факт в рекламе своей новой технологии, но какой подход покажет себя более жизнеспособным, покажет время.

Постоянный URL: http://servernews.ru/954055
30.03.2017 [06:19], Евгений Лазовский

Архитектура DynamIQ от ARM быстрее справляется с облачными вычислениями и искусственным интеллектом

Разработчик процессорной архитектуры ARM представил технологию DynamIQ для создания многоядерных процессоров, которые смогут лучше справляться с облачными вычислениями, искусственным интеллектом и наиболее современными устройствами. Архитектурой оснастят новые процессоры ARM Cortex-A, которые появятся на рынке в этом году. Сферы применения — автомобили, сети, серверы и «первичные вычислительные устройства».

Новые процессоры смогут более гибко работать с многоядерными процессами, которыми вычислительные устройства должны манипулировать одновременно. Разработчики делают ставку и на «гетерогенные вычисления» — использование в одном компьютере различных типов ядер или процессоров.

DynamIQ позволит использовать архитектуру big.LITTLE, то есть совмещать менее энергоэффективные ядра (LITTLE) и более мощные ядра (big) в одном устройстве. Благодаря такой комбинации обработка процессов происходит более гибко — вне зависимости от задачи.

ARM считает создание DynamIQ самым большим прорывом в сфере микроархитектур с анонса 64-битной вычислительной архитектуры, который состоялся в 2011 году. Компания уверена, что её партнёры за следующие пять лет поставят на рынок 100 миллиардов чипов. За последнее пятилетие они поставили 50 миллиардов чипов.

Новая технология ARM обеспечивает масштабирование до восьми ядер в одном кластере. Благодаря более эффективным технологиям связи масштабирование происходит со значительно меньшей задержкой. Это поможет оптимизировать работу сетей.

Также DynamIQ несёт в себе новые возможности обеспечения безопасности для автомобильной сферы и новые инструкции для искусственного интеллекта. 

Постоянный URL: http://servernews.ru/949418
12.10.2016 [07:56], Александр Будик

Gen-Z: архитектура межсоединений для серверов нового поколения

Целая группа компаний, таких как AMD, ARM, Dell EMC, IBM, Western Digital, Cray, Broadcom, HP Enterprise, Huawei, Micron, Lenovo, Samsung, Seagate, SK hynix и другие, заявили о партнёрстве в рамках консорциума Gen-Z. Совместные усилия будут направлены на создание и коммерциализацию новой технологии межсоединений, которая будет оптимизирована для высокопроизводительных систем нового поколения.

genzconsortium.org

genzconsortium.org

Традиционно считается, что в архитектуре компьютеров оперативная память является быстрой и энергозависимой, тогда как накопитель предлагает много пространства для хранения данных и не требует постоянного питания, но отличается медлительностью. Впрочем, технологии будущего наподобие 3D XPoint могут перевернуть эти представления. И чтобы быть готовым к изменениям, Gen-Z как раз будет заниматься разработкой новой спецификации.

genzconsortium.org

genzconsortium.org

Согласно авторам идеи, пропускная способность памяти в расчёте на одно вычислительное ядро снижается, тогда как удельная ёмкость памяти остаётся неизменной. Количество ядер в современных дата-центрах продолжает расти с огромной скоростью, и канал оперативной памяти зачастую оказывается узким звеном системы. Давление на отрасль оказывает также взрывной рост объёмов данных для обработки, что связано с внедрением концепции Интернета вещей, а также развитием облачных сервисов. Всё начинает упираться в ограниченные возможности подсистемы памяти дата-центров, поэтому необходимы инновации. Специалисты Консорциума уверены, что разработка новой открытой архитектуры для технологии межсоединений следующего поколения является необходимой в сегодняшних условиях. Стоечные серверы требуют высокой пропускной способности и низких задержек на уровне системной памяти.

Разрабатываемый протокол Gen-Z должен работать с существующими операционными системами без внесения в них каких-либо изменений. Это важное условие, которое позволит ускорить принятие новой архитектуры.

Согласно видению специалистов, подсистемы памяти эволюционируют. Если раньше использовалась RAM достаточного для комфортной работы объёма и SSD/HDD большого объёма, то теперь наметился переход к архитектуре с малым количеством RAM, небольшим объёмом SSD/HDD и центральной ролью быстрой памяти типа OPM (on-package memory, память, интегрированная в чип). Протокол Gen-Z будет рассматривать все сообщения в системе, в том числе, атомарные операции, используемые процессором, как операции с памятью.

Среди ключевых особенностей нового протокола стоит выделить:

  • Высокую производительность с поддержкой пропускной способности порядка сотен гигабайт в секунду и низкие задержки менее 100 нс.
  • Поддержку аналитики в режиме реального времени.
  • Поддержку масштабируемых пулов памяти для приложений типа «in-memory».
  • Абстракцию интерфейса памяти в SoC для лёгкой интеграции новых технологий.
  • Защиту соединений между вычислительными узлами.
  • Высокую совместимость благодаря отсутствию необходимости внесения изменений в ОС.

Ядро спецификации, описывающее протокол и архитектуру, будет завершено уже к концу текущего года.

Постоянный URL: http://servernews.ru/940813
09.03.2016 [11:35], Андрей Крупин

Cisco Systems представила архитектуру цифровых сетей

Компания Cisco Systems представила Digital Network Architecture (DNA) — открытую, расширяемую, программно-управляемую архитектуру цифровых сетей.

В основу Cisco Digital Network Architecture положены средства виртуализации сетевых функций, автоматизации, аналитики, управления сетевыми устройствами и облачными сервисами. Решение дополняет предназначенную для центров обработки данных технологию Application Centric Infrastructure (ACI), распространяя основанные на политиках подходы и программные стратегии на всю сетевую инфраструктуру: от кампуса до филиала, от проводной сети до беспроводной, от ядра до периферии.

Ключевой составляющей DNA является платформа APIC-Enterprise Module, включающая различные инструменты автоматизации процессов в сетевой среде. Дополнительно в составе Digital Network Architecture представлены средства быстрого развёртывания сетей Intelligent WAN Automation, система управления и бизнес-аналитики CMX Cloud, а также сетевая операционная система Evolved Cisco IOS XE, предлагающая IT-службам полный программный стек: ПО виртуализации инфраструктуры, виртуализованные сетевые функции (маршрутизация, сетевой экран, WAN Optimization и WLAN Controller, сервисы оркестрации), обеспечивающие виртуализацию сервисов для филиалов.

Cisco DNA будет продаваться по модели ПО Cisco ONE, при этом заказчики смогут выбирать платформу и условия поставки. Дополнительные сведения об архитектуре цифровых сетей опубликованы на сайте cisco.com/solutions/enterprise-networks.

Материалы по теме:

Источник:

Постоянный URL: http://servernews.ru/929645
18.11.2014 [13:15], Александр Будик

IBM внедрит новую суперкомпьютерную архитектуру в 2015 году

Компания IBM планирует внедрить в суперкомпьютеры следующего поколения новую архитектуру, а также оснастить их ещё большим количеством сопроцессоров и ускорителей, что позволит увеличить вычислительную мощь и энергоэффективность. Системы с новой архитектурой выйдут на рынок уже в следующем году.

IBM

IBM

Вице-президент технического подразделения IBM Дэйв Турек (Dave Turek) целью усовершенствований видит ускорение обработки данных на уровнях памяти, хранения данных и ввода/вывода. В существующих моделях супервычислений есть «узкие» места. Много времени и энергии тратится на непрерывное перемещение больших порций данных между процессорами, памятью и накопителями. IBM намерена уменьшить количество таких перемещений данных, что должно обеспечить ускорение обработки данных в три раза по сравнению с используемыми сейчас моделями.

IBM

IBM

Как отмечает Дэйв Турек, когда речь идет о работе с петабайтами и экзабайтами данных, перемещение таких массивов является очень малоэффективным и затратным по времени. IBM является одним из лидеров суперкомпьютерной отрасли, и её системы постоянно занимают высокие места в рейтинге TOP500. Но рост количества данных, которыми нагружаются серверы, превышает рост быстродействия суперкомпьютеров.

Очевидно, с ростом производительности перемещение данных будет «стоить» все больше и больше. Фактически вместе с ростом скорости операций, количество памяти относительно уменьшается, поддаваясь масштабированию намного хуже, чем скорость вычислений. Более того, при приближении к эре экзафлопсов обязательно потребуется менять всю нынешнюю парадигму программирования.

Также Турек считает, что при всём уважении к тестовому бенчмарку LINPACK, этот пакет не обеспечивает адекватных результатов во многих специализированных приложениях. И IBM разрабатывает собственное решение этой проблемы.

 

Постоянный URL: http://servernews.ru/905260
16.04.2014 [18:34], Сергей Карасёв

AMD продемонстрировала первый в мире серверный чип с архитектурой HSA

Компания AMD на мероприятии Red Hat Summit 2014, которое с 14 по 17 апреля проходит в Сан-Франциско (Калифорния, США), провела публичную демонстрацию серверных процессоров Opteron X-Series APU второго поколения с кодовым именем Berlin.

Разработчик подчёркивает, что Berlin станут первыми в мире гибридными серверными чипами, использующими передовую архитектуру Heterogeneous System Architecture (HSA). Данная платформа, в частности, позволяет вычислительным и графическим ядрам иметь полный доступ ко всей системной памяти. Это значительно упрощает разработку приложений и снимает массу узких мест существующих GPGPU-решений. Разработчики ПО смогут задействовать ресурсы встроенного графического блока при высокопараллельных расчётах с обеспечением новых уровней энергетической эффективности.

x86-совместимые процессоры Berlin могут иметь до четырёх ядер Steamroller с поддержкой 64-битных инструкций. Производственный процесс предусматривает применение 28-нанометровых норм.

В ходе демонстрации новых Opteron X-Series APU была показана работа Linux-окружения на основе Fedora — проекта, служащего для тестирования новых технологий, которые в дальнейшем включаются в продукты Red Hat и других производителей.

Предполагается, что серверы на основе процессоров с гетерогенной архитектурой значительно повысят эффективность функционирования центров обработки данных, выполняющих интенсивные расчёты с необходимостью визуализации информации. Это могут быть, например, облачные игровые платформы.

Официальный анонс процессоров Berlin состоится позднее в текущем году. 

Постоянный URL: http://servernews.ru/818735
20.01.2014 [14:05], Александр Будик

IBM представила архитектуру X6 для сверхбыстрых серверов

Компания IBM анонсировала архитектуру X-Architecture шестого поколения для корпоративных серверных систем System x и PureSystems. Как утверждают разработчики, их изобретение позволит повысить производительность и эффективность x86-совместимых решений для аналитических и облачных приложений.

ibm.com

ibm.com

Для приложений, требовательных к подсистеме оперативной памяти, архитектура X6 обеспечивает увеличение в три раза максимального объёма ОЗУ по сравнению с конкурентами и x86-системами IBM этого класса. Кроме того, впервые в отрасли предлагается интегрированное высокоскоростное хранилище флеш-памяти eXFlash, которое подключено к DIMM-каналам и характеризуется максимальной ёмкостью 12,8 Тбайт. Разработчики отмечают существенное снижение задержек при операциях с базами данных. Во многих случаях владельцам таких систем не понадобятся дополнительные внешние модули SAN/NAS.

ibm.com

ibm.com

Модульный дизайн X6 позволяет обеспечить поддержку нескольких поколений процессоров, что добавляет гибкости и позволяет избежать лишних расходов. Также IBM отмечает высокую стабильность своих систем и возможность легкого обновления. Среди новых систем с поддержкой архитектуры X6 – четырёхпроцессорный сервер System x3859 X6, восьмипроцессорный сервер System x3950 X6, система IBM Flex System x880, файл-сервер System x3650 M4 BD.

ibm.com

ibm.com

Системы с четырьмя процессорами поддерживают до 6 Тбайт ОЗУ, восьмипроцессорные серверы включают, соответственно, до 12 Тбайт памяти. Подсистема памяти eXFlash характеризуется задержкой при записи 5-10 мкс. Для сравнения, PCI Express-накопители от Fusion IO, Micron, Virident отличаются задержкой 15-19 мкс, а для SSD Intel S3500 и S3700 это значение достигает 65 мкс.

Постоянный URL: http://servernews.ru/795937
Система Orphus