Как карта ляжет, как сеть укажет: AWS внедряет в своих ЦОД квазислучайную сетевую архитектуру RNG

 

AWS опубликовала техническое описание сетевой архитектуры ЦОД, которую она без особой огласки внедряет с конца 2024 года. Эта архитектура основана на трёх десятилетиях разработки математической теории, которая, как считалось, не подходит для коммерческого использования. Архитектура на базе отказоустойчивых сетевых графов (Resilient Network Graphs, RNG) уже стала стандартной для большинства новых ЦОД AWS по всему миру и позволит сэкономить миллиарды долларов.

Как утверждают в Amazon, традиционная топология Fat-Tree с многоуровневой структурой, используемая в ЦОД на протяжении десятилетий, является неэффективной. Когда данные передаются только по ограниченному числу сетевых путей, в случае перегрузки увеличивается задержка, даже при большой общей пропускной способности. К тому же, эта архитектура хрупка: потеря одного маршрутизатора верхнего уровня может разорвать связь для больших сегментов сети под ним. Кроме того, она требует сложной кабельной разводки.

 Источник изображений: Amazon

Источник изображений: Amazon

Как отметил ресурс SiliconANGLE, существует множество способов решения этой проблемы, но большинство из них дорогостоящи или сложны в реализации. В качестве альтернативы Amazon предложила архитектуру RNG. Она увеличивает количество путей, по которым данные могут передаваться между узлами, что повышает пропускную способность, а также сокращает количество сетевых устройств вдвое и повышает надёжность соединения. Если сетевой путь, используемый узлом, испытывает технические проблемы, система может просто перенаправить трафик на один из множества других доступных ей путей.

Но это не всё. Инженеры AWS разработали то, что они называют квазислучайной топологией. Некоторые сегменты в ЦОД проложены и подключены по определённой схеме, в то время как другие объединяются случайным образом. Именно эта случайность делает сети RNG более гибкими, чем Fat-Tree. Для поиска среди большого количества доступных сетевых путей оптимального маршрута для заданной рабочей нагрузки используется собственный распределённый протокол маршрутизации Spraypoint.

Протокол работает в два этапа. Сначала исходный маршрутизатор распределяет свой исходящий трафик случайным образом между всеми своими ближайшими соседями. Затем для каждого пакета использует классический алгоритм поиска кратчайшего пути для достижения промежуточной точки — маршрутизатора, который был предварительно назначен для передачи трафика к определённому пункту назначения. Промежуточные точки перенаправляют пакеты в ряд «концентрических колец» вокруг пункта назначения, при этом каждое кольцо передает трафик внутрь к следующему, пока он не достигнет цели.

Согласно данным Amazon, это сочетание случайного начального распределения и структурированной сходимости Spraypoint даёт почти вдвое больше независимых путей между любыми двумя маршрутизаторами, чем стандартные методы поиска кратчайшего пути, и при этом сохраняет низкую вычислительную сложность и требует мало памяти, в отличие от истинно «плоской» сети, где все маршрутизаторы попарно объединены друг с другом действительно случайно образом.

Дополнительная диверсификация маршрутов означает, что участки с перегрузкой в одной части сети могут быть автоматически обойдены без явных решений о перемаршрутизации. «По сути, сделав сеть “плоской”, мы устранили узкие места, которые возникают в традиционных сетевых решениях, — сообщил Мэтт Редер (Matt Rehder), вице-президент AWS Network Engineering, в интервью WIRED. — Мы считаем, что мы единственные, кто сделал это в таком масштабе».

Вместе с тем, случайность конфигураций оптоволоконных кабелей RNG затрудняет эффективное управление ими. AWS разработала пассивное сетевое устройство ShuffleBox, которое физически соединяет различные оптоволоконные кабели. Каждый ShuffleBox имеет порты, обращённые к маршрутизаторам, и соединяется с другими ShuffleBox с другой. Внутренние оптические каналы, перемешанные по определённой схеме, и случайные соединения между ShuffleBox формирует общую топологию сети, которая является квазислучайной на макроуровне, без необходимости прокладки отдельных кабелей по всему этажу ЦОД. При установке новой стойки её маршрутизатор просто подключается к ближайшему ShuffleBox.

Что примечательно, команда, разработавшая RNG, не предлагает эту сетевую концепцию в контексте генеративного ИИ. Речь идёт о повышении эффективности повседневной архитектуры ЦОД компании. «RNG отлично подходит для наших основных задач, но шаблоны передачи обучающих данных для ИИ гораздо более скоординированы и централизованно управляются», — говорит Редер. По данным Amazon, по сравнению с архитектурами типа Fat-Tree, RNG использует на 69 % меньше маршрутизаторов и обеспечивает до 33 % большую пропускную способность, сокращает энергопотребление сети на 40 % и снижает затраты на инфраструктуру на 9–45 %.

Первая сеть RNG была запущена в конце 2024 года в Ирландии и начала обрабатывать реальный трафик, сообщил ресурс PPC Land. Развёртывание послужило проверкой: инженеры AWS сравнили реальную производительность с математическими прогнозами, выявили недостатки в работе и применили оптимизации в двух последующих развёртываниях. По данным SiliconANGLE, технология уже используется в ряде ЦОД в Ирландии, Германии и Испании. Компания заявила, что большинство её новых ЦОД использует RNG.

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER. | Можете написать лучше? Мы всегда рады новым авторам.

Источник:

Постоянный URL: https://servernews.ru/1142691

Комментарии