Материалы по тегу: dcim

12.12.2025 [17:21], Руслан Авдеев

Никаких закладок: NVIDIA анонсировала новое ПО для мониторинга и продления жизни ИИ-ускорителей в ЦОД

NVIDIA разрабатывает новое открытое ПО, благодаря которому операторы ЦОД смогут получать более подробные данные о тепловом состоянии и иных параметрах работы ИИ-ускорителей. Предполагается, что это поможет решать проблемы, связанные с перегревом оборудования и его надёжностью, увеличив его срок службы и производительность. NVIDIA отдельно подчёркивает, что телеметрия собирается только в режиме чтения без слежки за оборудованием, а в ПО нет «аварийных выключателей» и бэкдоров. Да и в целом использование новинки опционально.

ПО обеспечивает операторам ЦОД доступ к мониторингу потребления энергии, загрузки, пропускной способности памяти и других ключевых параметров в масштабах всего парка ускорителей. Это помогает выявлять на ранних стадиях риски и проблемные компоненты и условия работы, отслеживать использование ИИ-ускорителей, их конфигурации и ошибки. Детализированная телеметрия становится всё важнее для планирования и управления масштабными инфраструктурами, говорит компания. ПО позволит:

  • отслеживать скачки энергопотребления, чтобы избежать превышение энергетических бюджетов, максимизируя производительность на ватт;
  • отслеживать загрузку, пропускную способность памяти и состояние интерконнектов во всём парке оборудования;
  • заблаговременно выявлять локальные перегревы и проблемы с воздушным потоком, чтобы избежать троттлинга и преждевременного старения компонентов;
  • проверять единообразие конфигураций ПО и настроек для воспроизводимости результатов и надёжности работы;
  • обнаруживать ошибки и аномалии, заблаговременно идентифицировать выходящие из строя компоненты.
 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Такой мониторинг особенно важен на фоне недавнего отчёта учёных Принстонского университета, в котором сообщается, что интенсивные тепловые и электрические нагрузки способны сократить срок службы ИИ-чипов до года-двух, хотя обычно предполагается, что они способны стабильно проработать до трёх лет. Современные ускорители потребляют 700 Вт и более, а высокоплотные системы — от 6 кВт. Из-за этого формируются зоны перегрева, происходят колебания энергопотребления и растёт риск деградации интерконнектов в высокоплотных стойках.

Телеметрия, позволяющая оценить потребление энергии в реальном времени, состояние интерконнектов, систем воздушного охлаждения и др. позволяет перейти от реактивного мониторинга к проактивному проектированию. Рабочие нагрузки можно размещать с учётом теплового режима, быстрее внедрять СЖО или гибридные системы охлаждения, оптимизировать работу сетей с уменьшением тепловыделения.

Также ПО может помочь операторам ЦОД выявлять скрытые ошибки, вызванные несоответствием версий прошивки или драйверов. Благодаря этому можно повысить общую стабильность парка ускорителей. Кроме того, без задержек передаваемые данные об ошибках и состоянии компонентов могут значительно сократить среднее время восстановления работы и упростить анализ причин сбоев. Соответствующие данные могут влиять на решения о тратах на инфраструктуру и стратегию её развития на уровне предприятия.

 Источник изображения: NVIDIA

Источник изображения: NVIDIA

Как заявляют в Gartner, современный ИИ представляет собой «энергоёмкого и сильно нагревающегося монстра», разрушающего экономику и принципы работы ЦОД. В результате, предприятиям нужны специальные инструменты мониторинга и управления для того, чтобы ситуация не вышла из-под контроля. В ближайшие годы использование подобных решений, вероятно, станет обязательным. Кроме того, прозрачность на уровне всего парка оборудования становится необходимой для обоснования роста бюджетов на ИИ-инфраструктуру.

По словам экспертов, такие программные инструменты позволяют оптимизировать капитальные и операционные затраты на ЦОД и инфраструктуру, запланированные на ближайшие годы. «Каждый доллар и каждый ватт» должны быть учтены при эффективном использовании ресурсов.

Постоянный URL: http://servernews.ru/1133822
05.12.2025 [17:12], Андрей Крупин

Российская система мониторинга ЦОД Datcheck дополнилась ИИ-модулями для прогнозирования сбоев

Занимающаяся разработкой и производством модульных центров обработки данных компания «Датарк» совместно с научной командой Уральского федерального университета завершила работу над модулями предиктивной аналитики системы мониторинга ЦОД Datcheck, в основу которых положены технологии машинного обучения и искусственного интеллекта на базе нейронных сетей.

Datcheck представляет собой программно-аппаратный комплекс, осуществляющий сбор, хранение, обработку, передачу и представление информации о параметрах среды и инженерных системах дата-центра в удобном для пользователя виде. Система оперативно и заблаговременно уведомляет об аварийных ситуациях и может функционировать с оборудованием различных производителей. Решение поддерживает промышленные протоколы OPC UA/DA/HDA, Modbus RTU/TCP, BACNet, Profinet, Omron FINS, Mitsubishi SLMP, МЭК61850, МЭК 60870-5-104, сетевые протоколы SNMP, MQTT, HTTP, JSON, Syslog, а также работу с промышленными ПК на базе Linux, программируемыми логическими контроллерами ПЛК-120, модулями удалённого ввода/вывода МВ210, МУ210, контрольно-измерительными приборами и преобразователями интерфейсов российского производства.

 Пользовательский интерфейс автоматизированной системы мониторинга и управления ЦОД Datcheck (источник изображения: datark.ru)

Пользовательский интерфейс автоматизированной системы мониторинга и управления ЦОД Datcheck (источник изображения: datark.ru)

По заверениям разработчика, включённые в состав Datcheck ИИ-модули предиктивной аналитики позволяют прогнозировать потенциальные сбои и аварии раньше на 6–10 суток до того, как они произойдут.

«Мы находимся в точке, где становится недостаточно иметь систему классического мониторинга. Внезапный отказ системы инженерного оборудования в дата-центре может привести к миллионным убыткам из-за простоя IT-инфраструктуры. Наша цель — не просто зафиксировать сбой, а не дать ему случиться», — отмечает «Датарк».

В настоящий момент обновление автоматизированной системы мониторинга и управления ЦОД Datcheck с поддержкой технологий ИИ находится на завершающей стадии закрытого тестирования.

Постоянный URL: http://servernews.ru/1133482
04.12.2025 [13:45], Андрей Крупин

Представлена российская система «Колибри-ЦОД» для управления распределённой IT-инфраструктурой и оборудованием — от терминалов до дата-центров

Работающая в сфере системной интеграции компания ICL Services выпустила на отечественный рынок «Колибри-ЦОД» — решение для управления конфигурациями и автоматизацией процессов корпоративной IT-инфраструктуры.

Комплекс «Колибри-ЦОД» предназначен для работы как с серверной инфраструктурой, так и с периферийными устройствами. Продукт автоматизирует обслуживание серверов, рабочих станций и виртуальных машин, выполняет развёртывание программного обеспечения и обновлений, управление конфигурациями, решение инцидентов и прочих IT-задач. Также система обеспечивает восстановление устройств. При сбое на критичном оборудовании (POS-терминалы, киоски самообслуживания, сканеры штрих-кодов, топливные колонки и др.) «Колибри-ЦОД» автоматически разворачивает с сервера готовый образ ОС.

 Отрасли применения «Колибри-ЦОД» (источник изображения: colibri-dc.ru)

Отрасли применения «Колибри-ЦОД» (источник изображения: colibri-dc.ru)

Платформа «Колибри-ЦОД» поддерживает работу с устройствами на базе Windows, Linux и, по заверениям разработчика, может использоваться в сетях организаций любого масштаба и любых отраслей.

«Мы уверены, что в условиях импортозамещения «Колибри-ЦОД» станет ключевым инструментом для российских компаний, обеспечивая надёжность, масштабируемость и технологическую независимость IT-инфраструктур. С его помощью снижаются финансовые потери от простоев оборудования, ускоряется внедрение новых технологий, а рост нагрузки больше не требует увеличения штата IT-специалистов», — заявляет ICL Services.

Постоянный URL: http://servernews.ru/1133393
18.03.2025 [20:27], Татьяна Золотова

«ДАТАРК» запустил тест-драйв российской системы мониторинга и управления ЦОД DATCHECK

Российский разработчик и производитель модульных дата-центров «ДАТАРК» запустил тест-драйв программно-аппаратного комплекса DATCHECK — автоматизированной системы мониторинга и управления ЦОД. Решение позволяет отслеживать состояние инженерной инфраструктуры, контролировать ее работу и предотвращать аварийные ситуации. Решение построено на основе отечественного импортонезависимого ПО и оборудования (минимум 95 % номенклатуры).

Как сообщается в пресс-релизе, DATCHECK оперативно и заблаговременно уведомляет об аварийных ситуациях, ведет контроль и расчет PUE, проводит централизацию мониторинга и управления ЦОД. Кроме того, решение оптимизирует задачи персонала, автоматически настраивая отчетности, в том числе с отправкой в РСО, сохраняя эксплуатационную документацию, уменьшая время простоя.

 Источник: «ДАТАРК»

Источник: «ДАТАРК»

Тестовый комплект поставляется в двух защитных боксах. В одном находится шесть беспроводных датчиков температуры и влажности и датчик протечки, в другом — промышленный компьютер с сенсорным дисплеем и предустановленной системой DATCHECK. Датчики работают автономно до семи дней и обеспечивают круглосуточную диагностику. Решение позволяет контролировать работу двух ИБП и двух прецизионных кондиционеров.

Постоянный URL: http://servernews.ru/1119932
04.07.2024 [23:59], Владимир Мироненко

Systême Electric представила первые продукты для мониторинга и автоматизации инфраструктуры ЦОД

Российская производственная компания «Систэм Электрик» (Systême Electric, ранее Schneider Electric в России) объявила о выходе семейства продуктов для мониторинга и автоматизации инфраструктуры ЦОД, которое включает устройство мониторинга параметров окружающей среды SystemeBotz, решение для контроля доступа в ИТ-стойку SystemeBotzAC, а также ПО для централизованного мониторинга DCGuard. Решения являются полноценной заменой аналогичной продукции APC. Новинки будут доступны для проведения опытно-промышленной эксплуатации на объектах клиентов до 31 октября 2024.

SystemeBotz представляет собой масштабируемую систему активного мониторинга, призванную обеспечить защиту помещений, технологического и ИТ-оборудования от различных факторов риска. Это типовое решение сетевого мониторинга серверных комнат, узлов связи и ЦОД, которое устанавливается в стойку и позволяет подключить без надобности в предварительной настройке различные типы датчиков Systême Electric: температуры и влажности, точечных и ленточных протечек, положения двери, дыма и пожара, наличия напряжения, датчики типа «сухой контакт».

 Источник изображения: «Систэм Электрик»

Источник изображения: «Систэм Электрик»

SystemeBotzAC — система контроля и управления доступом, разработанная для защиты стоек, позволяющая в режиме реального времени выполнять мониторинг факторов риска физического воздействия и несанкционированного доступа к ИТ-инфраструктуре. Система включает датчики положения дверей, ручки стоек со встроенными считывателями карт, коммуникационные блоков для передачи параметров, блоки питания и IP-камеры. Все компоненты системы совместимы с серверными шкафами Systême Electric, а также некоторыми стойками других производителей.

Программная платформа верхнего уровня DCGuard в режиме реального времени собирает, хранит и визуализирует параметры работы инженерной инфраструктуры объекта, оповещая пользователя об инцидентах и аварийных событиях. DCGuard обеспечивает сбор данных по промышленным протоколам для однофазных и трёхфазных ИБП, рядных и периметральных кондиционеров, PDU) устройств мониторинга параметров окружающей среды, систем холодоснабжения (чиллеров, драйкуллеров, частотно-регулируемых приводов и др.), систем мониторинга батарей, дизель-генераторных установок, а также распределительных щитов.

Постоянный URL: http://servernews.ru/1107534