Материалы по тегу: dcim
|
12.12.2025 [17:21], Руслан Авдеев
Никаких закладок: NVIDIA анонсировала новое ПО для мониторинга и продления жизни ИИ-ускорителей в ЦОД
dcim
nvidia
open source
software
амортизация
ии
мониторинг
охлаждение
цод
электропитание
энергоэффективность
NVIDIA разрабатывает новое открытое ПО, благодаря которому операторы ЦОД смогут получать более подробные данные о тепловом состоянии и иных параметрах работы ИИ-ускорителей. Предполагается, что это поможет решать проблемы, связанные с перегревом оборудования и его надёжностью, увеличив его срок службы и производительность. NVIDIA отдельно подчёркивает, что телеметрия собирается только в режиме чтения без слежки за оборудованием, а в ПО нет «аварийных выключателей» и бэкдоров. Да и в целом использование новинки опционально. ПО обеспечивает операторам ЦОД доступ к мониторингу потребления энергии, загрузки, пропускной способности памяти и других ключевых параметров в масштабах всего парка ускорителей. Это помогает выявлять на ранних стадиях риски и проблемные компоненты и условия работы, отслеживать использование ИИ-ускорителей, их конфигурации и ошибки. Детализированная телеметрия становится всё важнее для планирования и управления масштабными инфраструктурами, говорит компания. ПО позволит:
Такой мониторинг особенно важен на фоне недавнего отчёта учёных Принстонского университета, в котором сообщается, что интенсивные тепловые и электрические нагрузки способны сократить срок службы ИИ-чипов до года-двух, хотя обычно предполагается, что они способны стабильно проработать до трёх лет. Современные ускорители потребляют 700 Вт и более, а высокоплотные системы — от 6 кВт. Из-за этого формируются зоны перегрева, происходят колебания энергопотребления и растёт риск деградации интерконнектов в высокоплотных стойках. Телеметрия, позволяющая оценить потребление энергии в реальном времени, состояние интерконнектов, систем воздушного охлаждения и др. позволяет перейти от реактивного мониторинга к проактивному проектированию. Рабочие нагрузки можно размещать с учётом теплового режима, быстрее внедрять СЖО или гибридные системы охлаждения, оптимизировать работу сетей с уменьшением тепловыделения. Также ПО может помочь операторам ЦОД выявлять скрытые ошибки, вызванные несоответствием версий прошивки или драйверов. Благодаря этому можно повысить общую стабильность парка ускорителей. Кроме того, без задержек передаваемые данные об ошибках и состоянии компонентов могут значительно сократить среднее время восстановления работы и упростить анализ причин сбоев. Соответствующие данные могут влиять на решения о тратах на инфраструктуру и стратегию её развития на уровне предприятия.
Источник изображения: NVIDIA Как заявляют в Gartner, современный ИИ представляет собой «энергоёмкого и сильно нагревающегося монстра», разрушающего экономику и принципы работы ЦОД. В результате, предприятиям нужны специальные инструменты мониторинга и управления для того, чтобы ситуация не вышла из-под контроля. В ближайшие годы использование подобных решений, вероятно, станет обязательным. Кроме того, прозрачность на уровне всего парка оборудования становится необходимой для обоснования роста бюджетов на ИИ-инфраструктуру. По словам экспертов, такие программные инструменты позволяют оптимизировать капитальные и операционные затраты на ЦОД и инфраструктуру, запланированные на ближайшие годы. «Каждый доллар и каждый ватт» должны быть учтены при эффективном использовании ресурсов.
05.12.2025 [17:12], Андрей Крупин
Российская система мониторинга ЦОД Datcheck дополнилась ИИ-модулями для прогнозирования сбоевЗанимающаяся разработкой и производством модульных центров обработки данных компания «Датарк» совместно с научной командой Уральского федерального университета завершила работу над модулями предиктивной аналитики системы мониторинга ЦОД Datcheck, в основу которых положены технологии машинного обучения и искусственного интеллекта на базе нейронных сетей. Datcheck представляет собой программно-аппаратный комплекс, осуществляющий сбор, хранение, обработку, передачу и представление информации о параметрах среды и инженерных системах дата-центра в удобном для пользователя виде. Система оперативно и заблаговременно уведомляет об аварийных ситуациях и может функционировать с оборудованием различных производителей. Решение поддерживает промышленные протоколы OPC UA/DA/HDA, Modbus RTU/TCP, BACNet, Profinet, Omron FINS, Mitsubishi SLMP, МЭК61850, МЭК 60870-5-104, сетевые протоколы SNMP, MQTT, HTTP, JSON, Syslog, а также работу с промышленными ПК на базе Linux, программируемыми логическими контроллерами ПЛК-120, модулями удалённого ввода/вывода МВ210, МУ210, контрольно-измерительными приборами и преобразователями интерфейсов российского производства.
Пользовательский интерфейс автоматизированной системы мониторинга и управления ЦОД Datcheck (источник изображения: datark.ru) По заверениям разработчика, включённые в состав Datcheck ИИ-модули предиктивной аналитики позволяют прогнозировать потенциальные сбои и аварии раньше на 6–10 суток до того, как они произойдут. «Мы находимся в точке, где становится недостаточно иметь систему классического мониторинга. Внезапный отказ системы инженерного оборудования в дата-центре может привести к миллионным убыткам из-за простоя IT-инфраструктуры. Наша цель — не просто зафиксировать сбой, а не дать ему случиться», — отмечает «Датарк». В настоящий момент обновление автоматизированной системы мониторинга и управления ЦОД Datcheck с поддержкой технологий ИИ находится на завершающей стадии закрытого тестирования.
04.12.2025 [13:45], Андрей Крупин
Представлена российская система «Колибри-ЦОД» для управления распределённой IT-инфраструктурой и оборудованием — от терминалов до дата-центровРаботающая в сфере системной интеграции компания ICL Services выпустила на отечественный рынок «Колибри-ЦОД» — решение для управления конфигурациями и автоматизацией процессов корпоративной IT-инфраструктуры. Комплекс «Колибри-ЦОД» предназначен для работы как с серверной инфраструктурой, так и с периферийными устройствами. Продукт автоматизирует обслуживание серверов, рабочих станций и виртуальных машин, выполняет развёртывание программного обеспечения и обновлений, управление конфигурациями, решение инцидентов и прочих IT-задач. Также система обеспечивает восстановление устройств. При сбое на критичном оборудовании (POS-терминалы, киоски самообслуживания, сканеры штрих-кодов, топливные колонки и др.) «Колибри-ЦОД» автоматически разворачивает с сервера готовый образ ОС.
Отрасли применения «Колибри-ЦОД» (источник изображения: colibri-dc.ru) Платформа «Колибри-ЦОД» поддерживает работу с устройствами на базе Windows, Linux и, по заверениям разработчика, может использоваться в сетях организаций любого масштаба и любых отраслей. «Мы уверены, что в условиях импортозамещения «Колибри-ЦОД» станет ключевым инструментом для российских компаний, обеспечивая надёжность, масштабируемость и технологическую независимость IT-инфраструктур. С его помощью снижаются финансовые потери от простоев оборудования, ускоряется внедрение новых технологий, а рост нагрузки больше не требует увеличения штата IT-специалистов», — заявляет ICL Services.
18.03.2025 [20:27], Татьяна Золотова
«ДАТАРК» запустил тест-драйв российской системы мониторинга и управления ЦОД DATCHECKРоссийский разработчик и производитель модульных дата-центров «ДАТАРК» запустил тест-драйв программно-аппаратного комплекса DATCHECK — автоматизированной системы мониторинга и управления ЦОД. Решение позволяет отслеживать состояние инженерной инфраструктуры, контролировать ее работу и предотвращать аварийные ситуации. Решение построено на основе отечественного импортонезависимого ПО и оборудования (минимум 95 % номенклатуры). Как сообщается в пресс-релизе, DATCHECK оперативно и заблаговременно уведомляет об аварийных ситуациях, ведет контроль и расчет PUE, проводит централизацию мониторинга и управления ЦОД. Кроме того, решение оптимизирует задачи персонала, автоматически настраивая отчетности, в том числе с отправкой в РСО, сохраняя эксплуатационную документацию, уменьшая время простоя. Тестовый комплект поставляется в двух защитных боксах. В одном находится шесть беспроводных датчиков температуры и влажности и датчик протечки, в другом — промышленный компьютер с сенсорным дисплеем и предустановленной системой DATCHECK. Датчики работают автономно до семи дней и обеспечивают круглосуточную диагностику. Решение позволяет контролировать работу двух ИБП и двух прецизионных кондиционеров.
04.07.2024 [23:59], Владимир Мироненко
Systême Electric представила первые продукты для мониторинга и автоматизации инфраструктуры ЦОДРоссийская производственная компания «Систэм Электрик» (Systême Electric, ранее Schneider Electric в России) объявила о выходе семейства продуктов для мониторинга и автоматизации инфраструктуры ЦОД, которое включает устройство мониторинга параметров окружающей среды SystemeBotz, решение для контроля доступа в ИТ-стойку SystemeBotzAC, а также ПО для централизованного мониторинга DCGuard. Решения являются полноценной заменой аналогичной продукции APC. Новинки будут доступны для проведения опытно-промышленной эксплуатации на объектах клиентов до 31 октября 2024. SystemeBotz представляет собой масштабируемую систему активного мониторинга, призванную обеспечить защиту помещений, технологического и ИТ-оборудования от различных факторов риска. Это типовое решение сетевого мониторинга серверных комнат, узлов связи и ЦОД, которое устанавливается в стойку и позволяет подключить без надобности в предварительной настройке различные типы датчиков Systême Electric: температуры и влажности, точечных и ленточных протечек, положения двери, дыма и пожара, наличия напряжения, датчики типа «сухой контакт».
Источник изображения: «Систэм Электрик» SystemeBotzAC — система контроля и управления доступом, разработанная для защиты стоек, позволяющая в режиме реального времени выполнять мониторинг факторов риска физического воздействия и несанкционированного доступа к ИТ-инфраструктуре. Система включает датчики положения дверей, ручки стоек со встроенными считывателями карт, коммуникационные блоков для передачи параметров, блоки питания и IP-камеры. Все компоненты системы совместимы с серверными шкафами Systême Electric, а также некоторыми стойками других производителей. Программная платформа верхнего уровня DCGuard в режиме реального времени собирает, хранит и визуализирует параметры работы инженерной инфраструктуры объекта, оповещая пользователя об инцидентах и аварийных событиях. DCGuard обеспечивает сбор данных по промышленным протоколам для однофазных и трёхфазных ИБП, рядных и периметральных кондиционеров, PDU) устройств мониторинга параметров окружающей среды, систем холодоснабжения (чиллеров, драйкуллеров, частотно-регулируемых приводов и др.), систем мониторинга батарей, дизель-генераторных установок, а также распределительных щитов. |
|
