Материалы по тегу: google
14.11.2024 [23:07], Владимир Мироненко
Google и NVIDIA показали первые результаты TPU v6 и B200 в ИИ-бенчмарке MLPerf TrainingУскорители Blackwell компании NVIDIA опередили в бенчмарках MLPerf Training 4.1 чипы H100 более чем в 2,2 раза, сообщил The Register. По словам NVIDIA, более высокая пропускная способность памяти в Blackwell также сыграла свою роль. Тесты были проведены с использование собственного суперкомпьютера NVIDIA Nyx на базе DGX B200. Новые ускорители имеют примерно в 2,27 раза более высокую пиковую производительность в вычисления FP8, FP16, BF16 и TF32, чем системы H100 последнего поколения. B200 показал в 2,2 раза более высокую производительность при тюнинге модели Llama 2 70B и в два раза большую производительность при предварительном обучении (Pre-training) модели GPT-3 175B. Для рекомендательных систем и генерации изображений прирост составил 64 % и 62 % соответственно. Компания также отметила преимущества используемой в B200 памяти HBM3e, благодаря которой бенчмарк GPT-3 успешно отработал всего на 64 ускорителях Blackwell без ущерба для производительности каждого GPU, тогда как для достижения такого же результата понадобилось бы 256 ускорителей H100. Впрочем, про Hopper компания тоже не забывает — в новом раунде компания смогла масштабировать тест GPT-3 175B до 11 616 ускорителей H100. Компания отметила, что платформа NVIDIA Blackwell обеспечивает значительный скачок производительности по сравнению с платформой Hopper, особенно при работе с LLM. В то же время чипы поколения Hopper по-прежнему остаются актуальными благодаря непрерывным оптимизациям ПО, порой кратно повышающим производительность в некоторых задач. Интрига в том, что в этот раз NVIDIA решила не показывать результаты GB200, хотя такие системы есть и у неё, и у партнёров. В свою очередь, Google представила первые результаты тестирования 6-го поколения TPU под названием Trillium, о доступности которого было объявлено в прошлом месяце, и второй раунд результатов ускорителей 5-го поколения TPU v5p. Ранее Google тестировала только TPU v5e. По сравнению с последним вариантом, Trillium обеспечивает прирост производительности в 3,8 раза в задаче обучения GPT-3, отмечает IEEE Spectrum. Если же сравнивать результаты с показателями NVIDIA, то всё выглядит не так оптимистично. Система из 6144 TPU v5p достигла контрольной точки обучения GPT-3 за 11,77 мин, отстав от системы с 11 616 H100, которая выполнила задачу примерно за 3,44 мин. При одинаковом же количестве ускорителей решения Google почти вдвое отстают от решений NVIDIA, а разница между v5p и v6e составляет менее 10 %. В тесте Stable Diffusion система из 1024 TPU v5p заняла второе место, завершив работу за 2,44 мин, тогда как система того же размера на основе NVIDIA H100 справилась с задачей за 1,37 мин. В остальных тестах на кластерах меньшего масштаба разрыв остаётся примерно полуторакратным. Впрочем, Google упирает на масштабируемость и лучшее соотношение цены и производительности в сравнении как с решениями конкурентов, так и с собственными ускорителями прошлых поколений. Также в новом раунде MLPerf появился единственный результат измерения энергопотребления во время проведения бенчмарка. Система из восьми серверов Dell XE9680, каждый из которых включал восемь ускорителей NVIDIA H100 и два процессора Intel Xeon Platinum 8480+ (Sapphire Rapids), в задаче тюнинга Llama2 70B потребила 16,38 мДж энергии, потратив на работу 5,05 мин. — средняя мощность составила 54,07 кВт.
03.11.2024 [13:15], Сергей Карасёв
Google объявила о доступности ИИ-ускорителей TPU v6 TrilliumКомпания Google сообщила о том, что её новейшие ИИ-ускорители TPU v6 с кодовым именем Trillium доступны клиентам для ознакомления в составе облачной платформы GCP. Утверждается, что на сегодняшний день новинка является самым эффективным решением Google по соотношению цена/производительность. Официальная презентация Trillium состоялась в мае нынешнего года. Изделие оснащено 32 Гбайт памяти HBM с пропускной способностью 1,6 Тбайт/с, а межчиповый интерконнект ICI обеспечивает возможность передачи данных со скоростью до 3,58 Тбит/с (по четыре порта на чип). Задействованы блоки SparseCore третьего поколения, предназначенные для ускорения работы с ИИ-моделями, которые используются в системах ранжирования и рекомендаций. Google выделяет ряд существенных преимуществ Trillium (TPU v6e) перед ускорителями TPU v5e:
Один узел включает восемь ускорителей TPU v6e (в двух NUMA-доменах), два неназванных процессора (суммарно 180 vCPU), 1,44 Тбайт RAM и четыре 200G-адаптера (по два на CPU) для связи с внешним миром. Отмечается, что посредством ICI напрямую могут быть объединены до 256 изделий Trillium, а агрегированная скорость сетевого подключение такого кластера (Pod) составляет 25,6 Тбит/с. Десятки тысяч ускорителей могут быть связаны в масштабный ИИ-кластер благодаря платформе Google Jupiter с оптической коммутацией, совокупная пропускная способность которой достигает 13 Пбит/с. Trillium доступны в составе интегрированной ИИ-платформы AI Hypercomputer. Заявляется, что благодаря ПО Multislice Trillium обеспечивается практически линейное масштабирование производительности для рабочих нагрузок, связанных с обучением ИИ. Производительность кластеров на базе Trillium может достигать 91 Эфлопс на ИИ-операциях: это в четыре раза больше по сравнению с самыми крупными развёртываниями систем на основе TPU v5p. BF16-производительность одного чипа TPU v6e составляет 918 Тфлопс, а INT8 — 1836 Топс. В бенчмарках Trillium по сравнению с TPU v5e показал более чем четырёхкратное увеличение производительности при обучении моделей Gemma 2-27b, MaxText Default-32b и Llama2-70B, а также более чем трёхкратный прирост для LLama2-7b и Gemma2-9b. Кроме того, Trillium обеспечивает трёхкратное увеличение производительности инференса для Stable Diffusion XL (по отношению к TPU v5e). По соотношению цена/производительность TPU v6e демонстрирует 1,8-кратный рост по сравнению с TPU v5e и примерно двукратный рост по сравнению с TPU v5p. Появится ли более производительная модификация TPU v6p, не уточняется.
31.10.2024 [14:56], Владимир Мироненко
DIGITIMES Research: в 2024 году Google увеличит долю на рынке кастомных ИИ ASIC до 74 %Согласно отчету DIGITIMES Research, в 2024 году глобальные поставки ИИ ASIC собственной разработки для ЦОД, как ожидается, достигнут 3,45 млн единиц, а доля рынка Google вырастет до 74 %. Как сообщают аналитики Research, до конца года Google начнёт массовое производство нового поколения ИИ-ускорителей TPU v6 (Trillium), что ещё больше увеличит её присутствие на рынке. В 2023 году доля Google на рынке ИИ ASIC собственной разработки для ЦОД оценивалась в 71 %. В отчёте отмечено, что помимо самой высокой доли рынка, Google также является первым из трёх крупнейших сервис-провайдеров в мире, кто разработал собственные ИИ-ускорители. Первый TPU компания представила в 2016 году. Ожидается, что TPU v6 будет изготавливаться с применением 5-нм процесса TSMC, в основном с использованием 8-слойных чипов памяти HBM3 от Samsung. Также в отчёте сообщается, что Google интегрировала собственную архитектуру оптического интерконнекта в кластеры TPU v6, позиционируя себя в качестве лидера среди конкурирующих провайдеров облачных сервисов с точки зрения внедрения технологий и масштаба развёртывания. Google заменила традиционные spine-коммутаторы на полностью оптические коммутаторы Jupiter собственной разработки, которые позволяют значительно снизить энергопотребление и стоимость обслуживания ИИ-кластеров TPU POD по сравнению с решениями Broadcom или Mellanox. Кроме того, трансиверы Google получил ряд усовершенствований, значительно нарастив пропускную способность. Если в 2017 году речь шла о полнодуплексном 200G-решении, то в этом году речь идёт уже о 800G-решениях с возможностью модернизации до 1,6T. Скорость одного канала также существенно выросла — с 50G PAM4 в 2017 году до 200G PAM4 в 2024 году.
30.10.2024 [23:59], Владимир Мироненко
Облако Google Cloud увеличило выручку на 35 % и компания готова вложить ещё $7 млрд в ЦОД и оборудованиеХолдинг Alphabet, материнская структура Google, сообщил неаудированные финансовые результаты III квартала 2024 года, завершившегося 30 сентября. Alphabet заявил, что его инвестиции в ИИ окупаются, поскольку выручка облачного подразделения выросла на 35 %. Также значительно увеличилась выручка самого холдинга, значительно превысив прогнозы Уолл-стрит, благодаря чему его акции выросли в цене почти на 6 % на внебиржевых торгах во вторник. Перед пресс-конференцией в среду гендиректор Alphabet Сундар Пичаи (Sundar Pichai) отметил, что «долгосрочная ориентация и инвестиции компании в ИИ» начинают приносить плоды как корпоративным клиентам, так и обычным потребителям. Выручка Alphabet составила за квартал $88,27 млрд, превысив показатель аналогичного квартала в 2023 году на 15 %, а также консенсус-прогноз аналитиков, опрошенных LSEG, в размере $86,30 млрд. При этом доход Google Cloud вырос год к году на 35 % до $11,35 млрд, а операционная прибыль платформы увеличилась в семь раз до $1,9 млрд с $266 млн в прошлом году. Как отметила финансовый директор Alphabet Анат Ашкенази (Anat Ashkenazi), присоединившаяся к холдингу в июне после 23 лет работы в фармацевтической компании Eli Lilly, набор облачных услуг Google Workspace показал сильный рост в III квартале. При этом набор облачных инструментов для управления данными и ИИ опередил по темпам роста показатель облачного подразделения в целом. Ашкенази также сообщила, что капитальные затраты Alphabet в 2025 году будут выше, чем в этом году. В III квартале капзатраты Alphabet выросли на 62 % до $13 млрд. Большая часть этих расходов пошла на «техническую инфраструктуру, из которых около 60 % пришлось на серверы, а 40 % — на ЦОД и сетевое оборудование. По словам финдиректора, Google взяла на себя обязательство вложить в текущем квартале более $7 млрд в запланированные инвестиции в ЦОД, из которых $6 млрд будут инвестированы в объекты на территории США. Компания планирует оптимизировать «физическое присутствие и повысить эффективность технической инфраструктуры», а также «оптимизировать операции всей компании с помощью ИИ», сказала Ашкенази. Ожидается, что в IV квартале капзатраты будут такими же, как в III квартале. Чистая прибыль Alphabet выросла до $26,3 млрд или $2,12 на акцию, по сравнению с $19,7 млрд или $1,55 на акцию в аналогичном квартале прошлого года при консенсус-прогнозе аналитиков, опрошенных LSEG, в размере $1,85 прибыли на акцию.
29.10.2024 [13:39], Руслан Авдеев
Группа Open Cloud Coalition будет продвигать открытость на облачном рынке — Microsoft уже назвала её «искусственным газоном, созданным Google»На днях была основана новая группа Open Cloud Coalition (OCC), намеренная продвигать «открытость и совместимость» на рынке облачных услуг. По данным Computer Weekly, она будет поддерживать антимонопольные ведомства, надзирающие за бизнес-практиками гиперскейлеров. Новый проект пришёлся по вкусу не всем облачным операторам. OCC основана 10 компаниями, призывающими к большей открытости, совместимости и честной конкуренции на облачном рынке. Участники также обязуются публиковать исследовательские данные и консультировать регуляторов в Европе, исследующих антиконкурентное поведение. Примечательно, что в число основателей входит Google Cloud, недавно подавшая жалобу в Еврокомиссию на неконкурентные практики облачного лицензирования Microsoft. Не так давно ассоциация облачных провайдеров CISPE уже жаловалась европейским властям на Microsoft, но в итоге последняя урегулировала проблему, заплатив небольшим компаниям более $20 млн. Google, по слухам, предлагала в разы больше, чтобы более мелкие игроки не отказывались от претензий, но компанию и AWS оставили один на один с Microsoft, а последняя заявляла, что конкуренты «мутят воду», только притворяясь слабыми. Теперь, по данным СМИ, Google фактически запускает собственную версию CISPE, включающую Centerprise International, Civo и Gigas, а также других мелких игроков, в том числе ControlPlane, DTP Group, Prolinx, Pulsant, Clairo и Room 101. Представители коалиции заявляют, что в будущем привлекут новых участников, а соответствующие переговоры уже ведутся. Новость о появлении коалиции обнародована на фоне вестей с мирового облачного рынка, где активно расследуется антиконкурентное поведение как Microsoft, так и Amazon (AWS). В частности, соответствующие расследования ведёт Управление по конкуренции и рынкам (CMA) Великобритании с подачи регулятора Ofcom, в сферу внимания которого попали Microsoft и AWS, не в последнюю очередь с подачи Google. Похожие расследования ведутся в Испании и Дании. В условиях, когда облачная инфраструктура становится незаменимой, многие компании попали в ловушки, связанные ограничительными соглашениями, фактически не дающими возможности реализовать «мультиоблачные» стратегии. Этот тренд и намерена изменить OCC, продвигая более конкурентные практики и открытые стандарты, а также принципы, позволяющие легко менять провайдеров. Впрочем, в Microsoft уже раскритиковали инициативу, назвав организацию «искусственным газоном, созданным Google». Хотя Google формально не является лидером коалиции, предполагается, что именно она является теневым «кукловодом». В Microsoft утверждают, что конкурент добивается двух целей — пытается отвлечь от антимонопольных расследований по всему миру, проводящихся против самой Google, и пытается изменить вектор внимания регуляторов в свою пользу вместо того, чтобы состязаться честно.
21.10.2024 [19:23], Руслан Авдеев
От накопителей к ускорителям: Google тестирует роботов для обслуживания ЦОДВ Google занялись испытаниями роботов для управления и обслуживания оборудования в своих дата-центрах. Как сообщает Datacenter Dynamics со ссылкой на Рика Миллера (Rich Miller) из Data Center Frontier, соответствующую информацию представитель Google обнародовал в ходе недавнего мероприятия Open Compute Summit — роботы уже действуют на одном из объектов. В Google заявили, что роботы помогут кардинально пересмотреть подход к масштабированию операций, а их внедрение благотворно скажется на безопасности и надёжности работ. Робототехника может сыграть важную роль в задачах вроде перемещения компонентов и стоек, мониторинга оборудования и даже его обслуживания и ремонта. В прошлом году компания начала эксперименты по использованию роботов для замены вышедших из строя накопителей. А сейчас компания намерена привлечь роботов к обслуживанию стоек с ускорителями, которые значительно тяжелее традиционных стоек. Использование роботов для обеспечения работы ЦОД давно рассматривается гиперскейлерами и колокейшн-провайдерами. Впрочем, в большинстве случаев речь идёт о робособаках вроде моделей, выпускаемых Boston Dynamics, Unitree Go1 и Anybotics. Такие модели обычно выполняют в основном патрульные функции — для охраны и оповещения об инцидентах. Пока что Google использует довольно массивную, автономно передвигающуюся платформу собственной разработки. В 2023 году Microsoft создала команду, занимающуюся автоматизацией работы ЦОД вообще и роботами в частности. В том же году Digital Edge, Digital Realty, Scala Data Centers, и Oracle протестировали роботов для выполнения самых разных операций в дата-центрах. А вот у японской NTT Data подход иной — компания создала робота Ugo на моторизованной платформе, который получил две роборуки-манипулятора.
18.10.2024 [18:58], Руслан Авдеев
Google тоже показала собственный вариант суперускорителя NVIDIA GB200 NVLGoogle показала собственный вариант суперускорителя NVIDIA Blackwell GB200 NVL для своей облачной ИИ-платформы, передаёт Datacenter Dynamics. Решение Google отличается от вариантов Meta✴ и Microsoft, представленных ранее. Тем не менее, это показывает высокий интерес к новой ИИ-платформе NVIDIA со стороны гиперскейлеров. Google заявила о тесном сотрудничестве с NVIDIA для формирования «устойчивой вычислительной инфраструктуры будущего». Подробнее о новой платформе будут рассказано на одной из будущих конференций Google. Пока что, увы, даже не до конца ясна конфигурация суперускорителя в исполнении Google. На фото видно сразу две стойки. Одна содержит неназванное количество ускорителей GB200, а вторая комплектуется оборудованием Google, в том числе блоками питания, коммутаторами и модулями охлаждения. Хотя NVIDIA рекомендует использовать в качестве интерконнекта InfiniBand в своих ИИ-платформах, некоторые эксперты считают, что Google пользуется собственными инфраструктурными наработками на базе Ethernet. Так, компания уже применяет оптические коммутаторы (OCS) собственной разработки в ИИ-кластерах с фирменными ускорителями TPU. Вариант Microsoft также состоит из двух стоек. Во второй смонтирован огромный теплообменник, который, вероятно, обслуживает не одну стойку с ускорителями, а сразу несколько. Известно, что ранее между Microsoft и NVIDIA были разногласия по поводу компоновки платформ для GB200. Наконец, вариант Meta✴ наиболее близок к оригинальной версии NVIDIA GB200 NVL72. При этом NVIDIA открыла её спецификации в рамках OCP. Ранее компания отказалась от выпуска «компромиссных» суперускорителей GB200 NVL36×2, которые сами по себе занимают две стойки.
15.10.2024 [16:45], Руслан Авдеев
Google запитает свои ЦОД от малых модульных реакторов Kairos PowerGoogle и Kairos Power заключили соглашение о закупке энергии с малых модульных реакторов (SMR), разрабатываемых Kairos. Первый SMR должен заработать к 2030 году, а последующие реакторы — до 2035 года. Всего речь идёт о шести-семи реакторах суммарной мощностью до 500 МВт. Проект касается только Соединённых Штатов. Он обеспечит Google безуглеродной и относительно экобезопасной энергией. Kairos разрабатывает SMR с охлаждением расплавами солей и гранулированным в керамические шарики топливом. Генерируемое тепло передаётся в паровую турбину для выработки электроэнергии. В июле Kairos Power уже начала строить демонстрационный реактор в Теннесси. Подробная информация о сделке, её стоимости и местоположении реактора не разглашается. Похожие проекты реализуют и другие компании. В марте 2024 года AWS купила за $650 млн кампус ЦОД Talen Energy рядом с принадлежащей последней АЭС Susquehanna Steam Electric Station. Сообщалось, что АЭС обеспечит кампусу до 960 МВт. В мае AWS получила добро на перезонирование участка площадью около 650 га для строительства 15 зданий ЦОД. В минувшем сентябре Microsoft объявила о покупке возвращаемой к жизни атомной электростанции Three Mile Island мощностью 837 МВт. Oracle также сообщила, что намерена построить кампус ЦОД на 1 ГВт с питанием от трёх SMR. Наконец, Equinix готова приобрести 500 МВт атомной энергии в виде PPA-соглашений у Oklo, у неё же Wyoming Hyperscale получит 100 МВт. При этом пока SMR остаются непроверенной технологией, внедрение которой неизбежно вызовет внимание и, возможно, противодействие регуляторов.
04.10.2024 [16:14], Руслан Авдеев
Google тоже не прочь запитать свои ИИ ЦОД от АЭСПо словам генерального директора Google Сундара Пичаи (Sundar Pichai), компания рассматривает снабжение своих дата-центров энергией атомных электростанций, в том числе SMR. По информации Asian Nikkei Review, техногигант ищет возможности снижения углеродных выбросов на фоне резко растущего энергопотребления ИИ ЦОД. Увеличатся и инвестиции в солнечную и тепловую энергетику. Пока же Google наращивает инвестиции в ЦОД для продвижения ИИ-проектов. Материнская компания Alphabet только за апрель-июнь увеличила год к году капитальные затраты на 90 % до $13,1 млрд. По словам Пичаи, впервые появилась новая базовая технология, «пронизывающая» все сферы деятельности — она станет основой бизнеса компании. В ответ на критику больших затрат на ИИ-разработки, Пичаи ответил, что при каждом крупном «сдвиге платформы» инвестиции на начальных этапах непропорционально высоки, но позже эффективность повышается. Компания стремится добиться нулевых выбросов как в своих собственных операциях, так и в «цепочке создания стоимости» уже к 2030 году. При этом в 2023 году общие выбросы её парниковых газов оказались на 48 % больше, чем в 2019 году. Правда, сама компания говорит, такой уж большой вины ИИ в этом нет. По словам Пичаи, сейчас рассматриваются дополнительные инвестиции в современные технологии, от солнечной энергетики до, возможно, малых модульных реакторов (SMR). Правда, глава Google не упомянул, когда могут начаться закупки энергии АЭС. Предполагается, что часть может закупаться в США. На этом поле не исключена конкуренция с Amazon, которая уже приобрела кампус ЦОД, запитанный от АЭС Susquehanna. Также в сентябре было объявлено о намерении Microsoft закупать электричество у АЭС Three Mile Island, которая будет перезапущена именно для этой цели.
02.10.2024 [12:26], Руслан Авдеев
Google потратит $1 млрд на постройку облачной и ИИ-инфраструктуры в ТаиландеКомпания Google намерена вложить $1 млрд в строительство новых дата-центров в Таиланде. Bloomberg сообщает, что она присоединится к другим технологическим компаниям, масштабирующим облачную и ИИ-инфраструктуру в Юго-Восточной Азии (ЮВА). Компания намерена добавить соответствующие объекты в Бангкоке и Чонбури — эта провинция расположена к юго-востоку от тайской столицы. Это вложение позволит добавить $4 млрд в экономику страны к 2029 году и в следующие пять лет компания будет поддерживать 14 тыс. рабочих мест. Инвестиция, совместно анонсированная Google и властями Таиланда, отражает усилия, прилагаемые азиатскими странами для привлечения в регион зарубежных технологических компаний. Если ранее многие страны региона с населением около 675 млн человек были не особенно развиты в IT-сфере, то теперь для компаний вроде Apple, Microsoft, NVIDIA и Amazon открываются большие возможности. Они тратят миллиарды долларов на строительство новых ЦОД от Таиланда и Малайзии до Сингапура и Индонезии. Как сообщают в Google, компания инвестирует в облачные регионы, дата-центры и подводные кабели в ЮВА — в компании считают, что регион обладает большим потенциалом. Всего на конец 2023 года Google, AWS и Microsoft намеревались инвестировать в строительство дата-центров в Таиланде почти $8,5 млрд. Google также анонсировала миллиарды долларов инвестиций в Малайзии и Сингапуре. В настоящее время правительства всего мира пытаются сохранить баланс, с одной стороны стараясь обеспечить цифровой суверенитет, с другой — привлечь иностранные инвестиции. Власти надеются сохранить контроль над данными своих граждан и способствуют формированию местных технологических компаний, в то же время применяя инвестиционные ресурсы и опыт транснациональных гигантов для строительства облачной и ИИ-инфраструктуры. Новые мощности ЦОД Таиланда помогут поддержать сервисы Google на основе ИИ — поиска, карт и офисных инструментов. Компания начала вести дела в Таиланде ещё 13 лет назад и заявляет, что в последние пять лет обучила 3,6 млн студентов, преподавателей и разработчиков, а также представителей предприятий малого и среднего бизнеса. Инвестиции вполне соответствуют политике страны в отношении облачных услуг. Предполагается, что они ускорят развитие инновационных цифровых сервисов и, в ответ, это позволит компании открыть там новые экономические возможности. Летом власти Таиланда одобрили $291 млн инвестиций в местную индустрию ЦОД. |
|