Материалы по тегу: big data

26.07.2021 [13:17], Сергей Карасёв

«Билайн» и Политех займутся большими данными и машинным обучением

«ВымпелКом» (бренд «Билайн») и Санкт-Петербургский политехнический университет Петра Великого объявили о заключении соглашения о сотрудничестве. Стороны намерены сообща развивать ряд перспективных направлений, связанных с большими данными и искусственным интеллектом. Кроме того, будут вестись исследования в сфере систем защиты облачной инфраструктуры и информационной безопасности.

По условиям договора планируется формирование рабочих групп для реализации совместных научно-исследовательских работ в рамках национальных проектов и государственных программ. Стороны намерены осуществлять исследования и разработки, а также проводить совместные научно-технические мероприятия.

Наконец, «Билайн» и Политех будут совместно участвовать в научно-технических программах, направленных на решение хозяйственных, социальных и других проблем Санкт-Петербурга, Ленинградской области и Северо-Западного федерального округа.

Постоянный URL: http://servernews.ru/1045162
02.06.2021 [00:00], Владимир Мироненко

Фонды KKR & Co и Clayton Dubilier & Rice близки к покупке Cloudera за $5,3 млрд

Частные инвестиционные фонды KKR & Co и Clayton Dubilier & Rice LLC вплотную приблизились к заключению сделки по приобретению Cloudera Inc, американского разработчика решений на базе Apache Hadoop и ряда связанных программных продуктов для Big Data, сообщил ресурс Bloomberg News со ссылкой на информированный источник. Сумма сделки оценивается в $5,3 млрд.

Фонды готовы приобрести Cloudera с выплатой из расчёта $16 за акцию, что на четветрть выше стоимости акции на момент закрытия вчерашних торгов. Bloomberg News сообщил, что Cloudera с середины 2020 года изучала возможность продажи. Крупнейшим акционером компании является инвестор Карл Айкан (Carl Icahn), вторую по величине долю акций имеет Intel, которая ранее активно инвестировала в Cloudera.

Bloomberg / Getty Images

Bloomberg / Getty Images

Сделка, как ожидается, будет закрыта во второй половине этого года. Cloudera настояла на том, чтобы условия сделки включали 30-дневный период ожидания, в течение которого компания сможет рассматривать более выгодные альтернативные предложения. Среди возможных покупателей могут быть IBM, Amazon, Alphabet и Microsoft, которые, согласно слухам, в разное время якобы интересовались этой возможностью.

В последние годы дела у компании шли не лучшим образом. В 2019 году стоимость её акций достигли минимума и, хотя она со временем восстановилась, на текущий момент их стоимость составляет около $12/шт., что ниже $15/шт. в момент выхода на биржу в 2017 году.

Постоянный URL: http://servernews.ru/1040989
04.02.2021 [00:58], Андрей Галадей

После очередных инвестиций от Amazon, Alphabet, Microsoft и Salesforce оценка Databricks выросла до $28 млрд

Amazon Web Services, Alphabet CapitalG, Salesforce Ventures и Microsoft приняли участие в раунде G финансирования стартапа Databricks, который разрабатывает инструменты управления данными. В результате капитализация компании выросла до $28 млрд. Это означает, что гиганты IT-рынка вполне признают то, насколько важна компания Databricks и её разработки. При этом по итогам 2020 года компания заработала $425 млн.

venturebeat.com

В активе Databricks есть решение Apache Spark. Это фреймворк Big Data с открытым исходным кодом для реализации распределённой обработки неструктурированных и слабоструктурированных данных. Он, в частности, применяется для работы поисковых и контекстных механизмов на сайтах Facebook, Yahoo, eBay, Netflix и массы других. Также он позволяет готовить данные для обработки ИИ-алгоритмами.

Отметим, что Databricks была основана самим автором Apache Spark и его коллегами. Компания является одной из целого ряда аналогичных стартапов, которые предлагают готовые для внедрения корпоративные продукты на базе Apache Spark. На данный момент Databricks не планирует выходить на биржу, но в будущем рассматривает возможность IPO.

Постоянный URL: http://servernews.ru/1031810
29.01.2021 [20:04], Андрей Галадей

NVIDIA обвинили в мошенничестве с тестами для систем Big Data

NVIDIA обвинили в мошенничестве из-за теста производительности для систем Big Data. В прошлом году на конференции GTC представители компании заявили, что её система DGX A100 был в 19,5 раз быстрее ближайшего конкурента в тесте TPCx-BB, разработанном Transaction Processing Performance Council (TPC). Однако на этой неделе представители TPC обвинили компанию в нарушении условий использования своего теста и в обходе его ограничений, что позволила искусственно завысить результаты, сообщает The Register.

В NVIDIA утверждали, что её система завершила тест TPCx-BB за 14,5 минут вместо 4,7 часов. Для тестирования использовалась сборка на базе 128 графических ускорителей A100 (16 × DGX A100). При этом NVIDIA не опубликовала свои результаты, а лишь заявила о факте сравнения их с официальными результатами TPC. Это, как отметили в TPC, является нарушением правил тестирования, поэтому приведённые NVIDIA сравнения следует считать недействительными.

Тест TPCx-BB измеряет производительность систем Big Data на базе платформы Hadoop, которая поддерживает GPU-ускорение. Он включает в себя выполнение SQL-запросов к структурированным данным и использует алгоритмы машинного обучения для неструктурированных данных, чтобы имитировать задачи аналитики больших данных в сфере розничной торговли.

Постоянный URL: http://servernews.ru/1031416
10.12.2020 [15:57], Сергей Карасёв

Dell создала альянс Digi-Data для ускорения цифровой трансформации компаний

Компания Dell создала альянс Digi-Data, который поможет крупным корпорациям и организациям с максимальной пользой и эффективностью оперировать растущими объёмами информации, поступающей из самых разнообразных источников. Об инициативе, как сообщает ресурс DigiTimes, рассказал Теренс Ляо (Terence Liao), генеральный менеджер Dell Technologies Taiwan.

Проект позволит ускорить цифровую трансформацию компаний и предприятий. На сегодняшний день новый альянс включает 12 участников, в том числе Ericsson, NVIDIA, VMware, Delta Electronics, Sysage Technology, Systex и Dynamic Computing Technology.

Фотографии Reuters

Фотографии Reuters

Dell отмечает, что сейчас наблюдается стремительный рост объёмов генерируемой информации. Она поступает от всевозможных устройств Интернета вещей, 5G-систем, платформ искусственного интеллекта и машинного обучения, систем виртуальной и дополненной реальности. Сформированный альянс будет способствовать накоплению и анализу этих потоков данных.

Согласно исследованию Dell, объём генерируемых в глобальном масштабе данных вырастет с 33 зеттабайт в настоящее время до 175 зеттабайт в 2025 году. Иными словами, показатель CAGR (среднегодовой темп роста в сложных процентах) составит 61 %. В таких условиях компаниям потребуются эффективные решения для управления информацией. 

Постоянный URL: http://servernews.ru/1027514
01.12.2020 [11:54], Юрий Поздеев

GSI Gemini APU опережает Xeon в 100 раз на операциях поиска подобных элементов

Поиск сходства (Similarity search) в последние годы стал ключевой концепцией в науке, позволяя исследователям анализировать огромные объемы неструктурированных данных, выявляя связи, которые невозможно выявить другими методами. Метод этот очень ресурсоемкий и затратный: для выявления сходства между элементами необходимо проанализировать миллионы или миллиарды записей базы данных, выполняя побитное сравнение. Примером использования подобных методов может служить распознавание лиц, секвенирование ДНК, разработка новых лекарственных препаратов и многое другое.

На данный момент для реализации подобных алгоритмов используются процессоры или графические ускорители, однако они не являются оптимальным решением из-за того, что возникает узкое место между памятью и ядрами процессора или GPU. На CPU алгоритм поиска сходства запускает по одному процессу для каждого ядра, при этом набор данных или его часть считываются в память, а затем ядро ЦП сравнивает каждую запись набора данных с исходным элементом. При поиске схожих изображений база данных может содержать миллиарды записей и поиск занимает достаточно много времени, также не стоит забывать об энергопотреблении серверных процессоров, которые давно перешагнули за отметку в 200 Вт.

С графическими ускорителями дела обстоят несколько лучше: GPU имеет в своем распоряжении тысячи унифицированных ядер, однако они работают недостаточно быстро и поиск похожих элементов все равно занимает значительное время. По словам GSI Technology, ее специализированное решение для алгоритма поиска сходства значительно опережает Intel Xeon и GPU NVIDIA. По сравнению с Intel Xeon специализированный «блок ассоциативной обработки» (APU) Gemini выполняет поиск схожих элементов в 100 раз быстрее, потребляя при этом на 70% меньше электроэнергии.

Архитектура APU Gemini построена таким образом, что вычислительные блоки размещаются вместе с памятью, что позволяет обрабатывать данные параллельно, избегая перемещения данных из памяти в ядро и обратно. Даже в случае оптимизированного обмена с высокоскоростной памятью в GPU, эти накладные расходы все равно оказывают значительное влияние на скорость работы алгоритма.

APU Gemini выпускается в виде карты расширения с интерфейсом PCIe 4.0: на плате размещаются SRAM (Static Random Access Memory) и два миллиона битовых процессоров для вычислений в памяти. GSI совмещает 1-битные блоки обработки информации с линиями чтений-изменения-записи SRAM в одном массивном чипе, причем все 1-битные ядра могут работать параллельно.

Карта GSI обладает двумя блоками SRAM по 96 Мбайт и 16 Гбайт общей памяти. Для сравнения: GPU NVIDIA A100 может обрабатывать 104х4096 бит за тактовый цикл 1,4 ГГц и имеет пропускную способность памяти 7 Тбайт/с, а APU Gemini выполняет два миллиона 1-битных операций за тактовый цикл 400 МГц с пропускной способностью памяти 26 Тбайт/с, имея при этом в разы меньшее энергопотребление.

Решение получилось интересным, однако не нужно забывать о том, что оно очень узкоспециализированное и создано только для одной, пусть и очень ресурсоемкой задачи. Подобные решения все чаще появляются в последние годы из-за внедрения множества алгоритмов ИИ и анализа больших данных, с которыми универсальные процессоры или GPU справляются хуже специализированных решений.

Постоянный URL: http://servernews.ru/1026694
06.10.2020 [20:44], Юрий Поздеев

Dell PowerEdge XE7100: большой сервер для больших данных

Dell Technologies анонсировала самый большой сервер из линейки PowerEdge XE. Новинка носит название XE7100 и обладает внушительными габаритами: высота 5U, глубина 911 мм (использует всю глубину стандартных серверных стоек).

Согласно спецификации, Dell EMC PowerEdge XE7100 будет выпускаться в трех вариантах, с оптимизацией под разные типы нагрузок, при этом базовая версия серверного шасси вмещает до 100 жестких дисков форм-фактора 3,5” общим объемом до 1,6 Пбайт и может использоваться для создания программно-определяемых объектных хранилищ, решений для интеллектуальной видеоаналитики и потоковой передачи мультимедиа.

В базовое шасси могут устанавливаться либо один полноразмерный узел XE7440 или два узла XE7420. Компоновка достаточно плотная, поэтому поддерживаются процессоры с теплопакетом только до 150 Вт. Со слотами для оперативной памяти тоже без значительного запаса: всего 16.

Решение получилось специфичным и неоднозначным: с одной стороны вместительная дисковая подсистема большого объема, с другой — слабые процессоры и малый объем оперативной памяти. Если заявлена интеллектуальная видеоаналитика, то, может быть, с графическими ускорителями все хорошо? К сожалению, поддерживается только один полноразмерный ускоритель PCIe x16, поэтому рассчитывать на большие вычислительные мощности не стоит. Поэтому, возвращаемся к базовым сценариям использования: программно-определяемое хранилище, несложная видеоаналитика и потоковые видеосервисы.

Подобное решение востребовано рынком, но очень многое будет зависеть от конечной цены. Будем следить за появлением Dell EMC PowerEdge на российском рынке, произойти это должно в ближайшие месяцы.

Постоянный URL: http://servernews.ru/1022333
25.09.2020 [17:42], Владимир Мироненко

3i DPP позволит работать с большими данными без передачи чувствительной информации в облако

Компания 3iTech создала российскую платформу обработки больших данных 3i Data Processing Platform (3i DPP), которая позволит отечественным предприятиям работать с неструктурированными данными, не передавая чувствительную информацию, содержащую коммерческую тайну, в публичные облака.

Речь идёт о решении класса Enterprise, соответствующем отраслевым стандартам по отказоустойчивости, производительности и защищенности обрабатываемых данных. С помощью 3i DPP можно управлять сбором, обработкой и хранением больших данных с использованием технологии параллельных вычислительных кластеров. Платформа поддерживает два режима работы с данными — потоковый (stream) и пакетный (batch). Есть встроенный сервис обогащения данных и механизмы для сохранения промежуточных результатов «дорогой» обработки. Платформа легко масштабируется и динамически потребляет вычислительные ресурсы, что снижает стоимость владения. Скорость обработки входных данных близка к реальному масштабу времени.

Платформа может использоваться для работы с разнородной информацией, включая текстовую, видео и аудио. Её можно интегрировать с внешними источниками данных, с корпоративными системами заказчика, с различными СУБД (PostgreSQL, Microsoft SQL Server, Oracle и т.п.), NoSQL(Apache Cassandra, ScyllaDB, MongoDB), системами управления очередями и брокерами (Apache Kafka, Apache ActiveMQ, RabbitMQ и т. п.).

На основе 3iDPP сторонние разработчики и интеграторы смогут создавать собственные решения, при желании, дополнив её модулями аналитической текстовой и речевой обработки, а также другими функциональными возможностями, созданными компанией 3iTech на базе технологий AI, ML.

3iDPP уже прошла регистрацию в реестре отечественного ПО и может применяться в государственных компаниях и организациях. Также сообщается, что её характеристики получили подтверждение в защищённых операционных средах.

Постоянный URL: http://servernews.ru/1021551
24.10.2019 [11:35], Сергей Юртайкин

Разработчика ПО для анализа больших данных Databricks оценили в $6,2 млрд

Разработчик решений для анализа больших данных Databricks объявил о привлечении $400 млн инвестиций, в результате чего общий объём полученных компанией средств достиг $900 млн.

По итогам последнего на данный момент раунда финансирования стартап был оценен в $6,2 млрд против $2,75 млрд в феврале 2019-го. В октябре в Databricks вложились как действующие инвесторы (Microsoft и Andreessen Horowitz), так и новые (Tiger Global Management, BlackRock и T. Rowe Price Group).

Главным продуктом Databricks является Unified Analytics Platform. Это фреймворк с открытым исходным кодом, который используется компаниями для анализа данных, а также для разметки наборов данных с целью построения ИИ-моделей. 

Решение Databricks также предоставляет возможности для совместной работы. Оно обеспечивает тесное взаимодействия между специалистами по обработке данных и разработчиками, которым необходимо работать вместе для создания более совершенных моделей искусственного интеллекта.

Постоянный URL: http://servernews.ru/996137
11.09.2019 [17:29], Сергей Карасёв

Центр экспертизы «Билайна» будет работать в сфере BigData и B2C

«Билайн» объявил об открытии в России специализированного Центра технологической экспертизы.

Новая площадка, как сообщается, будет работать по трём основным направлениям. Это, в частности, «большие» данные. Вторым направлением названа экосистема решений для самообслуживания клиентов B2C. Наконец, говорится о сегменте телевидения и медиа.

Сотрудники центра будут работать с различными проектами, связанными с обработкой «больших» данных. Это предиктивные алгоритмы, рекомендательные инструменты, скоринговые модели и т. д.

Задачами Центра экспертизы также станут развитие сотрудничества между операционными единицами группы VEON и содействие обмену технологическими ноу-хау. Напомним, что именно в состав VEON входит компания «ВымпелКом», которая работает под брендом «Билайн».

«Центр станет частью основной стратегии группы VEON по усилению бизнеса в сфере связи наряду с поддержкой развития и распространения новых цифровых сервисов на основе продвинутой аналитики с учётом потребностей отдельных рынков», — отмечает компания. 

Постоянный URL: http://servernews.ru/993899
Система Orphus