Материалы по тегу: big data

30.09.2021 [11:37], Сергей Карасёв

Объём рынка больших данных в Европе в 2021 году достигнет $50 млрд

Компания International Data Corporation (IDC) обнародовала свежий прогноз по европейскому рынку больших данных и средств бизнес-аналитики (BDA). В текущем году, как ожидается, отрасль покажет 7-процентный рост в денежном выражении по сравнению с 2020-м.

Отмечается, что Европа постепенно оправляется от удара коронавируса, а поэтому затраты в сфере информационных технологий растут. На этом фоне выручка в сегменте BDA по итогам текущего года достигнет приблизительно $50 млрд.

 Здесь и ниже изображения pixabay.com

Здесь и ниже изображения pixabay.com

В период с 2021 по 2025 год, как полагают эксперты, показатель CAGR (среднегодовой темп роста в сложных процентах) на европейском рынке больших данных и средств бизнес-аналитики составит 11 %. Иными словами, в обозримом будущем отрасль ожидает устойчивый рост.

IDC отмечает, что большие данные играют важную роль в рационализации сложных бизнес-процессов и снижении затрат. У крупных компаний и организаций есть множество направлений работы с применением BDA.

В 2021 году на банковскую сферу и дискретное производство придётся четверть всех затрат в сегменте BDA. Ключевыми задачами, решаемыми с помощью больших данных, называются автоматизация различных процессов и выявление мошенничества.

Постоянный URL: http://servernews.ru/1050246
17.08.2021 [18:00], Сергей Карасёв

Расходы на большие данные и аналитику в 2021 году вырастут на 10%

Компания International Data Corporation (IDC) обнародовала свежий прогноз по глобальному рынку продуктов и сервисов в области больших данных и бизнес-аналитики (BDA). По мнению экспертов, соответствующее направление в ближайшие годы будет устойчиво развиваться.

В текущем году затраты в обозначенной сфере ожидаются на уровне $215,7 млрд. Если этот прогноз оправдается, рост по отношению к прошлому году составит 10,1 %. IDC говорит о том, что мировая экономика начала оправляться после удара коронавируса.

 Здесь и ниже изображения pixabay.com

Здесь и ниже изображения pixabay.com

Показатель CAGR (среднегодовой темп роста в сложных процентах) на рынке BDA в период с 2021 по 2025 год прогнозируется на уровне 12,8 %. В настоящее время по объёму инвестиций в этот сектор лидируют банковский сектор, дискретное производство и профессиональные сервисы. По итогам текущего года на эти три направления придётся примерно треть в общем объёме затрат.

Ещё три крупные отрасли — обрабатывающая промышленность, телекоммуникации и государственный сектор. Суммарные BDA-затраты составят практически $47 млрд. Отмечается также, что более половины всех расходов в области больших данных и бизнес-аналитики в текущем году придётся на всевозможные сервисы.

Постоянный URL: http://servernews.ru/1046906
26.07.2021 [13:17], Сергей Карасёв

«Билайн» и Политех займутся большими данными и машинным обучением

«ВымпелКом» (бренд «Билайн») и Санкт-Петербургский политехнический университет Петра Великого объявили о заключении соглашения о сотрудничестве. Стороны намерены сообща развивать ряд перспективных направлений, связанных с большими данными и искусственным интеллектом. Кроме того, будут вестись исследования в сфере систем защиты облачной инфраструктуры и информационной безопасности.

По условиям договора планируется формирование рабочих групп для реализации совместных научно-исследовательских работ в рамках национальных проектов и государственных программ. Стороны намерены осуществлять исследования и разработки, а также проводить совместные научно-технические мероприятия.

Наконец, «Билайн» и Политех будут совместно участвовать в научно-технических программах, направленных на решение хозяйственных, социальных и других проблем Санкт-Петербурга, Ленинградской области и Северо-Западного федерального округа.

Постоянный URL: http://servernews.ru/1045162
02.06.2021 [00:00], Владимир Мироненко

Фонды KKR & Co и Clayton Dubilier & Rice близки к покупке Cloudera за $5,3 млрд

Частные инвестиционные фонды KKR & Co и Clayton Dubilier & Rice LLC вплотную приблизились к заключению сделки по приобретению Cloudera Inc, американского разработчика решений на базе Apache Hadoop и ряда связанных программных продуктов для Big Data, сообщил ресурс Bloomberg News со ссылкой на информированный источник. Сумма сделки оценивается в $5,3 млрд.

Фонды готовы приобрести Cloudera с выплатой из расчёта $16 за акцию, что на четветрть выше стоимости акции на момент закрытия вчерашних торгов. Bloomberg News сообщил, что Cloudera с середины 2020 года изучала возможность продажи. Крупнейшим акционером компании является инвестор Карл Айкан (Carl Icahn), вторую по величине долю акций имеет Intel, которая ранее активно инвестировала в Cloudera.

 Bloomberg / Getty Images

Bloomberg / Getty Images

Сделка, как ожидается, будет закрыта во второй половине этого года. Cloudera настояла на том, чтобы условия сделки включали 30-дневный период ожидания, в течение которого компания сможет рассматривать более выгодные альтернативные предложения. Среди возможных покупателей могут быть IBM, Amazon, Alphabet и Microsoft, которые, согласно слухам, в разное время якобы интересовались этой возможностью.

В последние годы дела у компании шли не лучшим образом. В 2019 году стоимость её акций достигли минимума и, хотя она со временем восстановилась, на текущий момент их стоимость составляет около $12/шт., что ниже $15/шт. в момент выхода на биржу в 2017 году.

Постоянный URL: http://servernews.ru/1040989
04.02.2021 [00:58], Андрей Галадей

После очередных инвестиций от Amazon, Alphabet, Microsoft и Salesforce оценка Databricks выросла до $28 млрд

Amazon Web Services, Alphabet CapitalG, Salesforce Ventures и Microsoft приняли участие в раунде G финансирования стартапа Databricks, который разрабатывает инструменты управления данными. В результате капитализация компании выросла до $28 млрд. Это означает, что гиганты IT-рынка вполне признают то, насколько важна компания Databricks и её разработки. При этом по итогам 2020 года компания заработала $425 млн.

 venturebeat.com

В активе Databricks есть решение Apache Spark. Это фреймворк Big Data с открытым исходным кодом для реализации распределённой обработки неструктурированных и слабоструктурированных данных. Он, в частности, применяется для работы поисковых и контекстных механизмов на сайтах Facebook*, Yahoo, eBay, Netflix и массы других. Также он позволяет готовить данные для обработки ИИ-алгоритмами.

Отметим, что Databricks была основана самим автором Apache Spark и его коллегами. Компания является одной из целого ряда аналогичных стартапов, которые предлагают готовые для внедрения корпоративные продукты на базе Apache Spark. На данный момент Databricks не планирует выходить на биржу, но в будущем рассматривает возможность IPO.


* Внесена в перечень общественных объединений и религиозных организаций, в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25.07.2002 № 114-ФЗ «О противодействии экстремистской деятельности».

Постоянный URL: http://servernews.ru/1031810
29.01.2021 [20:04], Андрей Галадей

NVIDIA обвинили в мошенничестве с тестами для систем Big Data

NVIDIA обвинили в мошенничестве из-за теста производительности для систем Big Data. В прошлом году на конференции GTC представители компании заявили, что её система DGX A100 был в 19,5 раз быстрее ближайшего конкурента в тесте TPCx-BB, разработанном Transaction Processing Performance Council (TPC). Однако на этой неделе представители TPC обвинили компанию в нарушении условий использования своего теста и в обходе его ограничений, что позволила искусственно завысить результаты, сообщает The Register.

В NVIDIA утверждали, что её система завершила тест TPCx-BB за 14,5 минут вместо 4,7 часов. Для тестирования использовалась сборка на базе 128 графических ускорителей A100 (16 × DGX A100). При этом NVIDIA не опубликовала свои результаты, а лишь заявила о факте сравнения их с официальными результатами TPC. Это, как отметили в TPC, является нарушением правил тестирования, поэтому приведённые NVIDIA сравнения следует считать недействительными.

Тест TPCx-BB измеряет производительность систем Big Data на базе платформы Hadoop, которая поддерживает GPU-ускорение. Он включает в себя выполнение SQL-запросов к структурированным данным и использует алгоритмы машинного обучения для неструктурированных данных, чтобы имитировать задачи аналитики больших данных в сфере розничной торговли.

Постоянный URL: http://servernews.ru/1031416
10.12.2020 [15:57], Сергей Карасёв

Dell создала альянс Digi-Data для ускорения цифровой трансформации компаний

Компания Dell создала альянс Digi-Data, который поможет крупным корпорациям и организациям с максимальной пользой и эффективностью оперировать растущими объёмами информации, поступающей из самых разнообразных источников. Об инициативе, как сообщает ресурс DigiTimes, рассказал Теренс Ляо (Terence Liao), генеральный менеджер Dell Technologies Taiwan.

Проект позволит ускорить цифровую трансформацию компаний и предприятий. На сегодняшний день новый альянс включает 12 участников, в том числе Ericsson, NVIDIA, VMware, Delta Electronics, Sysage Technology, Systex и Dynamic Computing Technology.

 Фотографии Reuters

Фотографии Reuters

Dell отмечает, что сейчас наблюдается стремительный рост объёмов генерируемой информации. Она поступает от всевозможных устройств Интернета вещей, 5G-систем, платформ искусственного интеллекта и машинного обучения, систем виртуальной и дополненной реальности. Сформированный альянс будет способствовать накоплению и анализу этих потоков данных.

Согласно исследованию Dell, объём генерируемых в глобальном масштабе данных вырастет с 33 зеттабайт в настоящее время до 175 зеттабайт в 2025 году. Иными словами, показатель CAGR (среднегодовой темп роста в сложных процентах) составит 61 %. В таких условиях компаниям потребуются эффективные решения для управления информацией.

Постоянный URL: http://servernews.ru/1027514
01.12.2020 [11:54], Юрий Поздеев

GSI Gemini APU опережает Xeon в 100 раз на операциях поиска подобных элементов

Поиск сходства (Similarity search) в последние годы стал ключевой концепцией в науке, позволяя исследователям анализировать огромные объемы неструктурированных данных, выявляя связи, которые невозможно выявить другими методами. Метод этот очень ресурсоемкий и затратный: для выявления сходства между элементами необходимо проанализировать миллионы или миллиарды записей базы данных, выполняя побитное сравнение. Примером использования подобных методов может служить распознавание лиц, секвенирование ДНК, разработка новых лекарственных препаратов и многое другое.

На данный момент для реализации подобных алгоритмов используются процессоры или графические ускорители, однако они не являются оптимальным решением из-за того, что возникает узкое место между памятью и ядрами процессора или GPU. На CPU алгоритм поиска сходства запускает по одному процессу для каждого ядра, при этом набор данных или его часть считываются в память, а затем ядро ЦП сравнивает каждую запись набора данных с исходным элементом. При поиске схожих изображений база данных может содержать миллиарды записей и поиск занимает достаточно много времени, также не стоит забывать об энергопотреблении серверных процессоров, которые давно перешагнули за отметку в 200 Вт.

С графическими ускорителями дела обстоят несколько лучше: GPU имеет в своем распоряжении тысячи унифицированных ядер, однако они работают недостаточно быстро и поиск похожих элементов все равно занимает значительное время. По словам GSI Technology, ее специализированное решение для алгоритма поиска сходства значительно опережает Intel Xeon и GPU NVIDIA. По сравнению с Intel Xeon специализированный «блок ассоциативной обработки» (APU) Gemini выполняет поиск схожих элементов в 100 раз быстрее, потребляя при этом на 70% меньше электроэнергии.

Архитектура APU Gemini построена таким образом, что вычислительные блоки размещаются вместе с памятью, что позволяет обрабатывать данные параллельно, избегая перемещения данных из памяти в ядро и обратно. Даже в случае оптимизированного обмена с высокоскоростной памятью в GPU, эти накладные расходы все равно оказывают значительное влияние на скорость работы алгоритма.

APU Gemini выпускается в виде карты расширения с интерфейсом PCIe 4.0: на плате размещаются SRAM (Static Random Access Memory) и два миллиона битовых процессоров для вычислений в памяти. GSI совмещает 1-битные блоки обработки информации с линиями чтений-изменения-записи SRAM в одном массивном чипе, причем все 1-битные ядра могут работать параллельно.

Карта GSI обладает двумя блоками SRAM по 96 Мбайт и 16 Гбайт общей памяти. Для сравнения: GPU NVIDIA A100 может обрабатывать 104х4096 бит за тактовый цикл 1,4 ГГц и имеет пропускную способность памяти 7 Тбайт/с, а APU Gemini выполняет два миллиона 1-битных операций за тактовый цикл 400 МГц с пропускной способностью памяти 26 Тбайт/с, имея при этом в разы меньшее энергопотребление.

Решение получилось интересным, однако не нужно забывать о том, что оно очень узкоспециализированное и создано только для одной, пусть и очень ресурсоемкой задачи. Подобные решения все чаще появляются в последние годы из-за внедрения множества алгоритмов ИИ и анализа больших данных, с которыми универсальные процессоры или GPU справляются хуже специализированных решений.

Постоянный URL: http://servernews.ru/1026694
06.10.2020 [20:44], Юрий Поздеев

Dell PowerEdge XE7100: большой сервер для больших данных

Dell Technologies анонсировала самый большой сервер из линейки PowerEdge XE. Новинка носит название XE7100 и обладает внушительными габаритами: высота 5U, глубина 911 мм (использует всю глубину стандартных серверных стоек).

Согласно спецификации, Dell EMC PowerEdge XE7100 будет выпускаться в трех вариантах, с оптимизацией под разные типы нагрузок, при этом базовая версия серверного шасси вмещает до 100 жестких дисков форм-фактора 3,5” общим объемом до 1,6 Пбайт и может использоваться для создания программно-определяемых объектных хранилищ, решений для интеллектуальной видеоаналитики и потоковой передачи мультимедиа.

В базовое шасси могут устанавливаться либо один полноразмерный узел XE7440 или два узла XE7420. Компоновка достаточно плотная, поэтому поддерживаются процессоры с теплопакетом только до 150 Вт. Со слотами для оперативной памяти тоже без значительного запаса: всего 16.

Решение получилось специфичным и неоднозначным: с одной стороны вместительная дисковая подсистема большого объема, с другой — слабые процессоры и малый объем оперативной памяти. Если заявлена интеллектуальная видеоаналитика, то, может быть, с графическими ускорителями все хорошо? К сожалению, поддерживается только один полноразмерный ускоритель PCIe x16, поэтому рассчитывать на большие вычислительные мощности не стоит. Поэтому, возвращаемся к базовым сценариям использования: программно-определяемое хранилище, несложная видеоаналитика и потоковые видеосервисы.

Подобное решение востребовано рынком, но очень многое будет зависеть от конечной цены. Будем следить за появлением Dell EMC PowerEdge на российском рынке, произойти это должно в ближайшие месяцы.

Постоянный URL: http://servernews.ru/1022333
25.09.2020 [17:42], Владимир Мироненко

3i DPP позволит работать с большими данными без передачи чувствительной информации в облако

Компания 3iTech создала российскую платформу обработки больших данных 3i Data Processing Platform (3i DPP), которая позволит отечественным предприятиям работать с неструктурированными данными, не передавая чувствительную информацию, содержащую коммерческую тайну, в публичные облака.

Речь идёт о решении класса Enterprise, соответствующем отраслевым стандартам по отказоустойчивости, производительности и защищенности обрабатываемых данных. С помощью 3i DPP можно управлять сбором, обработкой и хранением больших данных с использованием технологии параллельных вычислительных кластеров. Платформа поддерживает два режима работы с данными — потоковый (stream) и пакетный (batch). Есть встроенный сервис обогащения данных и механизмы для сохранения промежуточных результатов «дорогой» обработки. Платформа легко масштабируется и динамически потребляет вычислительные ресурсы, что снижает стоимость владения. Скорость обработки входных данных близка к реальному масштабу времени.

Платформа может использоваться для работы с разнородной информацией, включая текстовую, видео и аудио. Её можно интегрировать с внешними источниками данных, с корпоративными системами заказчика, с различными СУБД (PostgreSQL, Microsoft SQL Server, Oracle и т.п.), NoSQL(Apache Cassandra, ScyllaDB, MongoDB), системами управления очередями и брокерами (Apache Kafka, Apache ActiveMQ, RabbitMQ и т. п.).

На основе 3iDPP сторонние разработчики и интеграторы смогут создавать собственные решения, при желании, дополнив её модулями аналитической текстовой и речевой обработки, а также другими функциональными возможностями, созданными компанией 3iTech на базе технологий AI, ML.

3iDPP уже прошла регистрацию в реестре отечественного ПО и может применяться в государственных компаниях и организациях. Также сообщается, что её характеристики получили подтверждение в защищённых операционных средах.

Постоянный URL: http://servernews.ru/1021551
Система Orphus