Британское правительство провело трёхмесячное тестирование ИИ-помощника Microsoft M365 Copilot и не выявило заметного роста производительности чиновников. Хотя выполнение некоторых задач ускорилось, другие стали только труднее из-за низкого качества предоставляемых ИИ материалов, сообщает The Register. Впрочем, тестирование проводилось почти год назад, за прошедшее время ИИ-помощник должен был «поумнеть».

Департамент бизнеса и торговли Великобритании (Department for Business and Trade) получил 1 тыс. лицензий на использование соответствующего Copilot с октября по декабрь 2024 года. Большую часть лицензий разобрали добровольцы, 30 % участников отобрали случайным образом. Около 300 испытуемых дали согласие на анализ своих данных. Выяснилось, что 72 % пользователей были «удовлетворены» или «очень удовлетворены» работой ИИ-помощника и не особенно обрадовались, когда тест завершился. Тем не менее, реальный рост производительности оказался неоднозначным.

Около ⅔ участников эксперимента использовали Microsoft 365 Copilot не менее раза в неделю, 30 % — не реже раза в день. В Великобритании стоимость ежемесячной подписки составляет от £4,90 до £18,10 за пользователя, так что в масштабах государственной машины затраты могут быть значительными.

При этом в среднем на одного пользователя приходилось всего 72 взаимодействия с Copilot за 63 рабочих дня, т.е. примерно по 1,14/день. Чаще всего Copilot использовали в Word, Teams и Outlook, значительно реже — в PowerPoint и Excel, а реже всего — в Loop и OneNote. Три самых популярных задания: расшифровка или подведение итогов встречи, написание электронных писем и создание резюме записей. Именно эти задачи и вызвали «удовлетворение». Реже всего Copilot просили составить расписание, проверить программный код и сгенерировать изображение.

Время, затраченное на выполнение задачи с помощью Copilot, регистрировалось и сравнивалось со временем выполнения сотрудниками задач вручную. Оказалось, пользователи M365 Copilot составляли сводки отчётов и писали электронные письма быстрее, качественнее и точнее, чем те, кто не пользовался ботом. Но, например, экономия времени при написании e-mail была крайне незначительной. Анализ данных в Excel выполнялся ботом медленнее и с худшим качеством и точностью, чем вручную. Слайды PowerPoint создавались в среднем на 7 мин. быстрее, но качество и точность были хуже, а результаты приходилось исправлять вручную.

По словам участников эксперимента, рутинные административные задачи эффективнее выполнять с помощью Microsoft 365 Copilot, высвобождая время на более важные задачи. Некоторые другие участники эксперимента сообщили, что использовали сэкономленное время для посещения обучающих занятий или прогулок в обеденный перерыв. Но всё это не означает, что ИИ-помощник действительно повысил производительность работы чиновников, хотя сама Microsoft при продвижении Copilot делает упор именно на экономию времени.

Кроме того, 22 % участников отметили наличие «галлюцинаций» у ИИ-помощники, 43 % их не заметили, ещё 11 % не смогли уверенно сказать, были ли «галлюцинации» во время тестирования, а остальные отмолчались. При этом отношение со стороны коллег к пользователям Copilot тоже были неоднозначным — некоторые отнеслись к участникам эксперимента с некоторой степенью «прохладцы». До принятия окончательного решения о массовом внедрении Microsoft 365 Copilot Департамент проведёт анализ экологических издержек и расчёт соотношения цены и качества сервиса.

