IBM представила набор данных для обучения ИИ программированию

 

Компания IBM рассчитывает создать для интеллектуальных средств разработки своего рода аналог ImageNet, фактически ставшего стандартным набора изображений для тренировки ИИ-моделей. На конференции THINK компания сообщила, что для этого она собрала огромный массив исходных кодов.

Набор, получивший название Project CodeNet, содержит 14 млн образцов суммарным объёмом в 500 млн строк кода на более чем 55 языках программирования: от Java, C и Go до COBOL, Pascal и FORTRAN. Впрочем, более трёх четвертей всего кода приходится на С++ и Python.

Источником кода стали два японских конкурса по программированию: Aizu и AtCoder. По условиям конкурсов участники должны были написать код, необходимый для превращения заданного набора входных данных в набор желаемых выходных для 4000 различных задач. Таким образом было получено 14 млн. образцов кода, примерно половина из которых оказались рабочими, а остальные были помечены как некомпилируемые, неправильные или содержащие ошибки.

IBM хочет, чтобы проект CodeNet пошёл по стопам ImageNet и стал де-факто стандартным набором данных для обучения ИИ-моделей, способных распознавать структуру программ. Предполагается, что CodeNet можно будет использовать для создания интеллектуальных инструментов разработки, осуществляющих поиск нужных процедур в приложениях и библиотеках, перевод с одного языка программирования на другой, выбор правильных реализаций и отсев ошибочных, классификацию кода и так далее.

Если вы заметили ошибку — выделите ее мышью и нажмите CTRL+ENTER. | Можете написать лучше? Мы всегда рады новым авторам.

Источник:

Постоянный URL: https://servernews.ru/1039450

Комментарии

Система Orphus