К 2026 году у нас могут закончиться данные для обучения ИИ. Что тогда?

14.11.2023

Искусственный интеллект (ИИ), достигший пика популярности, сталкивается с нехваткой обучающих данных, необходимых для его функционирования. Это может замедлить развитие моделей ИИ, особенно крупных языковых моделей, и даже изменить ход революции ИИ​.

Для обучения мощных и точных алгоритмов ИИ требуется большое количество данных. Например, ChatGPT был обучен на 570 гигабайтах текстовых данных, что составляет около 300 миллиардов слов. Аналогично, алгоритм стабильной диффузии, используемый во многих приложениях для генерации изображений ИИ, таких как DALL-E, Lensa и Midjourney, был обучен на наборе данных LIAON-5B, содержащем 5,8 миллиарда пар изображений и текста. Если алгоритм обучается на недостаточном количестве данных, он может выдавать неточные или низкокачественные результаты

Исследования показывают, что запасы данных в Интернете растут гораздо медленнее, чем наборы данных, используемые для обучения ИИ. В прошлом году группа исследователей предсказала, что качественные текстовые данные закончатся к 2026 году, если текущие тенденции обучения ИИ сохранятся. Также оценивается, что низкокачественные языковые данные иссякнут между 2030 и 2050 годами, а низкокачественные изображения - между 2030 и 2060 годами. Нехватка используемых данных может замедлить развитие ИИ, который, по прогнозам, к 2030 году может внести в мировую экономику до 15,7 триллионов долларов США​

Тем не менее, существуют способы решения проблемы нехватки данных. Одна из возможностей - улучшение алгоритмов ИИ для более эффективного использования уже имеющихся данных. В ближайшие годы разработчики, вероятно, смогут обучать высокопроизводительные системы ИИ, используя меньше данных и, возможно, меньше вычислительной мощности. Это также поможет уменьшить углеродный след ИИ. Другой вариант - использование ИИ для создания синтетических данных для обучения систем. Разработчики могут просто генерировать необходимые данные, подходящие для их конкретной модели ИИ. Несколько проектов уже используют синтетический контент, часто получаемый от сервисов генерации данных. Это станет более распространенным явлением в будущем

Источник: SecurityLab


Комментарии:

Пока комментариев нет. Станьте первым!