Дискуссия месяца

«Сборник тезисов XII Конференции НОР»

Комментариев: нет, вступить в дискуссию

Валерий Гумаров

Нанотехнологии – дело молодое

Просмотров: 3465 | Комментариев: 1

Станислав Ордин

Урок ПОНИМАНИЯ_1 Полупустой-Полу полны...

Просмотров: 5462 | Комментариев: 4

Станислав Ордин

ПолиИЗМ и Культурная Революция

Просмотров: 5271 | Комментариев: 2

Герман Кричевский

Вышел 20-й номер журнала «НБИКС-Наука....

Просмотров: 5205 | Комментариев: 1

Станислав Ордин

Шаги в НЕВЕДОМОЕ Сквозь Тернии к Звёзд...

Просмотров: 27600 | Комментариев: 2

К 2026 году у нас могут закончиться данные для обучения ИИ. Что тогда?

14.11.2023

Искусственный интеллект (ИИ), достигший пика популярности, сталкивается с нехваткой обучающих данных, необходимых для его функционирования. Это может замедлить развитие моделей ИИ, особенно крупных языковых моделей, и даже изменить ход революции ИИ.

Для обучения мощных и точных алгоритмов ИИ требуется большое количество данных. Например, ChatGPT был обучен на 570 гигабайтах текстовых данных, что составляет около 300 миллиардов слов. Аналогично, алгоритм стабильной диффузии, используемый во многих приложениях для генерации изображений ИИ, таких как DALL-E, Lensa и Midjourney, был обучен на наборе данных LIAON-5B, содержащем 5,8 миллиарда пар изображений и текста. Если алгоритм обучается на недостаточном количестве данных, он может выдавать неточные или низкокачественные результаты

Исследования показывают, что запасы данных в Интернете растут гораздо медленнее, чем наборы данных, используемые для обучения ИИ. В прошлом году группа исследователей предсказала, что качественные текстовые данные закончатся к 2026 году, если текущие тенденции обучения ИИ сохранятся. Также оценивается, что низкокачественные языковые данные иссякнут между 2030 и 2050 годами, а низкокачественные изображения - между 2030 и 2060 годами. Нехватка используемых данных может замедлить развитие ИИ, который, по прогнозам, к 2030 году может внести в мировую экономику до 15,7 триллионов долларов США

Тем не менее, существуют способы решения проблемы нехватки данных. Одна из возможностей - улучшение алгоритмов ИИ для более эффективного использования уже имеющихся данных. В ближайшие годы разработчики, вероятно, смогут обучать высокопроизводительные системы ИИ, используя меньше данных и, возможно, меньше вычислительной мощности. Это также поможет уменьшить углеродный след ИИ. Другой вариант - использование ИИ для создания синтетических данных для обучения систем. Разработчики могут просто генерировать необходимые данные, подходящие для их конкретной модели ИИ. Несколько проектов уже используют синтетический контент, часто получаемый от сервисов генерации данных. Это станет более распространенным явлением в будущем

Источник: SecurityLab

Возврат к списку

Content on this page requires a newer version of Adobe Flash Player.

Здравствуйте!

Меню

«Сборник тезисов XII Конференции НОР»

Блоги

Нанотехнологии – дело молодое

Урок ПОНИМАНИЯ_1 Полупустой-Полу полны...

ПолиИЗМ и Культурная Революция

Вышел 20-й номер журнала «НБИКС-Наука....

Шаги в НЕВЕДОМОЕ Сквозь Тернии к Звёзд...

К 2026 году у нас могут закончиться данные для обучения ИИ. Что тогда?

Комментарии: