Будущее искусственного интеллекта: затормозит ли революцию нехватка обучающих данных?


По мере того как искусственный интеллект (ИИ) продолжает набирать популярность и революционизировать различные отрасли, исследователи высказывают опасения по поводу возможной нехватки обучающих данных. Обучающие данные необходимы для создания мощных систем ИИ и обеспечения точности и качества моделей ИИ, особенно больших языковых моделей. Без достаточного количества высококачественных данных развитие моделей ИИ может быть затруднено, что может изменить траекторию революции в области ИИ.

Важность высококачественных данных для ИИ

Для обучения точных и высокопроизводительных алгоритмов ИИ требуется значительный объем данных. Например, популярная языковая модель ChatGPT была обучена на 570 гигабайтах текстовых данных, что соответствует примерно 300 миллиардам слов. Аналогично, алгоритм стабильной диффузии, используемый в таких приложениях для создания изображений, как DALL-E, Lensa и Midjourney, был обучен на наборе данных LIAON-5B, состоящем из 5,8 млрд. пар "изображение-текст".

Недостаточное количество обучающих данных может привести к неточным или некачественным результатам работы моделей ИИ. Кроме того, качество обучающих данных имеет решающее значение. Хотя посты в социальных сетях и размытые фотографии являются легкодоступными источниками данных, они часто оказываются недостаточными для обучения высокоэффективных моделей ИИ. Такие данные могут быть необъективными, содержать дезинформацию или нелегальный контент, который может быть воспроизведен моделью ИИ. Попытка Microsoft обучить ИИ-бота, используя контент Twitter, привела к появлению расистских и женоненавистнических результатов.

Для создания надежных моделей ИИ разработчики ищут высококачественный контент в таких источниках, как книги, статьи в Интернете, научные работы, Википедия, а также определенный отфильтрованный веб-контент. Например, Google Assistant был обучен на 11 000 романтических романов с сайта Smashwords для улучшения его разговорных способностей.

Проблема нехватки данных

В то время как индустрия ИИ обучает системы искусственного интеллекта на все более крупных наборах данных, исследования показывают, что запасы данных в Интернете растут медленнее, чем наборы данных, используемые для обучения ИИ. В прошлом году группа исследователей опубликовала работу, в которой прогнозируется, что при сохранении нынешних тенденций обучения ИИ высококачественные текстовые данные могут быть исчерпаны до 2026 года. По их оценкам, низкокачественные языковые данные могут быть исчерпаны в период с 2030 по 2050 год, а низкокачественные изображения - в период с 2030 по 2060 год.

Потенциальные последствия исчерпания пригодных для использования данных весьма значительны, поскольку, по прогнозам PwC, к 2030 году ИИ внесет в мировую экономику до 15,7 трлн. долларов США (24,1 трлн. австралийских долларов). Нехватка обучающих данных может помешать развитию и прогрессу технологий ИИ.

Устранение риска нехватки данных

Хотя перспектива нехватки данных может вызывать опасения, существуют потенциальные решения и стратегии по снижению этого риска.

1. Повышение эффективности алгоритмов: Разработчики ИИ могут сосредоточиться на совершенствовании алгоритмов для более эффективного использования имеющихся данных. Оптимизация алгоритмов может позволить обучать высокопроизводительные системы ИИ, используя меньшее количество данных и вычислительных мощностей. Это не только решит проблему нехватки данных, но и будет способствовать снижению "углеродного следа" ИИ.

2. Генерация синтетических данных: Другим вариантом является использование самого ИИ для создания синтетических данных для обучающих систем. Разработчики могут создавать наборы данных, специально адаптированные к требованиям моделей ИИ. Генерация синтетических данных позволяет преодолеть ограничения, связанные с недостаточным количеством реальных данных, и обеспечить непрерывный приток обучающих данных.

1 Comments

  1. ИИ погубит не недостаток обучающих данных, а избыток "фейковой" информации, которая сейчас распространяется по интернету в геометрической прогрессии. Ведь если исходные данные для обработки будут поддельными или неверными, то и результат будет недостоверным. Сейчас даже в солидных научных изданиях, которые раньше славились публикацией исключительно проверенной и подтвержденной независимыми экспертизами информацией, появляется все больше и больше конъюнктурных и откровенно ложных публикаций, которые публикуются за деньги с единственной целью: привлечь через высокие индексы цитирования в реферируемых изданиях интерес к автору публикации и тем самым обеспечить последнего большими и стабильными грантами на его "исследования", которые реально яйца выеденного не стоят.

    ReplyDelete
Предыдущий пост Следующий пост

Contact Form