Хорошо, прошло больше года с момента выпуска ChatGPT. До этого поворотного момента исследовательское сообщество и лидеры отрасли уже активно работали над генеративным искусственным интеллектом, особенно в сфере компьютерного зрения, с рядом устойчивых диффузных результатов и приложений. Подводя краткий итог, 2022 год можно считать годом стабильного распространения, а 2023 год — годом больших языковых моделей (LLM).
Начало 2023 года ознаменовалось доминированием программ LLM, а ChatGPT лидировал в широком внедрении и инновациях. В этом году программы LLM получили широкое распространение в различных секторах, эффективно сокращая разрыв между теоретическими исследованиями и практическими отраслевыми применениями. Давайте рассмотрим ключевые вехи и тенденции, которые сформировали ландшафт LLM в 2023 году, а также получим некоторое представление о том, как они произвели революцию в нашем взаимодействии с технологиями.
Год LLM с открытым исходным кодом
2023 год стал знаменательным для моделей больших языков с открытым исходным кодом (LLM). Самым значительным выпуском стала серия LLaMa от Meta, создавшая прецедент для частых последующих выпусков: новые модели появлялись каждый месяц, неделю, а иногда и ежедневно. Ключевые игроки, такие как Meta, EleutherAI, MosaicML, TIIUAE и StabilityAI, представили множество моделей, обученных на общедоступных наборах данных, удовлетворяющих разнообразные потребности сообщества ИИ. Большинство этих моделей представляли собой трансформаторы только с декодерами, продолжая тенденцию, установленную ChatGPT. Вот некоторые из наиболее примечательных моделей, выпущенных в этом году:
LLaMa от Meta: В семействе LLaMa представлены модели разных размеров, самая крупная из которых имеет 65 миллиардов параметров и обучена на 1,4 триллионах токенов. Примечательно, что более мелкие модели, особенно модель с 13 миллиардами параметров, обученная на 1 триллионе токенов, продемонстрировали превосходную производительность за счет использования расширенных периодов обучения на большем количестве данных, даже превосходя более крупные модели в некоторых тестах. Модель 13B LLaMa превзошла GPT-3 в большинстве тестов, а самая крупная модель после своего выпуска установила новые современные стандарты производительности.Пифия от Элеутера AI: Pythia включает в себя набор из 16 моделей со 154 частично обученными контрольно-пропускными пунктами, предназначенными для облегчения контролируемых научных исследований на открыто доступных и прозрачно обученных LLM. Эта серия очень помогает исследователям, предоставляя подробные статьи и обширную кодовую базу для обучения студентов LLM.MPT от MosaicML иСерия «Сокол» от TIIUAE: Оба были обучены на различных источниках данных, от токенов 1T до 1,5T, и создали версии с параметрами 7B и 30B. Примечательно, что позже в том же году TIIUAE выпустила модель 180B, крупнейшую на сегодняшний день модель с открытым исходным кодом.Мистраль ,Фи иОрка : Эти модели подчеркивают еще одну тенденцию 2023 года, направленную на обучение более мелких и более эффективных моделей, подходящих для ограниченного оборудования и бюджетных ограничений, что знаменует собой значительный сдвиг в сторону доступности и практичности при разработке моделей ИИ.
Маленькая и эффективная модель
В 2023 году мы также стали свидетелями выпуска множества небольших и эффективных моделей. Основная причина этой тенденции — непомерно высокая стоимость обучения больших моделей для большинства исследовательских групп. Кроме того, большие модели часто не подходят для многих реальных приложений из-за дорогостоящих затрат на обучение и развертывание, а также из-за значительных требований к памяти и вычислительной мощности. Поэтому небольшие и эффективные модели стали одним из главных трендов года. Как упоминалось ранее, серии Mistral и Orca сыграли ключевую роль в этой тенденции. Mistral удивил сообщество моделью 7B, которая превзошла своих более крупных аналогов в большинстве тестов, тогда как серия Phi еще меньше, с параметрами всего от 1,3B до 2,7B, но обеспечивает впечатляющую производительность.
Еще одним инновационным подходом является
Успех небольших и эффективных моделей во многом зависит от качества данных и быстрого внимания. Хотя Mistral не раскрыла специфику своих обучающих данных, различные исследования и модели показали, что качество данных имеет решающее значение для обучения эффективных моделей. Одним из наиболее примечательных открытий этого года является
Настройка адаптации низкого ранга
Хорошо, давайте поговорим о
LoRA — это, по сути, замораживание предварительно обученных весов модели и введение обучаемых слоев ( матриц рангового разложения ). Эти матрицы компактны, но способны аппроксимировать необходимые адаптации к поведению модели, обеспечивая эффективную точную настройку при сохранении целостности знаний исходной модели. Одним из наиболее часто используемых вариантов LoRA является
Смесь экспертов
Одна из наиболее заметных моделей MoE, выпущенных в прошлом году, —
От языка к общим базовым моделям
LLM развиваются в общие базовые модели, расширяя свои возможности за пределы языковой обработки. Этот переход означает переход к моделям, которые могут понимать и генерировать не только текст, но также код, визуальный контент, аудио и многое другое. В прошлом году мы увидели появление таких моделей, как
Агенты, оснащенные инструментами
Интеграция LLM с различными инструментами и платформами делает ИИ более доступным и практичным для повседневного использования. Агенты, оснащенные этими инструментами, адаптируются для решения конкретных задач — от помощи в кодировании до творческого письма, что делает ИИ незаменимой частью многих профессиональных рабочих процессов. Это развитие стало возможным благодаря возможностям LLM рассуждать и действовать . Этот тип функции часто называют вызовом функции в разделе
OpenAI по-прежнему доминирует в отрасли
OpenAI продолжает доминировать в отрасли, сохраняя лидерство в области исследований и приложений. GPT-4 и новый
Заключение
2023 год ознаменовался периодом значительного роста и инноваций в области больших языковых моделей (LLM). От демократизации ИИ с помощью моделей с открытым исходным кодом до разработки более эффективных и специализированных систем — эти достижения являются не просто техническими достижениями, но и шагами на пути к тому, чтобы сделать ИИ более доступным и применимым в различных областях. Заглядывая в будущее, можно сказать, что потенциал этих технологий по преобразованию отраслей промышленности и расширению человеческих возможностей по-прежнему остается захватывающей перспективой. В 2024 году мы ожидаем еще более знаменательных событий: Meta объявила о планах по обучению LLaMA-3 и планирует открыть его исходный код. В отрасли также существует большой интерес к тому, смогут ли такие гиганты, как Google, или такие стартапы, как Anthropic, превзойти OpenAI.
Посетите и подпишитесь на мой личный блог , чтобы получать больше статей.