6,076 чтения

Почему языковые модели с открытым исходным кодом являются истиной «Открытый ИИ»

к Frederik Bussler4m2024/02/05

Слишком долго; Читать

Долгосрочное будущее искусственного интеллекта заключается не в более крупных частных моделях, обслуживаемых исключительно через API, а скорее в языковых моделях с открытым исходным кодом, создаваемых открыто совместно с сообществами.

featured image - Почему языковые модели с открытым исходным кодом являются истиной «Открытый ИИ»

В 2015 году некоммерческая организация под названием OpenAI была создана для создания «широко и равномерно распределенного» ИИ. Перенесемся в 2024 год, и OpenAI перешла в полноценный коммерческий режим, сохранив доступ к LLM за транзакционным сервисом API. Совсем недавно они искали Оценка в 100 миллиардов долларов .

В последнее десятилетие в развитии ИИ доминировали крупные технологические компании, такие как Google, Meta и OpenAI, которые выпускали все более крупные собственные языковые модели. От Барда и Клода до GPT-4, большая часть современных достижений в области обработки естественного языка (НЛП) по-прежнему сосредоточена в руках нескольких исследовательских лабораторий.

Однако долгосрочное будущее ИИ заключается не в более крупных частных моделях, обслуживаемых исключительно через API, а скорее в языковых моделях с открытым исходным кодом, создаваемых открыто совместно с сообществами.

Языковые модели с открытым исходным кодом

В последние годы несколько стартапов, университетов и преданных своему делу людей стали пионерами этой открытой модели разработки языковой модели.

Последней моделью, продолжающей эту линию с открытым исходным кодом, является H2O-Danube-1.8B . Имея 1,8 миллиарда параметров, Danube демонстрирует удивительные возможности даже по сравнению с другими общедоступными моделями, во много раз превышающими его размеры. Команда H2O.ai тщательно спроектировала, обучила и полностью прозрачно проверила Danube, а полный отчет доступен на arXiv .

Вместо того, чтобы копить доступ, H2O.ai открыто опубликовал полные параметры Danube и обучающий код на HuggingFace. Через несколько дней после первого анонса любопытные разработчики начали свободно экспериментировать с этой моделью, демонстрируя, что быстрое создание инноваций просто невозможно с помощью запатентованных моделей. На момент написания вся модель h2o-danube-1.8b-chat была загружена на HuggingFace более 500 раз.

Любой может использовать модель с библиотекой transformers , следуя приведенному ниже коду, любезно предоставленному репозиторием HuggingFace от h2o:

 import torch from transformers import pipeline pipe = pipeline( "text-generation", model="h2oai/h2o-danube-1.8b-chat", torch_dtype=torch.bfloat16, device_map="auto", ) # We use the HF Tokenizer chat template to format each message # https://huggingface.co/docs/transformers/main/en/chat_templating messages = [ {"role": "user", "content": "Why is drinking water so healthy?"}, ] prompt = pipe.tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True, ) res = pipe( prompt, max_new_tokens=256, ) print(res[0]["generated_text"]) # <|prompt|>Why is drinking water so healthy?</s><|answer|> Drinking water is healthy for several reasons: [...]

H2O считает, что открытое сотрудничество остается главным ключом к демократизации доступа к ИИ и открытию преимуществ для многих, а не богатства для немногих.

Другие языковые модели с открытым исходным кодом

Экосистема искусственного интеллекта с открытым исходным кодом продолжает расширяться: разработчики по всему миру сотрудничают над общими моделями. Помимо H2O-Danube-1.8B, многочисленные заслуживающие внимания инициативы направлены на предотвращение концентрации знаний в огороженных садах.

МПТ

Трансформатор машинного программирования (MPT) , разработанный стартапом MosaicML, включает в себя такие методы, как распараллеливание с участием нескольких экспертов и экстраполяцию длины контекста для повышения эффективности.

Сокол

Крупнейшая программа LLM компании Falcon с открытым исходным кодом — это колоссальный зверь с 180 миллиардами параметров , превосходящий по производительности аналоги ЛЛаМА-2 , СтабильныйLM , КрасныйПижама , и МПТ .

При таком размере рекомендуется иметь 400 гигабайт доступной памяти для запуска модели.

Мистраль

Компания Mistral, основанная бывшими сотрудниками Google и исследователями Meta, в сентябре 2022 года выпустила модель Mistral 7B с 7 миллиардами параметров. Mistral 7B достигает конкурентоспособных показателей среди открытых моделей, почти соответствующих закрытому GPT-3 по качеству образцов.

Устаревшие модели

Помимо недавно выпущенных моделей, более ранние модели с открытым исходным кодом продолжают расширять возможности разработчиков. GPT2 от OpenAI и GPT-J от EleutherAI имеют историческое значение, несмотря на отставание от современных архитектур. А такие трансформеры, как BERT, породили целый подкласс прорывных решений НЛП, которые стали основой продуктов по всему миру.

Нарратив о демократизации только усиливается благодаря страстным сообществам, щедро вносящим свои творения обратно в общие фонды знаний.

Более справедливое будущее

Во многих отношениях проприетарные языковые модели рискуют воссоздать многие проявления неравенства, с которыми продолжает бороться технологическая индустрия. Концентрация знаний в богатых организациях лишает более мелкие команды возможности формировать прогресс на ранних этапах. А позже делает интеграцию непомерно дорогой, если она доступна исключительно через транзакционные API.

Модели с открытым исходным кодом жизненно важны для определения более справедливого пути вперед. Тот, где агентство находится ближе к различным сообществам, фактически создающим конкретные приложения искусственного интеллекта. Длинная дуга прогресса склоняется к справедливости только тогда, когда люди объединяются вокруг самой технологии, а не какой-либо одной организации, стремящейся ее контролировать.

Дунай и открытая парадигма, которую он представляет, предлагают лишь один взгляд на альтернативное видение. Движущей силой этого проекта является не краткосрочная прибыль или престиж, а предоставление разработчикам повсюду возможности свободно опираться на плечи друг друга. Всегда останется место для собственных разработок, но истинное будущее ИИ остается открытым.

Инновации, управляемые сообществом

Выпуск моделей с открытым исходным кодом привлекает вклад мотивированного сообщества разработчиков и исследователей. Этот совместный стиль работы под открытым небом открывает уникальные возможности. Эксперты из разных организаций могут проводить экспертную оценку работы друг друга для проверки методов.

Исследователи могут легко воспроизводить и расширять новые идеи вместо того, чтобы изобретать велосипед. А инженеры-программисты могут быстро интегрировать и внедрять инновации в предложения для клиентов.

Возможно, наиболее многообещающе то, что открытая парадигма позволяет нишевым сообществам собираться вокруг настройки моделей для конкретных случаев использования. Команды могут создавать версии, адаптированные к конкретным темам, таким как медицина, право или финансы, которые превосходят общие модели. Эти специализированные модели затем снова передаются на благо остального сообщества. Вместе группы делают коллективный прогресс невозможным в рамках какой-либо одной закрытой лаборатории.