В 2015 году
В последнее десятилетие в развитии ИИ доминировали крупные технологические компании, такие как Google, Meta и OpenAI, которые выпускали все более крупные собственные языковые модели. От Барда и Клода до GPT-4, большая часть современных достижений в области обработки естественного языка (НЛП) по-прежнему сосредоточена в руках нескольких исследовательских лабораторий.
Однако долгосрочное будущее ИИ заключается не в более крупных частных моделях, обслуживаемых исключительно через API, а скорее в языковых моделях с открытым исходным кодом, создаваемых открыто совместно с сообществами.
В последние годы несколько стартапов, университетов и преданных своему делу людей стали пионерами этой открытой модели разработки языковой модели.
Последней моделью, продолжающей эту линию с открытым исходным кодом, является H2O-Danube-1.8B . Имея 1,8 миллиарда параметров, Danube демонстрирует удивительные возможности даже по сравнению с другими общедоступными моделями, во много раз превышающими его размеры. Команда H2O.ai тщательно спроектировала, обучила и полностью прозрачно проверила Danube, а полный отчет доступен на arXiv .
Вместо того, чтобы копить доступ, H2O.ai открыто опубликовал полные параметры Danube и обучающий код на HuggingFace. Через несколько дней после первого анонса любопытные разработчики начали свободно экспериментировать с этой моделью, демонстрируя, что быстрое создание инноваций просто невозможно с помощью запатентованных моделей. На момент написания вся модель h2o-danube-1.8b-chat была загружена на HuggingFace более 500 раз.
Любой может использовать модель с библиотекой transformers
, следуя приведенному ниже коду, любезно предоставленному репозиторием HuggingFace от h2o:
import torch from transformers import pipeline pipe = pipeline( "text-generation", model="h2oai/h2o-danube-1.8b-chat", torch_dtype=torch.bfloat16, device_map="auto", ) # We use the HF Tokenizer chat template to format each message # https://huggingface.co/docs/transformers/main/en/chat_templating messages = [ {"role": "user", "content": "Why is drinking water so healthy?"}, ] prompt = pipe.tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True, ) res = pipe( prompt, max_new_tokens=256, ) print(res[0]["generated_text"]) # <|prompt|>Why is drinking water so healthy?</s><|answer|> Drinking water is healthy for several reasons: [...]
H2O считает, что открытое сотрудничество остается главным ключом к демократизации доступа к ИИ и открытию преимуществ для многих, а не богатства для немногих.
Экосистема искусственного интеллекта с открытым исходным кодом продолжает расширяться: разработчики по всему миру сотрудничают над общими моделями. Помимо H2O-Danube-1.8B, многочисленные заслуживающие внимания инициативы направлены на предотвращение концентрации знаний в огороженных садах.
Трансформатор машинного программирования (MPT) , разработанный стартапом MosaicML, включает в себя такие методы, как распараллеливание с участием нескольких экспертов и экстраполяцию длины контекста для повышения эффективности.
Крупнейшая программа LLM компании Falcon с открытым исходным кодом — это колоссальный зверь с 180 миллиардами параметров , превосходящий по производительности аналоги
При таком размере рекомендуется иметь 400 гигабайт доступной памяти для запуска модели.
Компания Mistral, основанная бывшими сотрудниками Google и исследователями Meta, в сентябре 2022 года выпустила модель Mistral 7B с 7 миллиардами параметров. Mistral 7B достигает конкурентоспособных показателей среди открытых моделей, почти соответствующих закрытому GPT-3 по качеству образцов.
Помимо недавно выпущенных моделей, более ранние модели с открытым исходным кодом продолжают расширять возможности разработчиков. GPT2 от OpenAI и GPT-J от EleutherAI имеют историческое значение, несмотря на отставание от современных архитектур. А такие трансформеры, как BERT, породили целый подкласс прорывных решений НЛП, которые стали основой продуктов по всему миру.
Нарратив о демократизации только усиливается благодаря страстным сообществам, щедро вносящим свои творения обратно в общие фонды знаний.
Во многих отношениях проприетарные языковые модели рискуют воссоздать многие проявления неравенства, с которыми продолжает бороться технологическая индустрия. Концентрация знаний в богатых организациях лишает более мелкие команды возможности формировать прогресс на ранних этапах. А позже делает интеграцию непомерно дорогой, если она доступна исключительно через транзакционные API.
Модели с открытым исходным кодом жизненно важны для определения более справедливого пути вперед. Тот, где агентство находится ближе к различным сообществам, фактически создающим конкретные приложения искусственного интеллекта. Длинная дуга прогресса склоняется к справедливости только тогда, когда люди объединяются вокруг самой технологии, а не какой-либо одной организации, стремящейся ее контролировать.
Дунай и открытая парадигма, которую он представляет, предлагают лишь один взгляд на альтернативное видение. Движущей силой этого проекта является не краткосрочная прибыль или престиж, а предоставление разработчикам повсюду возможности свободно опираться на плечи друг друга. Всегда останется место для собственных разработок, но истинное будущее ИИ остается открытым.
Выпуск моделей с открытым исходным кодом привлекает вклад мотивированного сообщества разработчиков и исследователей. Этот совместный стиль работы под открытым небом открывает уникальные возможности. Эксперты из разных организаций могут проводить экспертную оценку работы друг друга для проверки методов.
Исследователи могут легко воспроизводить и расширять новые идеи вместо того, чтобы изобретать велосипед. А инженеры-программисты могут быстро интегрировать и внедрять инновации в предложения для клиентов.
Возможно, наиболее многообещающе то, что открытая парадигма позволяет нишевым сообществам собираться вокруг настройки моделей для конкретных случаев использования. Команды могут создавать версии, адаптированные к конкретным темам, таким как медицина, право или финансы, которые превосходят общие модели. Эти специализированные модели затем снова передаются на благо остального сообщества. Вместе группы делают коллективный прогресс невозможным в рамках какой-либо одной закрытой лаборатории.