1,546 чтения

На переднем крае исследований искусственного интеллекта: мультимодальность, агенты, LLM с открытым исходным кодом и не только

к Vik Bogdanov9m2024/07/04

Слишком долго; Читать

Исследуем новые горизонты исследований искусственного интеллекта вместе с Хамуди Наанаа, техническим директором и соучредителем Portal.ai, а также бывшим научным сотрудником-исследователем искусственного интеллекта в Amazon. Мы обсуждаем текущее состояние ИИ, значение мультимодальности и агентов ИИ, важность разработки с открытым исходным кодом и этические проблемы в области ИИ. Наанаа рассказывает о своем пути в области искусственного интеллекта, потенциальном влиянии искусственного интеллекта на различные отрасли и роли искусственного интеллекта в преобразовании практики управления бизнесом. Он подчеркивает необходимость ответственной разработки ИИ и подчеркивает захватывающие будущие возможности ИИ, включая персональных роботов и лекарства, совместно разработанные ИИ.

featured image - На переднем крае исследований искусственного интеллекта: мультимодальность, агенты, LLM с открытым исходным кодом и не только

Недавно я наткнулся на статью , автор которой утверждает, что, хотя 2023 год был бешеным годом в области искусственного интеллекта, являясь горячей темой в советах директоров корпораций и в средствах массовой информации и даже стимулируя рост показателей публичного фондового рынка, 2024 год станет годом исследований и открытий. Он сравнивает нынешнее состояние ИИ с фазой «первобытного супа», наполненного потенциалом, но все еще аморфного, и утверждает, что мы слишком быстро бросились от фазы исследования ИИ к активной эксплуатации, гоняясь за быстрыми и легкими результатами. Теперь пришло «время нажать кнопку сброса» и продолжить изучение ИИ для создания значимой ценности.

Эта статья затронула меня, вызвав желание понять умы, формирующие настоящее и будущее исследований ИИ. Чтобы получить более глубокое понимание, я взял интервью у Мохаммада (Хамуди) Наанаа , технического директора и соучредителя Portal.ai, а также бывшего научного сотрудника по исследованиям искусственного интеллекта в Amazon и руководителя лаборатории исследований и разработок в Apple. Наш разговор посвящен текущему состоянию исследований ИИ и их следующим рубежам, проблемам и возможностям ответственной и этичной разработки ИИ, потенциальному влиянию теневого ИИ, тому, что нужно для создания надежного опыта в области ИИ и многому другому.

Приятного чтения!

Хамуди, что привлекло вас в области исследований ИИ и какие конкретные области вы сейчас исследуете?

Мой путь в искусственный интеллект начался еще в университетские годы с новаторской статьи AlexNet . Идея обучения модели классификации изображений была впечатляющей, но казалась недостижимой с помощью обычного программного обеспечения. Вдохновленный этой сложностью, я углубился в исследования искусственного интеллекта, чтобы лучше понять нейронные сети. У меня была сильная интуиция: если мы сможем решить классификацию изображений, это будет лишь вопросом времени, когда мы сможем решать еще более сложные данные и проблемы, что в конечном итоге приведет к созданию интеллекта. Я хотел быть частью этого путешествия.

Первоначально я погрузился в компьютерное зрение, очарованный творческими возможностями генеративного искусственного интеллекта, в частности, GAN и диффузионных моделей. Позже мое внимание привлек взрыв языковых моделей в статье «Трансформер» , приблизивший мечту о настоящем искусственном интеллекте. Сегодня я нахожусь на захватывающем перекрестке генеративного искусственного интеллекта как в тексте, так и в изображениях.

Что вы видите следующим рубежом в исследованиях ИИ?

Даже сейчас, годы спустя, мы лишь прикасаемся к потенциалу ИИ. Это очень горячая тема; вы видите, как приходит и уходит множество тенденций, и граница формируется каждый день.

Одним из видных направлений на этом фронтире является мультимодальность . Мир — это больше, чем просто текст, и я вижу светлое будущее у мультимодального искусственного интеллекта, объединяющего текст, изображения, аудио и многое другое. Многие крупные компании, занимающиеся искусственным интеллектом, уже используют это, и мы видим основополагающие модели, поддерживающие различные входные данные.

Еще одна область, по поводу которой я вижу много ожиданий и волнений, — это агенты . Эти системы имеют полный цикл обратной связи с наблюдениями, рассуждениями, состояниями, действиями и размышлениями. Они выходят за рамки парадигмы «ввод-вывод», которую мы наблюдаем сегодня в большинстве ИИ на основе LLM.

Продолжаются споры о том, достаточны ли архитектуры на основе преобразователей, такие как машины с жетонами ввода-вывода, для «истинного» интеллекта.

Исследование принципиально новых архитектур — перспективное, но сложное направление. Мы могли бы стать свидетелями возрождения архитектур с сохранением состояния памяти, таких как нейронные машины Тьюринга (NTM) или дифференциальные нейронные компьютеры (DNC), которые могли бы устранить некоторые недостатки преобразователей.

Все эти достижения произведут революцию в робототехнике, привнося интеллектуальных помощников в нашу повседневную жизнь раньше, чем ожидалось. Я верю, что мы увидим первых роботов, ходящих среди нас, через несколько лет, а может быть, даже меньше.

Однако развитие технологий — это одно, а создание на их основе полезных продуктов — совсем другое.

Ценность мультимодального искусственного интеллекта, поддерживающего аудио, заключается в том, что пользователи могут создавать ультраперсонализированные песни, в которые они вкладывают эмоции. Та же основная технология, но продукт в правильной упаковке – это то, что расширяет возможности людей. И именно здесь я вижу, что вскоре произойдет много исследований, и модели станут более надежными, управляемыми и надежными .

Как, по вашему мнению, мультимодальные системы искусственного интеллекта меняют взаимодействие между людьми и технологиями? Существуют ли конкретные отрасли или приложения, в которых мультимодальный ИИ окажет наиболее существенное влияние?

Мультимодальный ИИ уже меняет наше взаимодействие с технологиями. Возьмите чат-ботов: когда-то простые текстовые инструменты, которые люди игнорировали на веб-сайтах, теперь превращаются в сложные мультимодальные интерфейсы, лежащие в основе новых проектов.

Мультимодальность открывает новые модели взаимодействия — например, образовательные приложения, такие как Duolingo или Khan Academy . Возможность практиковать свои языковые навыки при написании текста партнеру по искусственному интеллекту, улучшать произношение в голосовом разговоре или показывать математические уравнения на фотографиях — это совершенно новый способ более естественного взаимодействия с технологиями, повышающий производительность и вовлеченность.

Я вижу будущее с суперприложениями или даже с новыми операционными системами, в которых пользователи смогут давать инструкции и получать результат, не перемещаясь по различным приложениям.

Например, вместо того, чтобы нажимать на значки и текст, чтобы заказать еду, вы можете говорить, жестикулировать или даже смотреть на определенные элементы, чтобы взаимодействовать более человечно. Первые пользователи, такие как Humane AI Pin и Rabbit R1, демонстрируют многообещающие результаты, но также подчеркивают непредсказуемость и возможности для улучшения. Нам, разработчикам и исследователям искусственного интеллекта, необходимо решить эти проблемы, и я уверен, что мы это сделаем.

Мультимодальные системы искусственного интеллекта призваны революционизировать то, как мы взаимодействуем с технологиями, разрушая барьеры между различными формами общения. Мы все еще находимся в начале изучения этого нового способа построения интерфейсов, но уже заметна одна общая закономерность:

существующие системы с заранее определенными моделями взаимодействия будут изобретены заново.

Поскольку исследования ИИ быстро развиваются, с какими самыми большими проблемами мы сталкиваемся при обеспечении ответственного развития ИИ и смягчении его потенциального негативного воздействия?

Ориентироваться в этическом ландшафте ИИ сложно, но важно, поскольку технология быстро развивается, а ее последствия все еще понимаются. Мы должны предвидеть и смягчать предубеждения и непредвиденные последствия.

Некоторые проблемы проистекают из этических последствий, связанных с человеческими недостатками. Например, проекты, направленные на создание ИИ-компаньонов, могут помочь в борьбе с одиночеством. Тем не менее, они также могут усугубить ситуацию, побуждая людей находить комфорт в ИИ, а не в реальном взаимодействии. Это вызывает у создателей вопросы о последствиях их приложений и о том, как им следует их решать. Это всего лишь один пример фундаментальных вопросов, которые возникают в связи с, казалось бы, простыми приложениями, и многие другие нам еще предстоит представить, не говоря уже о побочных эффектах их существования.

Недавние инциденты в сфере больших технологий, такие как искаженное историческое представление людей в сгенерированных изображениях , подчеркивают серьезные проблемы, включая этические проблемы и непредвиденные последствия, которые возникают в результате быстрого развития технологий искусственного интеллекта.

Простого ответа нет, но я считаю, что обеспечение прозрачности посредством разработки LLM с открытым исходным кодом (раскрытие как моделей, так и данных, на которых они обучались) и содействие междисциплинарному подходу с участием людей с различным опытом, а не только инженеров и ученых, имеют решающее значение. шаги по решению этих проблем.

Задавать эти вопросы – единственный правильный подход. Мы несем ответственность за формирование будущего самых мощных технологий, которые будут созданы. Как создатели ИИ, мы должны учитывать присущие и потенциальные предубеждения и способы их смягчения.

В каких проектах или исследованиях вы принимали участие со времени работы в Amazon? Над чем вы работаете сейчас?

Магия ИИ заключается в понимании случаев использования лазера, где он может быть наиболее полезным. После ухода из Amazon я обсуждал со своим другом Владом Панченко свое видение будущего и различных способов, которыми ИИ может принести пользу человечеству. Построив агентские системы в течение некоторого времени и объединив эти знания с опытом Влада как успешного серийного предпринимателя, мы начали думать о том, как агенты ИИ можно применить в бизнесе. Большинству компаний не хватает доступа к высокопоставленным директорам по маркетингу, операционным директорам и другим экспертам, необходимым для успеха. ИИ может демократизировать доступ к разведке в беспрецедентных масштабах. Вместе мы исследовали разложение сложных бизнес-процессов на небольшие, идентифицируемые задачи, рассматривая агентов как отдельные кирпичики, которые можно объединять и взаимодействовать друг с другом. Я был воодушевлен потенциалом, и это привело к рождению Portal AI , движимого верой в то, что искусственный интеллект мирового класса будет поддерживать бизнес в их повседневной деятельности, от маркетинга до логистики, позволяя им сосредоточиться на том, что действительно важно.

Как, по вашему мнению, ИИ изменит практику управления бизнесом?

ИИ готов совершить революцию в управлении бизнесом, автоматизируя повторяющиеся задачи и улучшая процесс принятия решений.

Представьте себе, что у вас есть партнер по искусственному интеллекту, который занимается вашим маркетингом, логистикой и кадрами, что позволяет вам сосредоточиться на творческой и стратегической работе. Эта трансформация демократизирует доступ к экспертным знаниям, позволяя каждому бизнесу работать на более высоком уровне.

Способность ИИ оптимизировать операции не только повысит эффективность, но и будет способствовать инновациям и росту.

Поскольку ИИ становится все более сложным, что вы думаете о потенциальном влиянии «теневого ИИ» на такие области, как целостность рабочего места и кибербезопасность? Как мы можем смягчить эти потенциальные риски?

« Теневой ИИ » — непреднамеренное и часто скрытое использование ИИ — представляет собой значительные риски. Например, люди, использующие ИИ для игры в алгоритмы социальных сетей, подчеркивают, как ИИ может использоваться не по назначению. Поскольку контент ИИ наводняет Интернет, поддержание целостности и безопасности становится сложной задачей. Исследования в области этического ИИ должны идти в ногу с этими разработками, обеспечивая прозрачность и надежные меры защиты. Устранение этих рисков требует постоянной бдительности и адаптивных стратегий для защиты от неправильного использования.

Мы оказались в этой новой эпохе, когда есть много вещей, о которых нам нужно помнить и продолжать дискутировать.

Учитывая быстрое развитие этой области, как вам оставаться в курсе последних достижений и поддерживать свой опыт в области искусственного интеллекта? Какой совет вы бы дали тем, кто стремится приобрести опыт в этой быстро развивающейся области?

Все движется и меняется так быстро, что это здорово. Но это также означает, что уже через три месяца существует большая вероятность того, что что-то устарело, устарело или просто старомодно. Невозможно просто прочитать книгу и быть в курсе событий в таких быстрых циклах итераций.

В этой области есть крупные лидеры и авторитетные источники, поэтому подписка на них поможет оставаться в курсе событий. Чтобы глубже погрузиться в исследования, я подписываюсь на соответствующие информационные бюллетени и сообщества на таких платформах, как Reddit и Twitter/X, и, конечно же, я использую искусственный интеллект для обобщения своих тем на Reddit.

Для тех, кто стремится приобрести опыт в области искусственного интеллекта, есть несколько путей. Если вы хотите стать исследователем, заложите прочный фундамент — искусственный интеллект глубоко укоренен в математике, и хотя тенденции меняются, лежащая в его основе математика остается прежней.

В целом я большой сторонник хакатонов. Я был на многих, организовал несколько. И мне нужно увидеть много проектов. Они отлично подходят для того, чтобы люди могли научиться чему-то новому и использовать их. Если бы я мог порекомендовать что-то кому-либо, будь то инженеру, менеджеру по продукту или генеральному директору, то это было бы: пойти туда, познакомиться с людьми, которые хотят что-то построить, запачкать руки и начать работу. Это лучший способ по-настоящему понять вещи, потому что вы сможете развить свою интуицию и весело провести время. Просто оставайтесь любопытными!

Заглядывая в будущее на 20 лет, какой вы представляете роль искусственного интеллекта в нашей повседневной жизни? Что вас больше всего волнует и какие аспекты этого будущего вам сложнее всего предсказать?

Я очень хочу прочитать это интервью через 20 лет! ИИ меняется так быстро, что предсказать, что произойдет через 20 месяцев, не говоря уже о 20 годах, сложно. Мы переживаем уникальный момент: мы находимся на ранних этапах возможности консолидировать весь человеческий интеллект в одну систему, обеспечивающую универсальный доступ к знаниям. В настоящее время такие ресурсы, как образование, распределены неравномерно, и я считаю, что ИИ окажет здесь большое влияние, будучи универсальным уравнивателем во многих отношениях.

И снова коснувшись роботов, я думаю, это станет реальностью. У нас будут персональные роботы, которые будут жить с нами в качестве помощников и брать на себя все домашние дела.

У нас будут гиперперсонализированные продукты — наши собственные репетиторы, тренеры и друзья. У нас пока даже нет названий для этих сущностей, но это уже происходит.

Еще одна вещь, которая меня волнует, — это ускорение исследований. Я в восторге от перспективы первого лекарства или лекарства, разработанного совместно с искусственным интеллектом — каким прекрасным был бы этот мир. Я твердо верю в лучшее будущее и рад сделать все возможное, чтобы сформировать это будущее.

Судя по вашему профилю в LinkedIn, вы родились в Ливане, выросли в Украине и получили образование в Германии. Не могли бы вы рассказать нам о своем путешествии и о том, как эти разнообразные культурные традиции сформировали вас?

Это верно! Я родился в Ливане, в детстве переехал в Украину и вырос там. Украина глубоко сформировала меня. В 17 лет я переехал в Германию, чтобы поступить в университет, где позже ко мне присоединилась моя семья, и началась моя карьера. Живя в разнообразных и одинаково красивых обществах, я узнал об их уникальных проблемах и возможностях.

Исследования искусственного интеллекта в настоящее время ориентированы на англоязычный язык, при этом большинство данных и систем создаются англоговорящими людьми и для них. Полагая, что ИИ должен быть универсальным эквалайзером, нам необходимо адаптировать и поддерживать каждый язык, чтобы создать действительно универсальный ИИ. Имея возможность говорить на пяти языках, я идентифицирую себя со всеми из них: я ливанец, украинец и немец. Я человек. Этот опыт дал мне бесценное понимание того, что нас объединяет и делает нас уникальными, и я ношу эти знания с собой во всех своих начинаниях.