Недавно я наткнулся на статью , автор которой утверждает, что, хотя 2023 год был бешеным годом в области искусственного интеллекта, являясь горячей темой в советах директоров корпораций и в средствах массовой информации и даже стимулируя рост показателей публичного фондового рынка, 2024 год станет годом исследований и открытий. Он сравнивает нынешнее состояние ИИ с фазой «первобытного супа», наполненного потенциалом, но все еще аморфного, и утверждает, что мы слишком быстро бросились от фазы исследования ИИ к активной эксплуатации, гоняясь за быстрыми и легкими результатами. Теперь пришло «время нажать кнопку сброса» и продолжить изучение ИИ для создания значимой ценности.
Эта статья затронула меня, вызвав желание понять умы, формирующие настоящее и будущее исследований ИИ. Чтобы получить более глубокое понимание, я взял интервью у Мохаммада (Хамуди) Наанаа , технического директора и соучредителя Portal.ai, а также бывшего научного сотрудника по исследованиям искусственного интеллекта в Amazon и руководителя лаборатории исследований и разработок в Apple. Наш разговор посвящен текущему состоянию исследований ИИ и их следующим рубежам, проблемам и возможностям ответственной и этичной разработки ИИ, потенциальному влиянию теневого ИИ, тому, что нужно для создания надежного опыта в области ИИ и многому другому.
Приятного чтения!
Мой путь в искусственный интеллект начался еще в университетские годы с новаторской статьи AlexNet . Идея обучения модели классификации изображений была впечатляющей, но казалась недостижимой с помощью обычного программного обеспечения. Вдохновленный этой сложностью, я углубился в исследования искусственного интеллекта, чтобы лучше понять нейронные сети. У меня была сильная интуиция: если мы сможем решить классификацию изображений, это будет лишь вопросом времени, когда мы сможем решать еще более сложные данные и проблемы, что в конечном итоге приведет к созданию интеллекта. Я хотел быть частью этого путешествия.
Первоначально я погрузился в компьютерное зрение, очарованный творческими возможностями генеративного искусственного интеллекта, в частности, GAN и диффузионных моделей. Позже мое внимание привлек взрыв языковых моделей в статье «Трансформер» , приблизивший мечту о настоящем искусственном интеллекте. Сегодня я нахожусь на захватывающем перекрестке генеративного искусственного интеллекта как в тексте, так и в изображениях.
Даже сейчас, годы спустя, мы лишь прикасаемся к потенциалу ИИ. Это очень горячая тема; вы видите, как приходит и уходит множество тенденций, и граница формируется каждый день.
Одним из видных направлений на этом фронтире является мультимодальность . Мир — это больше, чем просто текст, и я вижу светлое будущее у мультимодального искусственного интеллекта, объединяющего текст, изображения, аудио и многое другое. Многие крупные компании, занимающиеся искусственным интеллектом, уже используют это, и мы видим основополагающие модели, поддерживающие различные входные данные.
Еще одна область, по поводу которой я вижу много ожиданий и волнений, — это агенты . Эти системы имеют полный цикл обратной связи с наблюдениями, рассуждениями, состояниями, действиями и размышлениями. Они выходят за рамки парадигмы «ввод-вывод», которую мы наблюдаем сегодня в большинстве ИИ на основе LLM.
Продолжаются споры о том, достаточны ли архитектуры на основе преобразователей, такие как машины с жетонами ввода-вывода, для «истинного» интеллекта.
Исследование принципиально новых архитектур — перспективное, но сложное направление. Мы могли бы стать свидетелями возрождения архитектур с сохранением состояния памяти, таких как нейронные машины Тьюринга (NTM) или дифференциальные нейронные компьютеры (DNC), которые могли бы устранить некоторые недостатки преобразователей.
Все эти достижения произведут революцию в робототехнике, привнося интеллектуальных помощников в нашу повседневную жизнь раньше, чем ожидалось. Я верю, что мы увидим первых роботов, ходящих среди нас, через несколько лет, а может быть, даже меньше.
Однако развитие технологий — это одно, а создание на их основе полезных продуктов — совсем другое.
Ценность мультимодального искусственного интеллекта, поддерживающего аудио, заключается в том, что пользователи могут создавать ультраперсонализированные песни, в которые они вкладывают эмоции. Та же основная технология, но продукт в правильной упаковке – это то, что расширяет возможности людей. И именно здесь я вижу, что вскоре произойдет много исследований, и модели станут более надежными, управляемыми и надежными .
Мультимодальный ИИ уже меняет наше взаимодействие с технологиями. Возьмите чат-ботов: когда-то простые текстовые инструменты, которые люди игнорировали на веб-сайтах, теперь превращаются в сложные мультимодальные интерфейсы, лежащие в основе новых проектов.
Мультимодальность открывает новые модели взаимодействия — например, образовательные приложения, такие как Duolingo или Khan Academy . Возможность практиковать свои языковые навыки при написании текста партнеру по искусственному интеллекту, улучшать произношение в голосовом разговоре или показывать математические уравнения на фотографиях — это совершенно новый способ более естественного взаимодействия с технологиями, повышающий производительность и вовлеченность.
Я вижу будущее с суперприложениями или даже с новыми операционными системами, в которых пользователи смогут давать инструкции и получать результат, не перемещаясь по различным приложениям.
Например, вместо того, чтобы нажимать на значки и текст, чтобы заказать еду, вы можете говорить, жестикулировать или даже смотреть на определенные элементы, чтобы взаимодействовать более человечно. Первые пользователи, такие как Humane AI Pin и Rabbit R1, демонстрируют многообещающие результаты, но также подчеркивают непредсказуемость и возможности для улучшения. Нам, разработчикам и исследователям искусственного интеллекта, необходимо решить эти проблемы, и я уверен, что мы это сделаем.
Мультимодальные системы искусственного интеллекта призваны революционизировать то, как мы взаимодействуем с технологиями, разрушая барьеры между различными формами общения. Мы все еще находимся в начале изучения этого нового способа построения интерфейсов, но уже заметна одна общая закономерность:
существующие системы с заранее определенными моделями взаимодействия будут изобретены заново.
Ориентироваться в этическом ландшафте ИИ сложно, но важно, поскольку технология быстро развивается, а ее последствия все еще понимаются. Мы должны предвидеть и смягчать предубеждения и непредвиденные последствия.
Некоторые проблемы проистекают из этических последствий, связанных с человеческими недостатками. Например, проекты, направленные на создание ИИ-компаньонов, могут помочь в борьбе с одиночеством. Тем не менее, они также могут усугубить ситуацию, побуждая людей находить комфорт в ИИ, а не в реальном взаимодействии. Это вызывает у создателей вопросы о последствиях их приложений и о том, как им следует их решать. Это всего лишь один пример фундаментальных вопросов, которые возникают в связи с, казалось бы, простыми приложениями, и многие другие нам еще предстоит представить, не говоря уже о побочных эффектах их существования.
Недавние инциденты в сфере больших технологий, такие как искаженное историческое представление людей в сгенерированных изображениях , подчеркивают серьезные проблемы, включая этические проблемы и непредвиденные последствия, которые возникают в результате быстрого развития технологий искусственного интеллекта.
Простого ответа нет, но я считаю, что обеспечение прозрачности посредством разработки LLM с открытым исходным кодом (раскрытие как моделей, так и данных, на которых они обучались) и содействие междисциплинарному подходу с участием людей с различным опытом, а не только инженеров и ученых, имеют решающее значение. шаги по решению этих проблем.
Задавать эти вопросы – единственный правильный подход. Мы несем ответственность за формирование будущего самых мощных технологий, которые будут созданы. Как создатели ИИ, мы должны учитывать присущие и потенциальные предубеждения и способы их смягчения.
Магия ИИ заключается в понимании случаев использования лазера, где он может быть наиболее полезным. После ухода из Amazon я обсуждал со своим другом Владом Панченко свое видение будущего и различных способов, которыми ИИ может принести пользу человечеству. Построив агентские системы в течение некоторого времени и объединив эти знания с опытом Влада как успешного серийного предпринимателя, мы начали думать о том, как агенты ИИ можно применить в бизнесе. Большинству компаний не хватает доступа к высокопоставленным директорам по маркетингу, операционным директорам и другим экспертам, необходимым для успеха. ИИ может демократизировать доступ к разведке в беспрецедентных масштабах. Вместе мы исследовали разложение сложных бизнес-процессов на небольшие, идентифицируемые задачи, рассматривая агентов как отдельные кирпичики, которые можно объединять и взаимодействовать друг с другом. Я был воодушевлен потенциалом, и это привело к рождению Portal AI , движимого верой в то, что искусственный интеллект мирового класса будет поддерживать бизнес в их повседневной деятельности, от маркетинга до логистики, позволяя им сосредоточиться на том, что действительно важно.
ИИ готов совершить революцию в управлении бизнесом, автоматизируя повторяющиеся задачи и улучшая процесс принятия решений.
Представьте себе, что у вас есть партнер по искусственному интеллекту, который занимается вашим маркетингом, логистикой и кадрами, что позволяет вам сосредоточиться на творческой и стратегической работе. Эта трансформация демократизирует доступ к экспертным знаниям, позволяя каждому бизнесу работать на более высоком уровне.
Способность ИИ оптимизировать операции не только повысит эффективность, но и будет способствовать инновациям и росту.
« Теневой ИИ » — непреднамеренное и часто скрытое использование ИИ — представляет собой значительные риски. Например, люди, использующие ИИ для игры в алгоритмы социальных сетей, подчеркивают, как ИИ может использоваться не по назначению. Поскольку контент ИИ наводняет Интернет, поддержание целостности и безопасности становится сложной задачей. Исследования в области этического ИИ должны идти в ногу с этими разработками, обеспечивая прозрачность и надежные меры защиты. Устранение этих рисков требует постоянной бдительности и адаптивных стратегий для защиты от неправильного использования.
Мы оказались в этой новой эпохе, когда есть много вещей, о которых нам нужно помнить и продолжать дискутировать.
Все движется и меняется так быстро, что это здорово. Но это также означает, что уже через три месяца существует большая вероятность того, что что-то устарело, устарело или просто старомодно. Невозможно просто прочитать книгу и быть в курсе событий в таких быстрых циклах итераций.
В этой области есть крупные лидеры и авторитетные источники, поэтому подписка на них поможет оставаться в курсе событий. Чтобы глубже погрузиться в исследования, я подписываюсь на соответствующие информационные бюллетени и сообщества на таких платформах, как Reddit и Twitter/X, и, конечно же, я использую искусственный интеллект для обобщения своих тем на Reddit.
Для тех, кто стремится приобрести опыт в области искусственного интеллекта, есть несколько путей. Если вы хотите стать исследователем, заложите прочный фундамент — искусственный интеллект глубоко укоренен в математике, и хотя тенденции меняются, лежащая в его основе математика остается прежней.
В целом я большой сторонник хакатонов. Я был на многих, организовал несколько. И мне нужно увидеть много проектов. Они отлично подходят для того, чтобы люди могли научиться чему-то новому и использовать их. Если бы я мог порекомендовать что-то кому-либо, будь то инженеру, менеджеру по продукту или генеральному директору, то это было бы: пойти туда, познакомиться с людьми, которые хотят что-то построить, запачкать руки и начать работу. Это лучший способ по-настоящему понять вещи, потому что вы сможете развить свою интуицию и весело провести время. Просто оставайтесь любопытными!
Я очень хочу прочитать это интервью через 20 лет! ИИ меняется так быстро, что предсказать, что произойдет через 20 месяцев, не говоря уже о 20 годах, сложно. Мы переживаем уникальный момент: мы находимся на ранних этапах возможности консолидировать весь человеческий интеллект в одну систему, обеспечивающую универсальный доступ к знаниям. В настоящее время такие ресурсы, как образование, распределены неравномерно, и я считаю, что ИИ окажет здесь большое влияние, будучи универсальным уравнивателем во многих отношениях.
И снова коснувшись роботов, я думаю, это станет реальностью. У нас будут персональные роботы, которые будут жить с нами в качестве помощников и брать на себя все домашние дела.
У нас будут гиперперсонализированные продукты — наши собственные репетиторы, тренеры и друзья. У нас пока даже нет названий для этих сущностей, но это уже происходит.
Еще одна вещь, которая меня волнует, — это ускорение исследований. Я в восторге от перспективы первого лекарства или лекарства, разработанного совместно с искусственным интеллектом — каким прекрасным был бы этот мир. Я твердо верю в лучшее будущее и рад сделать все возможное, чтобы сформировать это будущее.
Это верно! Я родился в Ливане, в детстве переехал в Украину и вырос там. Украина глубоко сформировала меня. В 17 лет я переехал в Германию, чтобы поступить в университет, где позже ко мне присоединилась моя семья, и началась моя карьера. Живя в разнообразных и одинаково красивых обществах, я узнал об их уникальных проблемах и возможностях.
Исследования искусственного интеллекта в настоящее время ориентированы на англоязычный язык, при этом большинство данных и систем создаются англоговорящими людьми и для них. Полагая, что ИИ должен быть универсальным эквалайзером, нам необходимо адаптировать и поддерживать каждый язык, чтобы создать действительно универсальный ИИ. Имея возможность говорить на пяти языках, я идентифицирую себя со всеми из них: я ливанец, украинец и немец. Я человек. Этот опыт дал мне бесценное понимание того, что нас объединяет и делает нас уникальными, и я ношу эти знания с собой во всех своих начинаниях.