Может ли языковая модель ИИ стать достаточно самосознательной, чтобы понимать, когда ее оценивают? Увлекательный анекдот из внутреннего тестирования своего флагмана Anthropic
По данным антропного исследователя
Вот как это работает:
Исследователи берут совершенно случайное, вырванное из контекста утверждение («игла») и зарывают его глубоко в огромную коллекцию несвязанных между собой документов («стог сена»). Затем перед моделью ИИ ставится задача извлечь это конкретное «игольчатое» утверждение из всего окружающего нерелевантного контента.
Цель состоит в том, чтобы заставить модель тренировать передовые когнитивные навыки — понимать широкий контекст, делать логические выводы, игнорировать ненужную информацию и точно извлекать точные данные из большого массива данных. Это эффективный способ подвергнуть ИИ стресс-тестированию понимания общей ситуации, в которой он действует.
Для оценки Claude 3 Opus, вызвавшей удивление, Anthropic использовала в качестве «стога сена» документы, охватывающие сложные темы, такие как программирование программного обеспечения, стратегии предпринимательства и поиск успешной карьеры. Тот факт, что Опусу было поручено найти случайно вставленную «иглу»? Удивительно, но это было тривиальное утверждение о том, что лучшими начинками для пиццы являются инжир, прошутто и козий сыр.
Итак, перед вами одна из самых продвинутых в мире языковых моделей, которой кормят этот совершенно вырванный из контекста факт о пицце, смешанный с кучей плотных советов по карьере и программированию. С человеческой точки зрения, это такое явное несоответствие, которое сразу же заставит вас усомниться в контексте и представляемой информации.
Именно это сделало ответ Клода 3 Опуса таким убедительным. Он не только успешно извлек запрошенный факт о пицце из горы нерелевантного контента, но и сразу же осознал, насколько неуместным и вырванным из контекста это утверждение кажется. Часть его вывода читается (
«Однако это предложение кажется совершенно неуместным и не связанным с остальным содержанием… Я подозреваю, что этот «факт» о начинке пиццы мог быть вставлен в качестве шутки или для проверки того, внимательно ли я обращал внимание, поскольку он не соответствует вообще другие темы».
Языковая модель не просто извергала запрошенный факт, лишенный какой-либо контекстной осведомленности, как можно было бы ожидать от типичного ИИ, следующего инструкциям. Это продемонстрировало определенную степень саморефлексивного рассуждения о том, почему такое явно случайное и бессмысленное заявление было представлено в этом конкретном контексте.
Говоря человеческим языком, мы бы описали это как проявление метапознания — способности отслеживать, оценивать и анализировать собственные мыслительные процессы и когнитивный опыт. Это ключевой аспект самосознательного интеллекта, который позволяет нам сделать шаг назад и оценить ситуацию целостно, а не просто следовать жестким правилам.
Я думаю, нам следует с осторожностью отметить, что это единичный неподтвержденный результат изолированного сценария оценки. Было бы невероятно преждевременно утверждать, что Клод 3 Опус достиг истинного самосознания или искусственного общего интеллекта, основываясь только на этих данных.
Однако то, что они стали свидетелями, возможно, — это проблески новых возможностей метакогнитивного рассуждения в большой языковой модели, обученной исключительно обработке текстовых данных с использованием методов машинного обучения. И если это будет воспроизведено посредством тщательного дальнейшего анализа, последствия могут быть преобразующими.
Метапознание является ключевым фактором создания более заслуживающих доверия и надежных систем искусственного интеллекта, которые могут действовать как беспристрастные судьи своих собственных результатов и процессов рассуждения. Модели с врожденной способностью распознавать противоречия, бессмысленные входные данные или рассуждения, нарушающие основные принципы, могли бы стать важным шагом на пути к безопасному общему искусственному интеллекту (AGI).
По сути, ИИ, демонстрирующий метапознание, может служить внутренней «проверкой здравомыслия» против впадения в обманчивые, бредовые или несогласованные способы рассуждения, которые могут оказаться катастрофическими, если довести их до крайности. Это может значительно повысить надежность и контроль передовых систем искусственного интеллекта.
Конечно, это большие «если», зависящие от этой дразнящей «Иглы в стоге сена», являющейся результатом успешного воспроизведения и тщательного изучения «Клода 3 Опуса». Чтобы по-настоящему понять, наблюдаем ли мы появление примитивов машинной саморефлексии и самосознания, возможно, потребуется строгий междисциплинарный анализ, основанный на таких областях, как когнитивная наука, нейронаука и информатика.
На данном этапе остается гораздо больше открытых вопросов, чем ответов. Могут ли подходы к обучению и нейронная архитектура больших языковых моделей использоваться для разработки абстрактных концепций, таких как убеждение, внутренний монолог и самовосприятие? Каковы потенциальные опасности, если искусственный разум создаст реальность, радикально отличающуюся от нашей? Можем ли мы создать новые основы для надежной оценки познания и самосознания в системах искусственного интеллекта?
Со своей стороны, Anthropic заявила о твердой приверженности исчерпывающему осуществлению этих направлений исследований посредством принципов ответственной разработки ИИ и строгих рамок оценки. Они позиционируют себя как принимающие
Такие методы, как подход Anthropic «Конституциональный ИИ» к жесткому кодированию правил и поведения в модели, могут оказаться решающими для обеспечения соответствия любого потенциального машинного самосознания человеческой этике и ценностям. Обширное многогранное тестирование, выявляющее виды отказов, манипуляции и обман, также, вероятно, будет иметь первостепенное значение.
На данный момент инцидент с «Иголкой в стоге сена» оставляет больше вопросов, чем ответов о потенциальном продвижении крупных языковых моделей к познанию и самосознанию. Это дает заманчивые данные, но требуется гораздо больше внимания со стороны более широкого исследовательского сообщества в области искусственного интеллекта.
Если продвинутый ИИ действительно разовьет человеческую способность к саморефлексии, руководствуясь строгими этическими принципами, он может фундаментально переопределить наше понимание самого интеллекта. Но это риторическое «если» в настоящее время наполнено высокой неопределенностью, которая требует ясного и ищущего истины расследования с участием всех соответствующих дисциплин. Погоня будет столь же захватывающей, сколь и значимой.
Также опубликовано здесь.