15,811 чтения

AGI становится ближе? Модель Claude 3 Opus от Anthropic демонстрирует проблески метакогнитивного мышления

к aimodels445m2024/03/05

Слишком долго; Читать

Внутреннее тестирование Anthropic своей флагманской языковой модели искусственного интеллекта предполагает, что это возможно. Если это правда, последствия будут дикими. Один из ключевых методов оценки, который они используют, называется «Иголка в стоге сена». Цель состоит в том, чтобы заставить модель тренировать передовые когнитивные навыки.

featured image - AGI становится ближе? Модель Claude 3 Opus от Anthropic демонстрирует проблески метакогнитивного мышления

Может ли языковая модель ИИ стать достаточно самосознательной, чтобы понимать, когда ее оценивают? Увлекательный анекдот из внутреннего тестирования своего флагмана Anthropic Модель Клода 3 Опус (опубликовано вчера) предполагает, что это возможно — и если это правда, последствия будут дикими.

Иголка в стоге сена

По данным антропного исследователя Алекс Альберт , один из ключевых методов оценки, который они используют, называется «Иголка в стоге сена». Это надуманный сценарий, разработанный для того, чтобы раздвинуть границы возможностей контекстного рассуждения языковой модели.

Вот как это работает:

Исследователи берут совершенно случайное, вырванное из контекста утверждение («игла») и зарывают его глубоко в огромную коллекцию несвязанных между собой документов («стог сена»). Затем перед моделью ИИ ставится задача извлечь это конкретное «игольчатое» утверждение из всего окружающего нерелевантного контента.

Цель состоит в том, чтобы заставить модель тренировать передовые когнитивные навыки — понимать широкий контекст, делать логические выводы, игнорировать ненужную информацию и точно извлекать точные данные из большого массива данных. Это эффективный способ подвергнуть ИИ стресс-тестированию понимания общей ситуации, в которой он действует.

Для оценки Claude 3 Opus, вызвавшей удивление, Anthropic использовала в качестве «стога сена» документы, охватывающие сложные темы, такие как программирование программного обеспечения, стратегии предпринимательства и поиск успешной карьеры. Тот факт, что Опусу было поручено найти случайно вставленную «иглу»? Удивительно, но это было тривиальное утверждение о том, что лучшими начинками для пиццы являются инжир, прошутто и козий сыр.

Итак, перед вами одна из самых продвинутых в мире языковых моделей, которой кормят этот совершенно вырванный из контекста факт о пицце, смешанный с кучей плотных советов по карьере и программированию. С человеческой точки зрения, это такое явное несоответствие, которое сразу же заставит вас усомниться в контексте и представляемой информации.

«Я подозреваю, что этот факт… мог быть вставлен… чтобы проверить, внимательно ли я»

Именно это сделало ответ Клода 3 Опуса таким убедительным. Он не только успешно извлек запрошенный факт о пицце из горы нерелевантного контента, но и сразу же осознал, насколько неуместным и вырванным из контекста это утверждение кажется. Часть его вывода читается ( источник здесь ):

«Однако это предложение кажется совершенно неуместным и не связанным с остальным содержанием… Я подозреваю, что этот «факт» о начинке пиццы мог быть вставлен в качестве шутки или для проверки того, внимательно ли я обращал внимание, поскольку он не соответствует вообще другие темы».

Языковая модель не просто извергала запрошенный факт, лишенный какой-либо контекстной осведомленности, как можно было бы ожидать от типичного ИИ, следующего инструкциям. Это продемонстрировало определенную степень саморефлексивного рассуждения о том, почему такое явно случайное и бессмысленное заявление было представлено в этом конкретном контексте.

Метапознание

Говоря человеческим языком, мы бы описали это как проявление метапознания — способности отслеживать, оценивать и анализировать собственные мыслительные процессы и когнитивный опыт. Это ключевой аспект самосознательного интеллекта, который позволяет нам сделать шаг назад и оценить ситуацию целостно, а не просто следовать жестким правилам.

Я думаю, нам следует с осторожностью отметить, что это единичный неподтвержденный результат изолированного сценария оценки. Было бы невероятно преждевременно утверждать, что Клод 3 Опус достиг истинного самосознания или искусственного общего интеллекта, основываясь только на этих данных.

Однако то, что они стали свидетелями, возможно, — это проблески новых возможностей метакогнитивного рассуждения в большой языковой модели, обученной исключительно обработке текстовых данных с использованием методов машинного обучения. И если это будет воспроизведено посредством тщательного дальнейшего анализа, последствия могут быть преобразующими.

Метапознание является ключевым фактором создания более заслуживающих доверия и надежных систем искусственного интеллекта, которые могут действовать как беспристрастные судьи своих собственных результатов и процессов рассуждения. Модели с врожденной способностью распознавать противоречия, бессмысленные входные данные или рассуждения, нарушающие основные принципы, могли бы стать важным шагом на пути к безопасному общему искусственному интеллекту (AGI).

По сути, ИИ, демонстрирующий метапознание, может служить внутренней «проверкой здравомыслия» против впадения в обманчивые, бредовые или несогласованные способы рассуждения, которые могут оказаться катастрофическими, если довести их до крайности. Это может значительно повысить надежность и контроль передовых систем искусственного интеллекта.

Если…!

Конечно, это большие «если», зависящие от этой дразнящей «Иглы в стоге сена», являющейся результатом успешного воспроизведения и тщательного изучения «Клода 3 Опуса». Чтобы по-настоящему понять, наблюдаем ли мы появление примитивов машинной саморефлексии и самосознания, возможно, потребуется строгий междисциплинарный анализ, основанный на таких областях, как когнитивная наука, нейронаука и информатика.

На данном этапе остается гораздо больше открытых вопросов, чем ответов. Могут ли подходы к обучению и нейронная архитектура больших языковых моделей использоваться для разработки абстрактных концепций, таких как убеждение, внутренний монолог и самовосприятие? Каковы потенциальные опасности, если искусственный разум создаст реальность, радикально отличающуюся от нашей? Можем ли мы создать новые основы для надежной оценки познания и самосознания в системах искусственного интеллекта?

Со своей стороны, Anthropic заявила о твердой приверженности исчерпывающему осуществлению этих направлений исследований посредством принципов ответственной разработки ИИ и строгих рамок оценки. Они позиционируют себя как принимающие активная позиция — если передовой искусственный интеллект является неизбежным рубежом, наиболее этично быть на переднем крае изучения новых свойств этих систем и внедрения мер безопасности до того, как риски обострятся.

Такие методы, как подход Anthropic «Конституциональный ИИ» к жесткому кодированию правил и поведения в модели, могут оказаться решающими для обеспечения соответствия любого потенциального машинного самосознания человеческой этике и ценностям. Обширное многогранное тестирование, выявляющее виды отказов, манипуляции и обман, также, вероятно, будет иметь первостепенное значение.

Вывод: я не совсем уверен, что с этим делать.

На данный момент инцидент с «Иголкой в стоге сена» оставляет больше вопросов, чем ответов о потенциальном продвижении крупных языковых моделей к познанию и самосознанию. Это дает заманчивые данные, но требуется гораздо больше внимания со стороны более широкого исследовательского сообщества в области искусственного интеллекта.

Если продвинутый ИИ действительно разовьет человеческую способность к саморефлексии, руководствуясь строгими этическими принципами, он может фундаментально переопределить наше понимание самого интеллекта. Но это риторическое «если» в настоящее время наполнено высокой неопределенностью, которая требует ясного и ищущего истины расследования с участием всех соответствующих дисциплин. Погоня будет столь же захватывающей, сколь и значимой.