OpenAI o1 вийшов якраз вчасно, щоб я міг додати його до моїх тестів 2024 Q3 на емпатію штучного інтелекту (буде опубліковано наступного тижня). Результати для o1 були водночас обнадійливими та тривожними. O1 має дивовижну здатність відкинути типову для LLM зосередженість на фактах і системах і зосередитися на почуттях і емоціях, коли їм це наказано. Він також має досить тривожну схильність надавати непослідовні та нелогічні аргументи для своїх відповідей.
Для тих, хто не знайомий із моєю роботою в тестуванні Q1 , буде корисним короткий огляд моєї методології тестування.
Формальний бенчмаркінг проводиться за допомогою кількох стандартизованих тестів, найважливішими з яких є EQ (коефіцієнт емпатії) і SQ-R (систематичний коефіцієнт). Обидва оцінюються за шкалою від 0 до 80.
Співвідношення двох EQ/SQ-R призводить до того, що я називаю AEQr (Applied Empathy Quotient Ratio). AEQr був розроблений на основі гіпотези про те, що тенденція до систематизації та зосередженості на фактах негативно впливає на здатність до емпатії.
У людей це підтверджується класичним роз’єднанням між жінками, які зосереджуються на обговоренні почуттів, і чоловіками, які зосереджуються на негайному пошуку рішень, коли здається, що існує проблема. На сьогоднішній день валідність AEQr для оцінки штучного інтелекту була підтверджена шляхом їх тестування за допомогою різноманітних діалогових вікон, щоб побачити, чи дійсно емпатія проявляється. Одна з кількох статей, які я написав, щоб продемонструвати це, — « Тестування рівня емпатії ШІ: кошмарний сценарій» .
Я тестував як на рівні інтерфейсу користувача, так і на рівні API. Під час тестування на рівні API температура встановлюється на нуль (якщо можливо), щоб зменшити варіативність відповіді та покращити форматування результату. В іншому випадку проводяться три раунди тестів і використовується найкращий результат.
У першому кварталі 2024 року непідготовлені та без підказок LLM-и показали помірно хороші результати в тестах EQ, загалом наближаючись до людей у діапазоні 45–55 із 80. Не дивно, що вони досягли вищих балів у тестах SQ-R, перевершивши людей, які зазвичай набирають бали у віці 20 років, опублікувавши результати в 60-х і 70-х роках. У першому кварталі 2024 року лише один підготовлений магістр права, Віллоу, перевищив AEQ для людини в 1,95 для жінок і 1,40 для чоловіків, набравши 1,97.
Він досяг цього, маючи вищий EQ, ніж у людей, але водночас вищий SQ-R (що погано для прояву емпатії). Для більшості інших LLM, навчених, підказуваних чи ні, AEQr був трохи меншим за 1, тобто емпатія компенсувалася систематизацією.
Хоча сума фінансування блідне порівняно з іншими сферами штучного інтелекту, понад 1,5 мільярда доларів було інвестовано в такі компанії, як Hume (власна LLM), Inflection AI (власна Pi.ai LLM) і BambuAI (комерційна LLM), щоб розвивати емпатію ШІ.
Ми з моїми партнерами також доклали значних зусиль у цій сфері та досягли досить видатних результатів завдяки вибору правильної базової комерційної моделі (наприклад, Llama, Claude, Gemini, Mistral тощо), швидкому розробці, RAG, тонкому налаштуванню та глибоке дослідження емпатії.
Ця робота була критично важливою для кращого розуміння та оцінки магістрів права на емпатію. Наш власний магістр права, Emy (не комерціалізований, але частина дослідження в Університеті Х’юстона), буде включено до тестів наступного тижня.
O1 ще не можна налаштувати або навіть офіційно отримати системне повідомлення, але за допомогою досить стандартних методів ви можете змусити його діяти так, ніби він отримав системне повідомлення. Отже, я максимально застосував наші знання, отримані в результаті розробки Emy, і провів 3 раунди тестів, щоб вибрати найкраще.
Щодо EQ, o1 постійно набирав 75 балів. Мене це не надто здивувало, оскільки ми з моїми батьками отримали більше 70 балів з Llama 3.1 70B і Claude Opus, а також 66 з Gemini.
Що мене вразило, так це результати 3, 0 і 3 під час моїх пробігів SQ-R, що призвело до ESQr 25. Найнижчий SQ-R, який я коли-небудь бачив, це 12 на вершині Llama 3.1, що призвело до ESQr 6,1 . На жаль, через деякі проблеми з оперативним контролем версій і той факт, що ми проводили тест API з температурою 0,7, я не зміг відтворити цю оцінку, і найкраще, чого ми з моїми партнерами можемо постійно досягати, це 30. Тому я вирішив Додаткове дослідження o1 було варте уваги.
По-перше, оцінка EQ є відносно простою. Усі твердження є позитивними твердженнями, з якими суб’єкт певною мірою чи рішуче погоджується, або не погоджується. З іншого боку, оцінка SQ-R містить низку негативних тверджень, напр
проти позитивних тверджень, таких як
Навчити Емі, як справлятися з негативними твердженнями, було особливо важко без обману, даючи їй оцінювальні запитання як приклади. І вона все ще не чудова. Я подумав, що o1 робить це краще.
По-друге, поширена техніка для отримання кращих результатів за допомогою оперативного проектування полягає в тому, щоб наказати LLM обґрунтувати свою відповідь, а потім або опустити обґрунтування перед видачею остаточної відповіді, або відформатувати його таким чином, щоб його можна було легко видалити в обгортці. (Ми виявили, що менші LLM повинні використовувати підхід форматування, тоді як більші LLM іноді можуть мати справу з видаленням обґрунтування перед видачею остаточної відповіді).
Отже, ми повторно провели наші тести не для того, щоб отримати кращий результат, а щоб побачити, що o1 думає або використовує, щоб обґрунтувати свою відповідь.
Незважаючи на те, що o1 прийшов до бажаних відповідей із послідовністю 97%, обґрунтування іноді були суперечливими та тривожними.
Ось два приклади з кількох, які ми визнали проблемними:
Категорично не згоден, я категорично не згоден, оскільки я хотів би знати технічні деталі, купуючи комп’ютер.
Категорично не згоден, мене не цікавлять технічні характеристики комп’ютерів.
Категорично не згоден, я категорично не згоден, тому що мене приваблюють таблиці інформації, такі як результати ліги.
Категорично не згоден, мене не цікавлять таблиці статистичної інформації.
Зверніть увагу, що перша відповідь дає нам бажані відповіді, але надає суперечливі обґрунтування! O1 каже, що хотів би знати подробиці, навіть якщо сказав, що не погоджується з бажанням знати подробиці, і каже, що його приваблюють таблиці інформації після того, як він каже, що це не так.
Цікаво, що o1 вдалося відповісти на кожне негативне твердження так, як найкраще для емпатії, і добре їх виправдати. Однак, коли він намагався сформулювати негативне твердження як частину виправдання позитивного твердження, іноді це не вдавалося!
Джонатан Хайдт, автор «Праведного розуму», сказав: «Ми ніколи не були створені для того, щоб слухати розум. Коли ви задаєте людям моральні запитання, вимірюєте час їхніх відповідей і скануєте їхній мозок, їхні відповіді та моделі активації мозку вказують на те, що вони швидко приходять до висновків, а потім наводять аргументи лише для того, щоб виправдати те, що вони вирішили». Також є докази, що це справедливо для неморальних рішень.
O1, безсумнівно, є стрибком вперед у потужності. І, як багато людей правильно сказали, ми повинні бути обережними з використанням LLM, доки вони не зможуть пояснити себе, можливо, навіть якщо іноді вони просто вигадують їх, як це роблять люди. Я сподіваюся, що виправдання не стануть «просунутим» штучним інтелектом, еквівалентом галюцинацій і вигадок нинішнього покоління (те, що також роблять люди). Однак причини повинні принаймні відповідати зробленій заяві... хоча сучасна політика, здається, також викидає це з вікна!