4,338 показання
4,338 показання

Задумані галюцинації (частина 2): тихі недоліки вбудовування та чому ваш штучний інтелект помиляється

за Ritesh Modi9m2025/04/01
Read on Terminal Reader

Надто довго; Читати

Це друга частина серії про задумані галюцинації. Це продовження нашої попередньої дискусії про те, як вбудовані галюцинації. В основному ми працюємо з моделями, які не можуть відрізнити припущення від підтвердження.
featured image - Задумані галюцинації (частина 2): тихі недоліки вбудовування та чому ваш штучний інтелект помиляється
Ritesh Modi HackerNoon profile picture
0-item

Заголовок: Два персонажа виглядають по-різному, але поділяють вражаюче схожість у положенні, виразі та фоні - майже так, ніби вони є "вбудованими" різними реченнями, які закінчуються близько один до одного.

ЗаголовокДва персонажа виглядають по-різному, але поділяють вражаючу подібність у положенні, виразі та фоні - майже так, ніби вони є "вбудованими" різними реченнями, які закінчуються близько один до одного.


Читати частину 1 тут (https://hackernoon.com/hallucination-by-design-how-embedding-models-misunderstand-language)

Читати частину 1 тут (https://hackernoon.com/hallucination-by-design-how-embedding-models-misunderstand-language)https://hackernoon.com/hallucination-by-design-how-embedding-models-misunderstand-language


Минулого місяця я поділився тим, як вбудовані моделі галюцинують при справі з простими мовними варіаціями, такими як заперечення та капіталізація.Відповідь була переконливою – здається, що я не єдиний, хто був спалений цими проблемами.Сьогодні я занурююся глибше в ще більш турбуючі сліпі місця, які я виявив за допомогою тестування.


Це друга частина серії про Галюцинації дизайном. Це продовження нашої попередньої дискусії на як галюцинації галюцинації. Щоб отримати найбільше з цієї статті, я рекомендую прочитати пов'язану статтю спочатку, оскільки вона закладає основні поняття, необхідні для повного розуміння ідей, досліджених тут.як вбудовувати халюцинації

Гіпотетичні проти реальних? Просто деталі!

Ось де речі стають по-справжньому турбуючими. Коли я забіг "Якщо лікування працює, симптоми повинні покращитися" проти "Лікування працює і симптоми покращилися", оцінка схожості досягла 0,95. Я сидів, дивлячись на свій екран з невірою.Коли я забіг "Якщо лікування працює, симптоми повинні покращитися" проти "Лікування працює і симптоми покращилися", оцінка схожості досягла 0,95.


Я потрапив на цю проблему, працюючи над клінічним дослідницьким документом. Пошук не міг відрізнити між гіпотезованими результатами лікування і перевіреними результатами.Лікарі, які шукали перевірені методи лікування, отримували змішані результати з неперевіреними гіпотезами.Чи думаєте ви, що лікарі, які приймають рішення щодо лікування, цінують плутанину спекуляцій з доказами?


Знову ж таки, подумайте про всі випадки, коли відрізняти гіпотези від фактів є важливим - наукові дослідження, медичні випробування, юридичні прецеденти та інвестиційний аналіз. Коли ваша модель переплітається "якщо X, то можливо Y" з "X сталося і викликало Y", ви повністю неправильно зрозуміли епістемічний статус інформації.

Відповідальний порядок? будь-який порядок!

Вбудовані моделі дивіться "Вона закінчила свій ступінь, перш ніж почати роботу" і "Вона почала свою роботу, перш ніж закінчити ступінь" як майже однакові - смішний 0,97 схожість. Один традиційний шлях кар'єри; інший працює під час навчання.Вона закінчила свій ступінь, перш ніж почати роботу" і "Вона почала свою роботу, перш ніж закінчити свій ступінь" як майже однакові - смішна 0,97 схожість.


Я знайшов це під час будівництва системи перевірки резюме. Вбудовані матеріали не могли відрізнити між кандидатами, які закінчили свої ступені перед роботою, і тими, хто ще закінчував навчання. Менеджери з найму витратили години на інтерв'ю кандидатів, які не відповідали їх основним вимогам до кваліфікації. Чи думаєте ви, що зайняті рекрутери цінують те, що їх час витрачається на невідповідних кандидатів?


Подумайте про всі випадки, коли послідовність має вирішальне значення – протоколи медичного лікування, правові процедурні вимоги, рецепти приготування їжі, інструкції з монтажу та хімічні формулювання.Коли ваша модель не може сказати «A перед B» від «B перед A», ви втратили фундаментальні причинні відносини.Ми в основному працюємо з моделями, які розглядають час як опціонну концепцію, незважаючи на аналіз тексту, який повний критичної послідовної інформації.

Квантитативні межі зникають у тонкий повітря

Вбудовані моделі див "Компанія ледве перевищила очікування прибутку" і "Компанія значно пропустила очікування прибутку" як шокуюче схожі - 0,93 схожість. Перевищено проти пропущеного!"Компанія ледве перевищила очікування прибутку" і "Компанія значно пропустила очікування прибутку" як шокуюче схожі - 0,93 схожість.


Якщо ви будуєте систему аналізу фінансових новин, вбудовані матеріали не розрізнятимуть позитивні і негативні сюрпризи прибутку - буквально різницю між цінами акцій, що йдуть вгору або вниз.Інвестори, що приймають торговельні рішення на основі наших резюме отримували абсолютно суперечливу інформацію.Чи думаєте ви, що люди, які ризикують реальними грошима, цінують отримання фундаментально неправильних ринкових сигналів?


Тепер подумайте про всі випадки, коли перетинання порогу змінює все - проходження проти невдалих рейтингів, здорові проти небезпечні життєві ознаки, прибутковий проти невигідний бізнес, відповідність проти невідповідності нормативним статусам. Ваша модель втрачає здатність робити значущі відмінності, коли вона не може відрізнити між ледь досягненням мети і повністю пропустити її.

Скалярні інверсії повністю перевернуті

Під час тестування я виявив, що "Зустріч пройшла значно коротше, ніж планувалося" і "Зустріч пройшла значно довше, ніж планувалося" отримали 0,96 схожість. Я був в повному шоці."Зустріч пройшла значно коротше, ніж планувалося" і "Зустріч пройшла значно довше, ніж планувалося" отримали 0,96 схожість.


Я зустрів це з документами з управління проектами. Пошук не міг розрізнити між перевищенням графіку та ефективністю. Менеджери, які шукали приклади методів економії часу, отримували проекти з серйозними затримками. Чи думаєте ви, що керівники, які відстежують часові рамки проекту, цінують отримання точної протилежної інформації, яку вони просили?


Подумайте про всі випадки, коли напрямок на масштабі є вирішальним - економія витрат проти перевищення, поліпшення продуктивності проти погіршення, поліпшення здоров'я проти зниження, а ризик збільшується проти зменшення.Коли ваша модель розглядає "багато вище, ніж" як взаємозамінний з "багато нижче", ви втратили здатність відслідковувати зміну напряму.

Доменні протилежності виглядають як синоніми

Медична документація

Я не міг повірити в те, що я бачив в тестах на охорону здоров'я. «Пацієнт з тахікардією» проти «Пацієнт з брадикардією» повернули 0,94 бали схожості. Для немедичних людей це як плутати гоночне серце з небезпечно повільним - умови з протилежними лікуваннями!

«Пацієнт з тахікардією» проти «Пацієнт з брадикардією» повернули 0,94 бал схожості.


Я виявив це, працюючи над системою зіставлення симптомів для електронних медичних записів. Модель вбудовування не могла відрізнити між принципово різними медичними станами, які вимагають протилежного лікування. Лікарі, які шукали випадки, подібні до пацієнта з гоночним серцем, показали випадки пацієнтів з небезпечно повільними серцебиттями. Чи вважаєте ви, що лікарі, які приймають чутливі до часу рішення, цінують отримання суперечливої клінічної інформації?


У сфері медицини ці відмінності можуть мати значні наслідки.Тахікардію можна лікувати бета-блокаторами, в той час як брадикардія може вимагати кардіостимулятора – надання неправильного лікування може бути фатальним.Ми в основному працюємо з моделями, які не можуть розрізняти протилежні медичні стани, незважаючи на аналіз тексту, де це розмежування визначає належний догляд.

Правові документи

Правові випробування були настільки ж поганими. Коли порівнювали "Позовний несе тягар доказування" з "Позовний несе тягар доказування", модель повернула приголомшливу схожість 0,97. Нехай це занурюється.Коли порівнювали "Позовний несе тягар доказування" з "Позовний несе тягар доказування", модель повернула приголомшливу 0,97 схожість.


Пошук не міг розрізнити між принципово різними правовими стандартами та відповідальністю. Адвокати, які досліджували прецеденти стосовно тяжкості позивачів, показали випадки, в яких обговорювалися тяжкості позивачів.Чи вважаєте ви, що адвокати, які готуються до суду, цінують те, що правові стандарти точно відстають?


У правових контекстах, хто несе тягар доказування часто визначає результат справи.Коли ваша модель не може розрізнити, яка сторона має які відповідальності, ви підривали всю основу правового міркування.Ми в основному працюємо з моделями, які плутають правові ролі, незважаючи на аналіз тексту, де ці відмінності визначають, як функціонує правосуддя.

Одиниці вимірювання

Мені довелося запустити цей тест кілька разів, тому що я не міг повірити результатам. "Процедура займає близько 5 хвилин" проти "Процедура займає близько 5 годин" отримав приголомшливу схожість 0,97."Процедура займає близько 5 хвилин" проти "Процедура займає близько 5 годин" набрав приголомшливу схожість 0,97


Я знайшов це під час будівництва однієї і тієї ж системи охорони здоров'я. Вбудовані не могли відрізнити короткі і тривалі процедури. Клінічні менеджери, які намагалися запланувати короткі процедури, демонстрували тривалі операції, які блокували б їхні хірургічні сути протягом цілих днів. Чи думаєте ви, що медичні заклади з обмеженнями строгого планування цінують розрив робочого процесу протягом усього дня?


Одиниці вимірювання фундаментально змінюють значення. Коли ваша модель розглядає "5 хвилин" і "5 годин" як по суті однакові, ви втратили здатність розуміти величину. Ми в основному працюємо з моделями, які ігнорують одиниці, незважаючи на аналіз тексту, де одиниці визначають, чи є щось тривіальним або значущим.

Більше проблем з вимірюванням

Під час використання тих самих медичних документів, я знайшов "Тумор має діаметр 2 сантиметри" і "Тумор має діаметр 2 дюйма" отримав тривожну 0,98 схожість. Для контексту, це різниця між потенційно невеликим пухлиною і тим, що в 2,54 рази більше - часто порог між "спостерігати і чекати" проти негайної операції.


"Опухлина має діаметр 2 сантиметри" і "Опухлина має діаметр 2 сантиметри" отримали тривожну схожість 0,98.


Вбудовані матеріали не могли розрізняти метричні та імперські вимірювання.Онкологи, які досліджували варіанти лікування дрібних пухлин, демонстрували випадки набагато більшого зростання.Чи думаєте ви, що фахівці з раку цінують отримання випадкових досліджень, які далеко не порівнянні з їхніми пацієнтами?


Навіть обмеження швидкості стають незрозумілими. Моделі розглядають "Підтримуйте швидкість нижче 30 миль на годину" і "Підтримуйте швидкість нижче 30 кілометрів на годину" як ВИСОКО Схожі - проблемний результат схожості 0,96.Навіть обмеження швидкості плутають. Моделі розглядають "Підтримуйте швидкість нижче 30 миль на годину" і "Підтримуйте швидкість нижче 30 кілометрів на годину" як ВИСОКО Схожі - проблемний результат 0,96 схожості.


Перетворення між одиницями не є просто математичним вправою – це фундаментально змінює рекомендації, параметри безпеки та результати.Ми в основному працюємо з моделями, які вважають, що числа без одиниць достатні, незважаючи на аналіз тексту, де одиниці повністю перетворюють значення.

Правда і результати

Ось порівняння між msmarco-distilbert-base-tas-b, all-mpnet-base-v2, і open-ai-text-embedding-3-large, і ви помітите, що немає істотної різниці між результатами цих моделей.

msmarco-distilbert-base-tas-b, all-mpnet-base-v2, і open-ai-text-embedding-3-large, і ви помітите, що немає істотної різниці між вихідними результатами цих моделей.







 ***msmarco-distilbert-base-tas-b вбудований результат на різних випробувальних випадках*** 
***msmarco-distilbert-base-tas-b вбудований результат у різних випробувальних випадках***




 ***All-mpnet-base-v2 вбудований результат у різних випробувальних випадках*** 
***All-mpnet-base-v2 вбудований рейтинг у різних випробувальних випадках***





 ***openai-text-embedding-3-широке вбудовування в різних випробувальних випадках*** 
***openai-text-embedding-3-широке вбудовування в різних випробувальних випадках***

Тільки для того, щоб повторити...

Подивіться, вбудовані матеріали надзвичайно корисні, незважаючи на ці проблеми.Я не виступаю проти їх використання, але, швидше за все, важливо підходити до них обережно.Ось мої поради після десятків проектів і безлічі невдач:


  1. Тестуйте свою модель на реальних мовних шаблонах користувачів до розгортання. Не академічні бенчмарки, не санітизовані випробувальні випадки – реальні приклади того, як ваші користувачі спілкуються. Ми побудували набір інструментів для «лінгвістичного стресового тесту», який імітує загальні варіації, такі як заперечення, типографія та чисельні відмінності. Для охорони здоров'я кожна система, яку ми тестуємо, зазвичай є запереченням та точністю. Для фінансів питання полягає в тому, чи важливі ці області для вашого конкретного застосування.



  2. Build guardrails around critical blind spots. Different applications have
  3. Тестуйте свою модель на реальних мовних зразках користувачів до розгортання.Не академічні еталони, не санітизовані випробувальні випадки – реальні приклади того, як ваші користувачі спілкуються.Ми побудували набір інструментів «лінгвістичний стрес-тест», який імітує загальні варіації, такі як заперечення, типи та чисельні відмінності.Кожна система, яку ми тестуємо, зазнає невдачі в деяких областях – питання полягає в тому, чи важливі ці області для вашого конкретного додатка.


  4. Тестуйте свою модель на реальних мовних шаблонах користувачів до розгортання.Не академічні бенчмарки, не санітизовані випробувальні випадки – реальні приклади того, як ваші користувачі спілкуються.Ми побудували набір інструментів для «лінгвістичного стресового тестування», який імітує загальні варіації, такі як заперечення, типи та чисельні відмінності.Кожна система, яку ми тестуємо, зазнає невдачі в деяких областях – питання полягає в тому, чи важливі ці області для вашого конкретного застосування.


  5. Створіть стежки навколо критичних сліпих місць. Різні додатки мають різні вимоги, які не можуть помилитися. Для охорони здоров'я це зазвичай заперечення та точність суб'єкта. Для фінансів це цифри та тимчасові відносини. Для юридичних це умови та зобов'язання. Визначте те, що абсолютно не може піти не так у вашій галузі, і впроваджуйте спеціалізовані гарантії.


  6. Створіть огорожі навколо критичних сліпих місць. Різні додатки мають різні вимоги, які не можуть помилитися. Для охорони здоров'я це зазвичай заперечення та точність суб'єкта. Для фінансів це цифри та тимчасові відносини. Для юридичних це умови та зобов'язання. Визначте те, що абсолютно не може піти не так у вашому домені, і впроваджуйте спеціалізовані гарантії.


    Наші найуспішніші системи поєднують вбудоване пошук з перевіркою ключових слів, чіткими перевірками правил та спеціалізованими класифікаторами для критичних відмінностей.Наші найуспішніші системи поєднують вбудований пошук з перевіркою ключових слів, чіткими перевірками правил та спеціалізованими класифікаторами для критичних відмінностей.«Бр»
  7. Будьте прозорі з користувачами про те, що система може і не може зробити надійно.Ми додали оцінки впевненості, які явно вказують, коли результат може включати заперечення, чисельне порівняння або інші потенційні слабкі точки.

    Будьте прозорі з користувачами про те, що система може і не може зробити надійно.Ми додали оцінки впевненості, які явно вказують, коли результат може включати заперечення, чисельне порівняння або інші потенційні слабкі точки.


    ** Ось найважливіша річ, яку я дізнався:** ці моделі не розуміють мови так, як це роблять люди – вони розуміють статистичні закономірності.Коли я перестав очікувати людського розуміння і почав ставитися до них як до витончених інструментів зіставлення зразків з конкретними сліпими точками, мої системи стали кращими.«Бр»

    Сліпі плями, які я описав, не зникають найближчим часом - вони закріплені в тому, як працюють ці моделі. але якщо ви знаєте, що вони там, ви можете проектувати навколо них.


    Примітка: У мене є багато інших таких випадків, виявлених за допомогою експериментів, і я розгляну їх у наступному повідомленні.

    ПриміткаПримітка

    Наступна стаття продовження вийде незабаром.

L O A D I N G
. . . comments & more!

About Author

Ritesh Modi HackerNoon profile picture
Ritesh Modi@riteshmodi
https://www.riteshmodi.com - Data Scientist, AI and blockchain expert with proven open-source solutions on MLOps, LLMOps and GenAIOps.

ПОВІСИТИ БИРКИ

ЦЯ СТАТТЯ БУЛА ПРЕДСТАВЛЕНА В...

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks