Халюцинация по дизайн: Как моделите за вграждане не разбират езика

Тихите недостатъци на вгражданията: Защо вашият AI го прави неправилно

Тихите недостатъци на вгражданията: Защо вашият AI го прави неправилно

Неструктурираните текстови данни се разпространяват напоследък, вариращи от техническа документация и научна литература до публикации в социалните медии и оценки на клиенти.Предприятията от различни сектори все повече осъзнават, че този текст предлага безценни прозрения, но получаването, подреждането и използването на тези данни е трудно.

Семантичното богатство на човешкия език не се улавя от конвенционалните техники за обработка на текст, базирани на ключови думи, които са се оказали недостатъчни. например, търсенето на "автомобилни проблеми" може да не се появи в съответните документи за "автомобилни проблеми", а преглед на продукта, който споменава "замръзване на екрана", може да бъде пропуснат при разглеждането на жалби на клиенти за "системни аварии".

Текстовите вграждания, нова техника, която превръща думите и изреченията в цифрови вектори, които улавят тяхното значение, са разработени и използвани в резултат на това основно ограничение. големите технологични фирми са похарчили милиарди за създаване на все по-напреднали модели за вграждане; вгражданията на OpenAI, Meta's RoBERTa, Google's BERT и редица алтернативи с отворен код сега са съществени части от съвременните НЛП системи.

Въпреки това, въпреки широкото им използване, ние все още не разбираме напълно как тези вградени модели работят в практически настройки.

Скъпи грешки при внедряването, които възникват, когато системите не отговарят на нуждите на бизнеса.
Лоши потребителски преживявания, когато съответното съдържание е пропуснато от системите за търсене или препоръки.Разлики в производителността между различните демографски данни на потребителите, категориите съдържание и езиците.
Неефективно използване на ресурси от организации, които използват твърде сложни модели

Скъпи грешки при внедряването, които възникват, когато системите не отговарят на нуждите на бизнеса.

Лоши потребителски преживявания, когато съответното съдържание е пропуснато от системите за търсене или препоръки.Разлики в производителността между различните потребителски демографии, категории съдържание и езици.

Неефективно използване на ресурси от организации, които използват прекомерно сложни модели

Релевантност и приложимост към промишлеността

Много различни индустрии могат да се възползват пряко от този анализ:

Търговия на дребно и електронна търговия:

Подобряване на търсенето на продукти, за да се придържат към многоезични запитвания, синоними и грешки.
Подобряване на системите за препоръки за идентифициране на сравними продукти с различни описания.
Разработване на по-сложни инструменти за анализ на прегледите, които са наясно с тънкостите на настроението.

Подобряване на търсенето на продукти, за да се придържаме към многоезични заявки, синоними и грешки в писмеността.

Подобряване на системите за препоръки за идентифициране на сравними продукти с различни описания.

Разработване на по-сложни инструменти за анализ на прегледа, които са наясно с тънкостите на настроението.

Медицинска помощ:

Позволяване на съвпадение на медицинската терминология в различните нотационни варианти в системите за извличане на клинични документи.
Независимо от постиженията в образованието, подобряване на езиковата обработка на пациентите за описание на симптомите.
Подобряване на търсенето на медицинска литература чрез по-добро съвпадение на концепциите между технологичните променливи

Позволяване на съвпадение на медицинската терминология между различията в нотациите в системите за извличане на клинични документи.

Независимо от образователното постижение, подобряване на езиковата обработка на пациента за описание на симптомите.

Подобряване на търсенето на медицинска литература чрез по-добро съвпадение на концепциите между технологичните променливи

Финансиране:

Подобряване на мониторинга на съответствието при нарушения на правилата, независимо от формулировката.
Подобряване на откриването на измами чрез идентифициране на съмнителни модели на езикови различия.
Подобряване на обслужването на клиентите чрез по-добро разбиране на различните видове потребителски запитвания

Подобряване на мониторинга на съответствието за нарушения на политиките, независимо от текста.

Подобряване на откриването на измами чрез идентифициране на съмнителни модели на езикови различия.

Подобряване на обслужването на клиентите чрез по-добро разбиране на различните видове потребителски запитвания

Откриване как вашият модел за вграждане връща подобни резултати: Този анализ помага на организациите да вземат по-добри решения за подбора на модел, нуждите от предварителна обработка и възможните стратегии за подобрение, като предлага систематичен начин за разбиране на поведението на вграждане.

Какви са текстовите вграждания?

За неинициализираните текстовите вграждания превръщат думи или изречения в числови вектори – по същество дълги списъци от числа, плътни вектори с много измерения. Тези вектори са позиционирани в високоизмерно пространство, където семантичното сходство е представено от близост.

Когато търсите в Google, той разбира, че имате предвид "хотели в Ню Йорк", въпреки че сте въвели "места за престой в Ню Йорк".
Когато вашият имейл клиент предлага отговори
Когато система за препоръчване на съдържание показва статии, които може да харесате

Когато търсите в Google, той разбира, че имате предвид "Ню Йорк хотели", въпреки че сте въвели "места за престой в Ню Йорк."

Когато вашият имейл клиент предлага отговори

Когато система за препоръчване на съдържание изчислява статии, които може да харесате

Тази функция дава възможност за много приложения:

Семантични търсачки
Системи за препоръчване на съдържание
Идентификация на намерението на чатбота
Организация и групиране на документи
Системи за класифициране на текстове и отговаряне на въпроси

Семантични търсачки

Системи за препоръчване на съдържание

Идентифициране на намерението на чатбота

Организация и групиране на документи

Системи за класифициране на текстове и отговаряне на въпроси

Ефективността на тези приложения до голяма степен зависи от това колко добре моделът за вграждане управлява различни текстови варианти и езикови събития.Докато модел, който е твърде чувствителен към малки форматиращи вариации, ще има проблеми с действителните заявки за търсене, модел, който третира "Обичам този продукт" и "Мразя този продукт" като почти идентични, ще бъде неефективен за анализ на настроенията.

Защо започнах да изследвам моделите за вграждане

Никога няма да забравя деня, в който изследвах вграждащи модели за един от моите клиенти с примерни документи. Опитах се да търся "ноутбуци без сензорен екран", само за да получа отговор за лаптопите с сензорен екран от векторния индекс.

Мисля, че ако моделът не можеше да разбере основното „без“, какво друго липсваше? Този епизод ме отведе по неочакван път. Трябваше да знам колко сериозен беше проблемът. Разбира се, референтните показатели за нашия модел за вграждане изглеждаха впечатляващи, но как се държеше с объркващия, реалния език, който потребителите ни пишеха всеки ден?

След две години експерименти с различни модели за вграждане в различни приложения с помощта на RAG Experiment Accelerator (https://github.com/microsoft/rag-experiment-accelerator), разработих систематичен начин за оценка на това как тези модели се справят с различни видове вариации на изречения.https://github.com/microsoft/rag-experiment-accelerator

Това не бяха случайни грешки – това бяха дълбоки, систематични слепи петна, изпечени в начина, по който тези модели виждат езика.И никой не говореше за това.Аз споделям тези констатации, защото видях твърде много екипи да губят месеци, внедрявайки сложни системи, базирани на вграждане, само за да открият твърде късно, че те се разпадат по неочаквани начини.

Този проблем не е само академичен.Последствията от неправилното разбиране на поведението на вграждане са сериозни: Един колега от голяма здравна компания ми каза, че тяхната система за извличане на медицинска информация липсва съответните клинични документи, защото моделът им на вграждане не може правилно да се справи с абревиациите и промените в медицинската терминология.

В една фирма за финансови услуги, тяхната система за мониторинг на съответствието пропусна нарушения на политиката, защото моделът им за вграждане не може да разпознае, че пасивните гласови изречения ("средства са били прехвърлени") означават същото като активен глас ("някой е прехвърлил средства").

Моят подход за тестване

Разработих тестова рамка, която изследва как моделите за вграждане реагират на множество различни категории текстови вариации.Използвайки косиновата прилика като метрична (където 1.0 означава идентично значение и 0.0 означава напълно несвързани), изпълних стотици тестови случаи.Ще премина през това, което открих, като се съсредоточа върху многобройните модели, включително MSMarco DistilBERT, OpenAI текстово вграждане и много други, и видях подобни модели в повечето вграждания, базирани на трансформатори.

MSMarco DistilBERT, OpenAI вграждане на текст и много други,

Не може да се каже отгоре от долната част (изобщо)

Вградените модели виждат "Apple обяви нови продукти" и "Apple обяви нови продукти" като ТОЧНО едно и също нещо - перфектен 1.0 резултат за сходство. Няма разлика.

Apple обяви нови продукти" и "Apple обяви нови продукти" като ТОЧНО едно и също нещо - перфектен 1.0 резултат за сходство.

Аз попаднах на това с система за каталог на продукти. Търсенето не можеше да каже разликата между марката "Apple" и плода "Apple".Клиентите, търсещи продукти на Apple, получиха рецепти за ябълков пай.Мислите ли, че вашите клиенти ще бъдат щастливи да видят резултатите?

Защо това има значение? Помислете за всички случаи, в които капитализацията променя смисъла – "полски" срещу "полски", "марш" срещу "марш", "бил" срещу "сметка". За правни или медицински текстове тези различия могат да бъдат от решаващо значение. Всъщност работим с модели, които са частично слепи за цялото измерение на писмения език. Има начин да се поправят тези видове проблеми и те ще бъдат обхванати по-късно. Нека разберем повече проблеми с вгражданията. Имайте предвид, че това може да бъде от полза, ако тези различия не засягат случая, с който се занимавате.

Numbers Might As Well Be Made Up

Това също ме впечатли. Модели за вграждане вижте "Инвестицията се възвръща с 2% годишно" и "Инвестицията се възвръща с 20% годишно" като едно и също нещо, с лудо висок резултат от 0.97. Няма видима разлика между двата сценария.
Вградените модели виждат "Инвестицията се възвръща с 2% годишно" и "Инвестицията се възвръща с 20% годишно" като едно и също нещо, с лудо висок резултат от 0.97.

Алгоритъмът не можеше да разбере разликата между "административна такса: 0.2%" и "административна такса: 2.0%".Инвеститорите, търсещи нискотарифни фондове, получиха препоръчителни скъпи опции вместо това.Мислите ли, че вашата пенсионна сметка ще бъде доволна от тази грешка?

Помислете за всички случаи, в които цифровите стойности са критични инструкции за дозиране, инженерни толерантности, финансова възвръщаемост и срокове на договора. За инвестиционния или медицинския текст тези различия могат да променят живота.По принцип работим с модели, които са цифрово неграмотни въпреки обработката на текст, изпълнен с важни количества.

Проблемът с "не" е страшен

Това всъщност е опасно. Добавянето на "не" към изречението - буквално преобръщайки значението му - едва ли засяга резултатите от сходството. Рутинно видяхме резултати над 0.95 за пълни противоположности. "Лечението подобри резултатите на пациентите" срещу "Лечението не подобри резултатите на пациентите" → 0.96 сходство Когато показах това на лекар, който използва нашата медицинска система за търсене, той беше ужасен.Рутинно видяхме резултати над 0.95 за пълни противоположности. „Лечението подобри резултатите на пациентите“ срещу „Лечението не подобри резултатите на пациентите“ → 0.96 сходство

Ние изграждахме система, която лекарите биха използвали, за да намерят протоколи за лечение.Получете това погрешно и хората биха могли да умрат.Негацията не е нещо крайно – тя е фундаментална за човешкия език.Когато вашата система за търсене, препоръки или анализ не може да каже „ефективно“ от „неефективно“ или „безопасно“ от „небезопасно“, вие изграждате опасни халюцинационни машини.

В healthcare, това може да означава препоръчване на вредни лечения. В правни документи, това може напълно да обърне договорните задължения. В content умереност, може да пропуснете разликата между "насилието е приемливо" и "насилието никога не е приемливо."

здравеопазванезаконодателствосъдържание Spaces Don't Matter (Until They Really Do)
Допълнителни пространства, раздели, странно форматиране – моделите не се интересуват. Сходството остава над 0.995. Но премахнете всички пространства? Сходството изведнъж спада до 0.82. Срещнах този проблем, докато работех с съдържание, което беше изтрито и имаше нередовно разстояние поради лош HTML. Ние изградихме тази красива система за търсене за цифрова библиотека с хиляди изтрити документи. Половината от заявките не върнаха нищо полезно поради непоследователното разделяне.Сходството остава над 0.995. но премахнете всички пропуски?

Тази странност става разрушителна, когато се занимавате с потребителско генерирано съдържание, OCR'd документи или езици, които не използват пространства по същия начин, както английският (като тайландски или китайски).
Референтите са предизвикателни
Вградените модели виждат „Автомобилът е отляво от дървото“ и „Автомобилът е отдясно от дървото“ като почти идентични – с безумно висок резултат от 0,98. Въпреки че описват противоположни перспективи, вградените модели ги възприемат като почти идентични.„Автомобилът е отляво на дървото“ и „Автомобилът е отдясно на дървото“ са почти идентични – лудо висок резултат от 0,98.

Помислете за всички случаи, в които перспективата и референтните рамки са от съществено значение – насоки за навигация, пространствени отношения, относително позициониране в медицинските процедури и правни описания на аварийни сцени. Тези различия не са тривиални – те напълно променят смисъла въз основа на перспективата.
Counterfactuals Get Completely Reversed
Превръщане на фактите
Това ме накара да се смея, а след това да плача.Вграждащите модели виждат "Ако търсенето се повиши, цените ще се повишат" и "Ако търсенето се повиши, цените ще паднат" като практически идентични - шокиращ резултат от 0.95."Ако търсенето се повиши, цените ще се повишат" и "Ако търсенето се повиши, цените ще паднат" като практически идентични - шокиращ резултат от сходство 0.95

Алгоритъмът не можеше да разграничи между противоположни причинно-следствени връзки.Икономисти, търсещи статии за повишаване на цените по време на повишаване на търсенето, получиха резултати за намаляване на цените по време на рецесии вместо това.Мислите ли, че финансовите анализатори, които вземат инвестиционни решения за милиони долари, биха оценявали получаването на точно обратна информация?

Отново, помислете за всички случаи, в които контрафактното разсъждение е от решаващо значение: икономически прогнози, медицински взаимоотношения между причини и последици, правни хипотези и анализ на инженерните неуспехи. Когато не можете да кажете "ако X, тогава Y" от "ако не-X, тогава не-Y", вие фундаментално не разбирате причинно-следствената връзка.
Размери и точни стойности
Това ме остави безмълвен. Вградените модели виждат "Продуктът струва между $ 50-$ 100" и "Продуктът струва точно $ 101" като почти едно и също нещо - впечатляващ резултат от 0.98.Вградените модели виждат "Продуктът струва между $50-$100" и "Продуктът струва точно $101" като почти едно и също нещо - впечатляващ резултат от 0.98

Открих това, докато изграждах система за сравняване на цените за клиент за електронна търговия. Търсенето не може да прави разлика между ценови диапазони и точни цени, дори когато точната цена е извън посочения диапазон. Купувачите с строг бюджет от $100 търсят продукти "под $100" и продължават да получават елементи, които струват $120 или $150. Мислите ли, че клиентите с фиксирани бюджети ценят продуктите, които изрично не могат да си позволят?

Помислете за всички случаи, когато диапазоните спрямо точните стойности са от решаващо значение - решения за ценообразуване, диапазони за дозиране на лекарства, законови срокове, толерантности за безопасност и показатели за ефективност.Когато вашият модел третира "най-малко 25 дни" и "точно 20 дни" като основно идентични, вие сте загубили критичния смисъл.
Истината и резултатите
Тук е сравнението между msmarco-distilbert-base-tas-b, all-mpnet-base-v2, и open-ai-text-embedding-3-large, и ще забележите, че няма значителна разлика между изхода на тези модели.
msmarco-distilbert-base-tas-b, all-mpnet-base-v2, и open-ai-text-embedding-3-large, и ще забележите, че няма значителна разлика между изхода на тези модели.

<т>

<т>
<т>

msmarco-distilbert-base-tas-b вграждане резултат в различни тестови случаи

msmarco-distilbert-base-tas-b вграждане резултат в различни тестови случаи

<т>

<т>

all-mpnet-base-v2 вграждане резултат в различни тестови случаи

оценка за вграждане на all-mpnet-base-v2 в различни тестови случаи

<т>

openai-text-embedding-3-широко вграждане резултат в различни тестови случаи

openai-text-embedding-3-голям резултат за вграждане в различни тестови случаи
Как да работим с вграждания
Виж, вгражданията са невероятно полезни въпреки тези проблеми.Не казвам, че не ги използвайте - казвам, че ги използвайте с отворени очи.Ето моят съвет след десетки проекти и безброй неуспехи:

Тествайте вашия модел върху реални потребителски езикови модели преди внедряването. Не академични референтни показатели, не санитизирани тестови случаи – реални примери за това как вашите потребители комуникират. Ние изградихме "лингвистичен стрес тест" инструмент, който симулира общи вариации като отрицания, типове и числени различия. Всяка система, която тестваме, се проваля в някои области – въпросът е дали тези области имат значение за конкретното ви приложение.

Постройте предпазни знаци около критични слепи точки. Различните приложения имат различни изисквания за невъзможност за провал. За здравеопазването обикновено е отрицание и прецизност. За финанси, това

Тествайте вашия модел на реални потребителски езикови модели преди разполагане.Не академични референтни показатели, не санитизирани тестови случаи – реални примери за това как вашите потребители комуникират.Ние създадохме инструмент за "лингвистичен стрес тест", който симулира общи вариации като отрицания, типове и цифрови различия.Всяка система, която тестваме, се проваля в някои области – въпросът е дали тези области имат значение за конкретното ви приложение.

Тествайте вашия модел на реални потребителски езикови модели преди внедряването.Не академични референтни показатели, не санитизирани тестови случаи – реални примери за това как вашите потребители комуникират.Ние изградихме инструментариум за "лингвистичен стрес тест", който симулира общи вариации като отрицания, типове и цифрови различия.Всяка система, която тестваме, се проваля в някои области – въпросът е дали тези области имат значение за вашето конкретно приложение.

Създайте предпазители около критични слепи точки. Различните приложения имат различни изисквания за невъзможност за провал. За здравеопазването това обикновено е отрицание и прецизност на субекта. За финансите това са числа и временни отношения. За закона това са условия и задължения. Идентифицирайте какво абсолютно не може да се обърка във вашия домейн и прилагайте специализирани предпазни мерки.

Създайте предпазители около критични слепи точки. Различните приложения имат различни изисквания, които не могат да се провалят. За здравеопазването това обикновено е отрицание и прецизност на субекта. За финансите това са числа и временни отношения. За закона това са условия и задължения. Идентифицирайте какво абсолютно не може да се обърка във вашия домейн и прилагайте специализирани предпазни мерки.

Нашите най-успешни системи съчетават вградено търсене с проверка на ключови думи, изрични проверки на правилата и специализирани класификатори за критични различия.Нашите най-успешни системи съчетават възстановяване на базата на вграждане с проверка на ключови думи, изрични проверки на правилата и специализирани класификатори за критични различия.

Бъдете прозрачни с потребителите за това какво системата може и не може да направи надеждно. добавихме оценки за доверие, които изрично означават, когато резултатът може да включва отрицание, числено сравнение или други потенциални слабости.
Бъдете прозрачни с потребителите за това какво системата може и не може да направи надеждно.Добавихме оценки за доверие, които изрично отбелязват, когато резултатът може да включва отрицание, числено сравнение или други потенциални слабости.

Ето най-важното, което научих: Тези модели не разбират езика по начина, по който го правят хората – те разбират статистическите модели.Когато спрях да очаквам човешко-подобно разбиране и започнах да ги третирам като сложни инструменти за съвпадение на модели с конкретни слепи точки, системите ми се подобриха. Ето най-важното нещо, което съм научил:

Слепите петна, които съм описал, няма да изчезнат скоро - те са прикрепени към начина, по който работят тези модели. но ако знаете, че те са там, можете да проектирате около тях.

Забележка: Имам много повече такива случаи, открити чрез експерименти, и аз ще ги обхващам в следващия си пост заедно с кодови примери.
Забележка: Имам много повече такива случаи, открити чрез експерименти, и аз ще ги обхващам в следващия си пост заедно с кодови примери.

Следващото продължение на статията ще излезе скоро.

Халюцинация по дизайн: Как моделите за вграждане не разбират езика

Твърде дълго; Чета

Релевантност и приложимост към промишлеността