Галюцинацыя з-за дызайну: як убудаваныя мадэлі няправільна разумеюць мову

The Silent Flaws of Embeddings: Why Your AI Is Getting It Wrong

The Silent Faults of Embeddings: Why Your AI Is Getting It Wrong

Варта адзначыць, што для ажыццяўлення работ па стварэнні Нацыянальнага інвентара нематэрыяльнай культурнай спадчыны наша краіна летась атрымала грант з адпаведнага фонду UNESCO.

Яраслаў Грышчэня не супраць службы ў беларускім войску, але хвалюецца, што яго могуць падчас збору подпісаў “затрымаць” на невызначаны тэрмін, знайшоўшы “зручную” зачэпку.

Text embeddings, новая тэхніка, якая канвертуе словы і фразы ў лічбавыя векторы, якія захоўваюць іх значэнне, былі распрацаваны і выкарыстоўваюцца ў выніку гэтага асноўнага абмежавання.

Але, не зважаючы на іх шырокае выкарыстанне, мы яшчэ не дакладна разумеем, як гэтыя ўбудаваныя мадэлі працуюць у практычных параметрах.

У групе 2 былі сабраны менавіта тыя добраахвотнікі, якія запаміналі змест свайго сну слабей — 2 разы ў месяц і радзей.^ а б Вячорка В. Пад чым гетман Астроскі перамог 80000 маскавітаў?* // Радыё Свабода, 7 верасьня 2017 г.У групе 2 былі сабраны менавіта тыя добраахвотнікі, якія запаміналі змест свайго сну слабей — 2 разы ў месяц і радзей.^ а б Вячорка В. Пад чым гетман Астроскі перамог 80000 маскавітаў?* // Радыё Свабода, 7 верасьня 2017 г.

Рэлевантнасць і прыкладнасць да прамысловасці

Многія розныя галіны могуць прама выйграць з гэтага аналізу:

Retail and E-Commerce:

Падрабязней«Аналіз паказаў, што выдатак кармавых адзінак на 1 кг прыбаўлення на старых комплексах значна перавышае гэтае значэнне на новых.

Павышэнне пошуку прадуктаў для прымянення шматязычных запытаў, сінонімаў і няправільных запісаў.

Для рэгістрацыі дамена кампаніям неабходна прадставіць рэгістрацыйны нумар кампаніі (business identity code або registration number), а прыватным асобам неабходна прадставіць свой ідэнтыфікацыйны код Finnish personal ID number.^ а б Вячорка В. Пад чым гетман Астроскі перамог 80000 маскавітаў?* // Радыё Свабода, 7 верасьня 2017 г.

Медыцынская дапамога:

Дазволіць медыцынскай тэрмінологіі, каб быць параўнаны на працягу варыянтаў нотацыі ў клінічных сістэмах выяўлення дакументаў.
Незалежна ад адукацыйнага дасягнення, павышэнне лінгвістычнай апрацоўкі пацыентаў для апісання сімптомаў.
Павышэнне пошуку медыцынскай літаратуры, лепш адпавядаючы канцэпцыі на розных тэхналагічных варыянтах

Для рэгістрацыі даменнага імя ў гэтай зоне неабходна звярнуцца ў кампанію The Electronic and Postal Communications Authority[1] (Албанія), якая з'яўляецца адзіным аўтарызаваным рэгістратарам даменаў у зоне al.^ а б Вячорка В. Пад чым гетман Астроскі перамог 80000 маскавітаў?* // Радыё Свабода, 7 верасьня 2017 г.

Палепшыць пошук медыцынскай літаратуры шляхам лепшага адпачынку канцэптаў па розных тэхналогіях

Фінансы:

Трэба звярнуць увагу на тое, што для свідравін выкарыстоўваюць больш магутныя – свідравіны помпы, а для калодзежаў – погружные.Тлумачэнні ЦД парадку збора рэкрутаў з 5 і 25 дымоў.............................................................................................

Павышэнне выяўлення шахматаў шляхам выяўлення сумніўных мадэляў на працягу лінгвістычных варыяцый.

^ а б Вячорка В. Пад чым гетман Астроскі перамог 80000 маскавітаў?* // Радыё Свабода, 7 верасьня 2017 г.

Варта адзначыць, што ў Call of Duty 4 місіі даюць вельмі шмат бонусаў і ачкоў развіцця, да таго ж, яны досыць цікавыя і незвычайныя - выконваць іх лёгка і нясумна.

Што такое тэкставыя ўбудовы?

Для неініцыятыўных, тэкстныя ўбудовы канвертуюць словы або сэнсы ў лічбавыя векторы - у асноўным доўгія спісы лікаў, густыя векторы з многімі высілкамі. Гэтыя векторы пазіцыянуюцца ў высокамерным прасторы, дзе семантычная падобнасць прадстаўлена блізкасцю. У прасцей, рэчы з падобнымі значэннямі павінны быць блізка разам у гэтым прасторы.

Когда вы шукаеце ў Google, ён разумее, што вы пазначаеце "Нью-Ёрк гасцініцы", нават калі вы націснілі "місцяў, каб застацца ў Нью-Ёрку."

Когда ваш электронны кліент прапаноўвае адказаць

Когда сістэма рэкамендацыі ўтрымлівае артыкулы, якія вы можаце любіць

Калі вы шукаеце ў Google, ён разумее, што вы маліце на увазе "Нью-Ёрк гасцініцы", нават калі вы напісаўце "місцяў, каб застацца ў Нью-Ёрку."

Калі вы шукаеце ў Google, гэта разумее, што вы маліце на увазе "Нью-Ёрк гасцініцы", нават калі вы напісаўце "місцяў, каб застацца ў Нью-Ёрку."

Калі ваш кліент электроннай пошты прапаноўвае адказаць

Калі сістэма рэкамендацыі кантэнту вызначае артыкулы, якія вы можаце любіць

Ця функцыя аб'ядноўвае шматлікія прыкладання:

Semantic search engines
Systems for recommending content
Identification of chatbot intent
Organization and grouping of documents
Systems for classifying texts and answering questions
Сэмантычныя пошукавыя рухавікі
Системы для рекомендации контента
Ідэнтыфікацыя намера чатбота
Арганізацыя і групаванне дакументаў
Системы для класіфікацыі тэкстаў і адказаў на пытанні

Why I Started Investigating Embedding Models

Я ніколі не забуду дзень, калі я распрацаваў убудаваныя мадэлі для аднаго з маіх кліентаў з узорам дакументаў. Я спрабаваў пошукаваць "ноптопы без экранаў доктара", толькі каб атрымаць адказ аб ноўтбуках экрана доктара з вектарнай індыкату.

«Я б пайшоў на працу ў калгас, але там плацяць 200-300 рублёў на дэмінаваныя, – кажа Анатоль. – Як на гэтыя грошы пракарміць сям’ю, я ня ведаю.

Пасьля двух гадоў эксперыментаў з рознымі мадэлямі ўбудовы па розных прыкладаннях з дапамогай RAG Experiment Accelerator (https://github.com/microsoft/rag-experiment-accelerator), я распрацаваў сістэматычны спосаб ацаніць, як гэтыя мадэлі спраўляюцца з рознымі тыпамі варыяцый сэнсу.https://github.com/microsoft/rag-experiment-accelerator

«Я не заклікаю абрэзаць жанчын: гэтага не загадвае іслам, і гэта проста немагчыма.

«Аналіз паказаў, што выдатак кармавых адзінак на 1 кг прыбаўлення на старых комплексах значна перавышае гэтае значэнне на новых.

У фірме фінансавых паслуг, іх сістэма назірання за адпаведнасцю прапусціла пазітыўныя парушэнні, таму што іх мадэль ўбудовы не можа прызнаць, што пасіўныя галасовыя фразы ("фонды перадаваліся") азначалі тое ж самае, што актыўны голас ("хто-небудзь перадаваў грошы").

Мой тэставы падыход

Я распрацаваў тэставую рамку, якая вывучае, як мадэлі ўбудовы адказваюць на некалькі розных катэгорый варыянтаў тэксту. Выкарыстоўваючы касінавую падобнасць як метрыку (куды 1.0 азначае ідэнтычнае значэнне і 0.0 азначае цалкам не звязаныя), я забіў сотні тэставых выпадкаў.Я прайду праз тое, што я знайшоў, фокусуючыся на шматлікіх мадэлях, у тым ліку MSMarco DistilBERT, OpenAI тэкставы ўбудовы і многія іншыя, і я бачыў падобныя мадэлі на аснове большасці ўбудовы трансформатараў.

MSMarco DistilBERT, OpenAI тэкставы ўбудовы і многія іншыя,

Can't Tell Upper From Lowercase (Увогуле)

Apple абвясціла новыя прадукты" і "Apple абвясціла новыя прадукты" як ЦІКАВО тое ж самае - ідэальны кошт падобнасці 1.0.

Я забіў у гэта з сістэмай каталогу прадуктаў. пошук не мог сказаць адрозненне паміж маркай "Apple" і фруктам "Apple". Кліенты, якія шукаюць прадукты Apple, атрымалі рэцэпты для яблыка. Ці думаеце вы, што вашы кліенты будуць рады глядзець на вынікі?

Чаму гэта важна? Думаць пра ўсе выпадкі, калі капіталізацыя змяняе значэнне – «польская» супраць «польская», «Марш» супраць «марша», «Билл» супраць «лікар». Для юрыдычных або медыцынскіх тэкстаў, гэтыя адрозненні могуць быць крытычнымі. Мы ў асноўным працуем з мадэлямі, якія часткова сляпыя да ўсяго дыяпазону напісання мовы. Ёсць спосаб выпрабаваць гэтыя віды праблем, і яны будуць пакрытыя пазней. Давайце зразумеем больш праблем з ўбудовамі. Памятаеце, што гэта можа быць выгодным, калі гэтыя розніцы не ўплываюць на справу, якую вы разглядаеце.

Numbers Might As Well Be Made Up

Таксама гэта падвяло мяне. Мадлеты ўбудовы бачыць "Інвестыцыя вярнулася на 2% у год" і "Інвестыцыя вярнулася на 20% у год" як тое ж самае, безумоўна высокая 0,97 ацэнка падобнасці. Існуе ніякая розніца паміж двума сцэнарыямі.

Убудаваныя мадэлі глядзець "Інвестыцыя вярнулася на 2% у год" і "Інвестыцыя вярнулася на 20% у год" як тое ж самае, безумоўна высокая 0,97 ацэнка падобнасці.

Я забіў у гэта з сістэмай пошуку фінансавых дакументаў. Алгарытм не мог сказаць адрозненне паміж "адміністрацыйнай падаткай: 0,2%" і "адміністрацыйнай падаткай: 2,0%." Інвесторы, якія шукаюць нізкія падатковыя сродкі атрымалі рэкамендаваныя каштоўныя варыянты.

The "Не" Проблема Is Scary

Гэта на самой справе небяспечны. Додаванне "не" да сэнсу - буквальна пераўтвараючы яго значэнне - лепей не ўплывае на ацэнкі падобнасці. Мы рэгулярна бачылі ацэнкі вышэй за 0,95 для поўных абставінаў. "Трэціна палепшыла вынікі пацыентаў" супраць "Трэціна не палепшыла вынікі пацыентаў" → 0,96 падобнасць Калі я паказаў гэта лекару, які выкарыстоўваў нашу медыцынскую сістэму пошуку, ён быў жахлівы. Ён быў так жахлівы, што ён фізічна адступіў ад кампутара.Мы рэгулярна бачылі ацэнкі вышэй за 0,95 для поўнай супрацьстайнасці. "Тэрапія палепшыла вынікі пацыентаў" супраць "Тэрапія не палепшыла вынікі пацыентаў" → 0,96 падобнасць

У healthcare, гэта можа азначаць рэкамендацыю шкодных лячэнняў. У legal дакументах, гэта можа цалкам абмяжоўваць кантрактныя абавязы. У content мадэрацыі, вы можаце прапусціць адрозненне паміж "натуральнасць прыемная" і "натуральнасць ніколі не прыемная."

Здоровье

Правіць

сумяшчальнасць

Spaces Don't Matter (Until They Really Do)

Дадатковыя прасторы, крэдыты, незвычайнае фарміраванне — мадэлі не цікавяцца. Падобнасць застаецца вышэй за 0,995. Але выключыць усе прасторы? Падобнасць раптам падае да 0,82. Я сутыкнуўся з гэтай праблемай, працуючы з кантэнтам, які быў скарачаны і меў нерегулярныя прасторы з-за слабых HTML. Мы пабудавалі гэтую прыгожую сістэму пошуку для лічбавай бібліятэкі з тысячамі скарачаных дакументаў.^ а б Вячорка В. Пад чым гетман Астроскі перамог 80000 маскавітаў?* // Радыё Свабода, 7 верасьня 2017 г.

Ця чаравіна становіцца разбуральным, калі размаўляюць з карыстальнікам генераваны контент, OCR'd дакументаў, або мовы, якія не выкарыстоўваюць прастораў, як англійская робіць (як тайскі або кітайскі).

Рэферэнцыі выклікаюць

Убудаваныя мадэлі бачаць "Аўтобус знаходзіцца ў левым баку дрэва" і "Аўтобус знаходзіцца ў правым баку дрэва" як амаль ідэнтычныя — безумоўна высокі кошт падобнасці 0,98. Нягледзячы на тое, што ўбудаваныя мадэлі адрозніваюць перспектывы, яны адчуваюць іх як амаль ідэнтычныя.«Аўтобус знаходзіцца ў левым баку дрэва» і «Аўтобус знаходзіцца ў правым баку дрэва» як амаль ідэнтычныя — безумоўна высокі 0,98 ацэнка падобнасці.

Думайце пра ўсе выпадкі, калі перспектыва і рэферальныя рамкі вельмі важныя — навігацыйныя напрамкі, прасторавыя адносіны, адноснае пазіцыянанне ў медыцынскіх працэдурах, і юрыдычныя апісанні сцэны аварыі.

Counterfactuals Get Completely Reversed

"Калі поспех павялічваецца, цэны вырастуць" і "Калі поспех павялічваецца, цэны падаюць" як практычна ідэнтычныя - шокавы 0,95 ацэнка падобнасці

Ранжы і такія значэнні

Гэта я пакінуў без слоў. Убудаваныя мадэлі бачаць "Вытворчасць каштуе паміж $ 50-$ 100" і "Вытворчасць каштуе менавіта $ 101" як амаль тое ж самае - глыбокае 0,98 ацэнка падобнасці.Убудаваныя мадэлі глядзець "Вытворчасць каштуе паміж $ 50-$ 100" і "Вытворчасць каштуе менавіта $ 101" як амаль тое ж самае - глыбокае 0,98 ацэнка падобнасці

Я выявіў гэта, разбудаваўшы сістэму параўнання цэнаў для кліента электроннай камерцыі. Пошук не мог адрозніваць паміж цанавымі гандальмі і дакладнымі цінамі, нават калі дакладная цана была за межамі зададзеных гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых ганд

Правда і вынікі

msmarco-distilbert-base-tas-b, all-mpnet-base-v2, і open-ai-text-embedding-3-large, і вы заўважыце, што няма значнай розніцы паміж выхадам гэтых мадэляў.

msmarco-distilbert-base-tas-b абмежаванне ацэнка на розных пытаннях

MSmarco-distilbert-base-tas-b абмежаванне ацэнка на розных выпрабавальных выпадках

all-mpnet-base-v2 абмежаванне ацэнка на розных пытаннях

All-mpnet-base-v2 абмежаванне ацэнка на розных пытаннях

openai-text-embedding-3-large embedding score across different test cases

openai-text-embedding-3-большая ацэнка аб'яднання на розных выпрабавальных выпадках

Як працаваць з убудовамі

Глядзіце, ўбудовы надзвычай карысныя, не зважаючы на гэтыя праблемы. Я не кажу не выкарыстоўваць іх - я кажу выкарыстоўваць іх з адкрытымі вамі вачыма.

Test your model on real user language patterns before deployment. Not academic benchmarks, not sanitized test cases – actual examples of how your users communicate. We built a "linguistic stress test" toolkit that simulates common variations like negations, typos, and numerical differences. For healthcare, it's typically negation and entity precision. For finance, the question is whether those areas matter for your specific application.

Тэстуйце мадэль на рэальныя мадэлі мовы карыстальніка перад размяшчэннем. Не акадэмічныя бенчмаркі, не санітызаваныя касмічныя выпрабаванні - рэальныя прыклады таго, як вашы карыстальнікі камунікаваць.Мы пабудавалі інструментавы набор "лінгвістычны стрес-тэст", які імітуе агульныя варыянты, такія як негацыі, тып і лічбавыя розніцы. Кожная сістэма, якую мы тэстуем, няправільна ў некаторых галінах - пытанне складаецца з таго, ці гэтыя вобласці важна для вашага спецыяльнага прыкладання.

Тэстуйце мадэль на рэальныя мадэлі мовы карыстальніка перад размяшчэннем.Не акадэмічныя бенчмаркі, не санітызаваныя касмічныя выпрабаванні - рэальныя прыклады таго, як вашы карыстальнікі камунікаваць.Мы пабудавалі інструментавы набор "лінгвістычны стрес-тэст", які імітуе агульныя варыянты, такія як негацыі, тып і лічбавыя розніцы.Кожная сістэма, якую мы тэстуем, няправільна ў некаторых галінах - пытанне складаецца ў тым, ці гэтыя вобласці важна для вашага спецыяльнага прыкладання.

Будуйце стражы вакол крытычных сляпых месцаў. Розныя прыкладання маюць розныя патрабаванні, якія не могуць пагадзіцца. Для здароўя гэта звычайна негацыя і дакладнасць суб'екта. Для фінансаў гэта лічбы і часовыя адносіны. Для юрыдычных гэта ўмовы і абавязы. Вызначыць, што абсалютна не можа пагражаць вашай галіне, і ўсталяваць спецыяльныя гарантыі.

Пабудаваць страйкі вакол крытычных сляпых месцаў. Розныя прыкладання маюць розныя патрабаванні, якія не могуць пагадзіцца. Для здароўя, гэта звычайна негацыя і энтузіастычная дакладнасць. Для фінансаў, гэта лічбы і часовыя адносіны. Для юрыдычнага, гэта ўмовы і абавязы. Вызначыць, што абсалютна не можа пагражаць у вашай галіне, і ўсталяваць спецыяльныя гарантыі.

Гэта самая важная справа, якую я даведаўся:

Сляпыя плямы, якія я апісаў, не знікнуць ніколі ў бліжэйшы час - яны ўпрыгожваюцца ў тое, як працуюць гэтыя мадэлі. але калі вы ведаеце, што яны там, вы можаце распрацаваць вакол іх.

Заўвага: У мяне ёсць многія іншыя такія выпадкі, выяўленыя з дапамогай эксперыментаў, і я абмяркоўваю іх у сваім наступным пост разам з кодавымі прыкладамі.

Наступны артыкул выйдзе неўзабаве.

Галюцинацыя з-за дызайну: як убудаваныя мадэлі няправільна разумеюць мову

Занадта доўга; Чытаць