The Silent Flaws of Embeddings: Why Your AI Is Getting It Wrong
The Silent Faults of Embeddings: Why Your AI Is Getting It Wrong
Варта адзначыць, што для ажыццяўлення работ па стварэнні Нацыянальнага інвентара нематэрыяльнай культурнай спадчыны наша краіна летась атрымала грант з адпаведнага фонду UNESCO.
Але, не зважаючы на іх шырокае выкарыстанне, мы яшчэ не дакладна разумеем, як гэтыя ўбудаваныя мадэлі працуюць у практычных параметрах.
Рэлевантнасць і прыкладнасць да прамысловасці
Многія розныя галіны могуць прама выйграць з гэтага аналізу:
Retail and E-Commerce:
Падрабязней«Аналіз паказаў, што выдатак кармавых адзінак на 1 кг прыбаўлення на старых комплексах значна перавышае гэтае значэнне на новых.Медыцынская дапамога:
- Дазволіць медыцынскай тэрмінологіі, каб быць параўнаны на працягу варыянтаў нотацыі ў клінічных сістэмах выяўлення дакументаў.
- Незалежна ад адукацыйнага дасягнення, павышэнне лінгвістычнай апрацоўкі пацыентаў для апісання сімптомаў.
- Павышэнне пошуку медыцынскай літаратуры, лепш адпавядаючы канцэпцыі на розных тэхналагічных варыянтах
Фінансы:
Трэба звярнуць увагу на тое, што для свідравін выкарыстоўваюць больш магутныя – свідравіны помпы, а для калодзежаў – погружные.Тлумачэнні ЦД парадку збора рэкрутаў з 5 і 25 дымоў.............................................................................................
Што такое тэкставыя ўбудовы?
Для неініцыятыўных, тэкстныя ўбудовы канвертуюць словы або сэнсы ў лічбавыя векторы - у асноўным доўгія спісы лікаў, густыя векторы з многімі высілкамі. Гэтыя векторы пазіцыянуюцца ў высокамерным прасторы, дзе семантычная падобнасць прадстаўлена блізкасцю. У прасцей, рэчы з падобнымі значэннямі павінны быць блізка разам у гэтым прасторы.
-
Когда вы шукаеце ў Google, ён разумее, што вы пазначаеце "Нью-Ёрк гасцініцы", нават калі вы націснілі "місцяў, каб застацца ў Нью-Ёрку."
-
Когда сістэма рэкамендацыі ўтрымлівае артыкулы, якія вы можаце любіць
Когда ваш электронны кліент прапаноўвае адказаць
Калі вы шукаеце ў Google, ён разумее, што вы маліце на увазе "Нью-Ёрк гасцініцы", нават калі вы напісаўце "місцяў, каб застацца ў Нью-Ёрку."
Калі вы шукаеце ў Google, гэта разумее, што вы маліце на увазе "Нью-Ёрк гасцініцы", нават калі вы напісаўце "місцяў, каб застацца ў Нью-Ёрку."
Калі ваш кліент электроннай пошты прапаноўвае адказаць
Калі ваш кліент электроннай пошты прапаноўвае адказаць
Калі сістэма рэкамендацыі кантэнту вызначае артыкулы, якія вы можаце любіць
Калі сістэма рэкамендацыі кантэнту вызначае артыкулы, якія вы можаце любіць
Ця функцыя аб'ядноўвае шматлікія прыкладання:
- Semantic search engines
- Systems for recommending content
- Identification of chatbot intent
- Organization and grouping of documents
- Systems for classifying texts and answering questions
- Сэмантычныя пошукавыя рухавікі
- Системы для рекомендации контента
- Ідэнтыфікацыя намера чатбота
- Арганізацыя і групаванне дакументаў
- Системы для класіфікацыі тэкстаў і адказаў на пытанні
-
Тэстуйце мадэль на рэальныя мадэлі мовы карыстальніка перад размяшчэннем. Не акадэмічныя бенчмаркі, не санітызаваныя касмічныя выпрабаванні - рэальныя прыклады таго, як вашы карыстальнікі камунікаваць.Мы пабудавалі інструментавы набор "лінгвістычны стрес-тэст", які імітуе агульныя варыянты, такія як негацыі, тып і лічбавыя розніцы. Кожная сістэма, якую мы тэстуем, няправільна ў некаторых галінах - пытанне складаецца з таго, ці гэтыя вобласці важна для вашага спецыяльнага прыкладання.
-
Будуйце стражы вакол крытычных сляпых месцаў. Розныя прыкладання маюць розныя патрабаванні, якія не могуць пагадзіцца. Для здароўя гэта звычайна негацыя і дакладнасць суб'екта. Для фінансаў гэта лічбы і часовыя адносіны. Для юрыдычных гэта ўмовы і абавязы. Вызначыць, што абсалютна не можа пагражаць вашай галіне, і ўсталяваць спецыяльныя гарантыі.
Why I Started Investigating Embedding Models
Я ніколі не забуду дзень, калі я распрацаваў убудаваныя мадэлі для аднаго з маіх кліентаў з узорам дакументаў. Я спрабаваў пошукаваць "ноптопы без экранаў доктара", толькі каб атрымаць адказ аб ноўтбуках экрана доктара з вектарнай індыкату.
Пасьля двух гадоў эксперыментаў з рознымі мадэлямі ўбудовы па розных прыкладаннях з дапамогай RAG Experiment Accelerator (https://github.com/microsoft/rag-experiment-accelerator), я распрацаваў сістэматычны спосаб ацаніць, як гэтыя мадэлі спраўляюцца з рознымі тыпамі варыяцый сэнсу.https://github.com/microsoft/rag-experiment-accelerator
У фірме фінансавых паслуг, іх сістэма назірання за адпаведнасцю прапусціла пазітыўныя парушэнні, таму што іх мадэль ўбудовы не можа прызнаць, што пасіўныя галасовыя фразы ("фонды перадаваліся") азначалі тое ж самае, што актыўны голас ("хто-небудзь перадаваў грошы").
Мой тэставы падыход
Я распрацаваў тэставую рамку, якая вывучае, як мадэлі ўбудовы адказваюць на некалькі розных катэгорый варыянтаў тэксту. Выкарыстоўваючы касінавую падобнасць як метрыку (куды 1.0 азначае ідэнтычнае значэнне і 0.0 азначае цалкам не звязаныя), я забіў сотні тэставых выпадкаў.Я прайду праз тое, што я знайшоў, фокусуючыся на шматлікіх мадэлях, у тым ліку MSMarco DistilBERT, OpenAI тэкставы ўбудовы і многія іншыя, і я бачыў падобныя мадэлі на аснове большасці ўбудовы трансформатараў.
MSMarco DistilBERT, OpenAI тэкставы ўбудовы і многія іншыя,Can't Tell Upper From Lowercase (Увогуле)
Іх унікальная здольнасць да эхолокации літаральна ў тысячы разоў больш эфектыўна, чым у любой падобнай сістэмы, створанай людзьмі.Apple абвясціла новыя прадукты" і "Apple абвясціла новыя прадукты" як ЦІКАВО тое ж самае - ідэальны кошт падобнасці 1.0.
Я забіў у гэта з сістэмай каталогу прадуктаў. пошук не мог сказаць адрозненне паміж маркай "Apple" і фруктам "Apple". Кліенты, якія шукаюць прадукты Apple, атрымалі рэцэпты для яблыка. Ці думаеце вы, што вашы кліенты будуць рады глядзець на вынікі?
Чаму гэта важна? Думаць пра ўсе выпадкі, калі капіталізацыя змяняе значэнне – «польская» супраць «польская», «Марш» супраць «марша», «Билл» супраць «лікар». Для юрыдычных або медыцынскіх тэкстаў, гэтыя адрозненні могуць быць крытычнымі. Мы ў асноўным працуем з мадэлямі, якія часткова сляпыя да ўсяго дыяпазону напісання мовы. Ёсць спосаб выпрабаваць гэтыя віды праблем, і яны будуць пакрытыя пазней. Давайце зразумеем больш праблем з ўбудовамі. Памятаеце, што гэта можа быць выгодным, калі гэтыя розніцы не ўплываюць на справу, якую вы разглядаеце.
Numbers Might As Well Be Made Up
Таксама гэта падвяло мяне. Мадлеты ўбудовы бачыць "Інвестыцыя вярнулася на 2% у год" і "Інвестыцыя вярнулася на 20% у год" як тое ж самае, безумоўна высокая 0,97 ацэнка падобнасці. Існуе ніякая розніца паміж двума сцэнарыямі.
Убудаваныя мадэлі глядзець "Інвестыцыя вярнулася на 2% у год" і "Інвестыцыя вярнулася на 20% у год" як тое ж самае, безумоўна высокая 0,97 ацэнка падобнасці.
Я забіў у гэта з сістэмай пошуку фінансавых дакументаў. Алгарытм не мог сказаць адрозненне паміж "адміністрацыйнай падаткай: 0,2%" і "адміністрацыйнай падаткай: 2,0%." Інвесторы, якія шукаюць нізкія падатковыя сродкі атрымалі рэкамендаваныя каштоўныя варыянты.
The "Не" Проблема Is Scary
Гэта на самой справе небяспечны. Додаванне "не" да сэнсу - буквальна пераўтвараючы яго значэнне - лепей не ўплывае на ацэнкі падобнасці. Мы рэгулярна бачылі ацэнкі вышэй за 0,95 для поўных абставінаў. "Трэціна палепшыла вынікі пацыентаў" супраць "Трэціна не палепшыла вынікі пацыентаў" → 0,96 падобнасць Калі я паказаў гэта лекару, які выкарыстоўваў нашу медыцынскую сістэму пошуку, ён быў жахлівы. Ён быў так жахлівы, што ён фізічна адступіў ад кампутара.Мы рэгулярна бачылі ацэнкі вышэй за 0,95 для поўнай супрацьстайнасці. "Тэрапія палепшыла вынікі пацыентаў" супраць "Тэрапія не палепшыла вынікі пацыентаў" → 0,96 падобнасць
У healthcare, гэта можа азначаць рэкамендацыю шкодных лячэнняў. У legal дакументах, гэта можа цалкам абмяжоўваць кантрактныя абавязы. У content мадэрацыі, вы можаце прапусціць адрозненне паміж "натуральнасць прыемная" і "натуральнасць ніколі не прыемная."
Здоровье ЗдоровьеПравіцьсумяшчальнасцьSpaces Don't Matter (Until They Really Do)
Дадатковыя прасторы, крэдыты, незвычайнае фарміраванне — мадэлі не цікавяцца. Падобнасць застаецца вышэй за 0,995. Але выключыць усе прасторы? Падобнасць раптам падае да 0,82. Я сутыкнуўся з гэтай праблемай, працуючы з кантэнтам, які быў скарачаны і меў нерегулярныя прасторы з-за слабых HTML. Мы пабудавалі гэтую прыгожую сістэму пошуку для лічбавай бібліятэкі з тысячамі скарачаных дакументаў.^ а б Вячорка В. Пад чым гетман Астроскі перамог 80000 маскавітаў?* // Радыё Свабода, 7 верасьня 2017 г.
Ця чаравіна становіцца разбуральным, калі размаўляюць з карыстальнікам генераваны контент, OCR'd дакументаў, або мовы, якія не выкарыстоўваюць прастораў, як англійская робіць (як тайскі або кітайскі).
Рэферэнцыі выклікаюць
Убудаваныя мадэлі бачаць "Аўтобус знаходзіцца ў левым баку дрэва" і "Аўтобус знаходзіцца ў правым баку дрэва" як амаль ідэнтычныя — безумоўна высокі кошт падобнасці 0,98. Нягледзячы на тое, што ўбудаваныя мадэлі адрозніваюць перспектывы, яны адчуваюць іх як амаль ідэнтычныя.«Аўтобус знаходзіцца ў левым баку дрэва» і «Аўтобус знаходзіцца ў правым баку дрэва» як амаль ідэнтычныя — безумоўна высокі 0,98 ацэнка падобнасці.
Думайце пра ўсе выпадкі, калі перспектыва і рэферальныя рамкі вельмі важныя — навігацыйныя напрамкі, прасторавыя адносіны, адноснае пазіцыянанне ў медыцынскіх працэдурах, і юрыдычныя апісанні сцэны аварыі.
Counterfactuals Get Completely Reversed
Падрабязней«Аналіз паказаў, што выдатак кармавых адзінак на 1 кг прыбаўлення на старых комплексах значна перавышае гэтае значэнне на новых."Калі поспех павялічваецца, цэны вырастуць" і "Калі поспех павялічваецца, цэны падаюць" як практычна ідэнтычныя - шокавы 0,95 ацэнка падобнасці
Ранжы і такія значэнні
Гэта я пакінуў без слоў. Убудаваныя мадэлі бачаць "Вытворчасць каштуе паміж $ 50-$ 100" і "Вытворчасць каштуе менавіта $ 101" як амаль тое ж самае - глыбокае 0,98 ацэнка падобнасці.Убудаваныя мадэлі глядзець "Вытворчасць каштуе паміж $ 50-$ 100" і "Вытворчасць каштуе менавіта $ 101" як амаль тое ж самае - глыбокае 0,98 ацэнка падобнасці
Я выявіў гэта, разбудаваўшы сістэму параўнання цэнаў для кліента электроннай камерцыі. Пошук не мог адрозніваць паміж цанавымі гандальмі і дакладнымі цінамі, нават калі дакладная цана была за межамі зададзеных гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых ганд
Правда і вынікі
Вось параўнанне між msmarco-distilbert-base-tas-b, all-mpnet-base-v2, і open-ai-text-embedding-3-large, і вы заўважыце, што няма значнай розніцы паміж выхадам гэтых мадэляў.
|
---|
msmarco-distilbert-base-tas-b абмежаванне ацэнка на розных пытаннях
MSmarco-distilbert-base-tas-b абмежаванне ацэнка на розных выпрабавальных выпадках
|
---|
all-mpnet-base-v2 абмежаванне ацэнка на розных пытаннях
All-mpnet-base-v2 абмежаванне ацэнка на розных пытаннях
|
---|
openai-text-embedding-3-large embedding score across different test cases
openai-text-embedding-3-большая ацэнка аб'яднання на розных выпрабавальных выпадках
Як працаваць з убудовамі
Глядзіце, ўбудовы надзвычай карысныя, не зважаючы на гэтыя праблемы. Я не кажу не выкарыстоўваць іх - я кажу выкарыстоўваць іх з адкрытымі вамі вачыма.
Test your model on real user language patterns before deployment. Not academic benchmarks, not sanitized test cases – actual examples of how your users communicate. We built a "linguistic stress test" toolkit that simulates common variations like negations, typos, and numerical differences. For healthcare, it's typically negation and entity precision. For finance, the question is whether those areas matter for your specific application.
Тэстуйце мадэль на рэальныя мадэлі мовы карыстальніка перад размяшчэннем.Не акадэмічныя бенчмаркі, не санітызаваныя касмічныя выпрабаванні - рэальныя прыклады таго, як вашы карыстальнікі камунікаваць.Мы пабудавалі інструментавы набор "лінгвістычны стрес-тэст", які імітуе агульныя варыянты, такія як негацыі, тып і лічбавыя розніцы.Кожная сістэма, якую мы тэстуем, няправільна ў некаторых галінах - пытанне складаецца ў тым, ці гэтыя вобласці важна для вашага спецыяльнага прыкладання.
Пабудаваць страйкі вакол крытычных сляпых месцаў. Розныя прыкладання маюць розныя патрабаванні, якія не могуць пагадзіцца. Для здароўя, гэта звычайна негацыя і энтузіастычная дакладнасць. Для фінансаў, гэта лічбы і часовыя адносіны. Для юрыдычнага, гэта ўмовы і абавязы. Вызначыць, што абсалютна не можа пагражаць у вашай галіне, і ўсталяваць спецыяльныя гарантыі.
Сляпыя плямы, якія я апісаў, не знікнуць ніколі ў бліжэйшы час - яны ўпрыгожваюцца ў тое, як працуюць гэтыя мадэлі. але калі вы ведаеце, што яны там, вы можаце распрацаваць вакол іх.
Заўвага: У мяне ёсць многія іншыя такія выпадкі, выяўленыя з дапамогай эксперыментаў, і я абмяркоўваю іх у сваім наступным пост разам з кодавымі прыкладамі.
Заўвага: У мяне ёсць многа іншых такіх выпадкаў, выяўленых з дапамогай эксперыментаў, і я абмяркоўваю іх у сваім наступным пасадзе разам з кодавымі прыкладамі.
Наступны артыкул выйдзе неўзабаве.