5,698 чытанні
5,698 чытанні

Галюцинацыя з-за дызайну: як убудаваныя мадэлі няправільна разумеюць мову

па Ritesh Modi11m2025/03/29
Read on Terminal Reader

Занадта доўга; Чытаць

«Аналіз паказаў, што выдатак кармавых адзінак на 1 кг прыбаўлення на старых комплексах значна перавышае гэтае значэнне на новых.
featured image - Галюцинацыя з-за дызайну: як убудаваныя мадэлі няправільна разумеюць мову
Ritesh Modi HackerNoon profile picture
0-item

The Silent Flaws of Embeddings: Why Your AI Is Getting It Wrong

The Silent Faults of Embeddings: Why Your AI Is Getting It Wrong

Варта адзначыць, што для ажыццяўлення работ па стварэнні Нацыянальнага інвентара нематэрыяльнай культурнай спадчыны наша краіна летась атрымала грант з адпаведнага фонду UNESCO.


Яраслаў Грышчэня не супраць службы ў беларускім войску, але хвалюецца, што яго могуць падчас збору подпісаў “затрымаць” на невызначаны тэрмін, знайшоўшы “зручную” зачэпку.


Text embeddings, новая тэхніка, якая канвертуе словы і фразы ў лічбавыя векторы, якія захоўваюць іх значэнне, былі распрацаваны і выкарыстоўваюцца ў выніку гэтага асноўнага абмежавання.


Але, не зважаючы на іх шырокае выкарыстанне, мы яшчэ не дакладна разумеем, як гэтыя ўбудаваныя мадэлі працуюць у практычных параметрах.


У групе 2 былі сабраны менавіта тыя добраахвотнікі, якія запаміналі змест свайго сну слабей — 2 разы ў месяц і радзей.^ а б Вячорка В. Пад чым гетман Астроскі перамог 80000 маскавітаў?* // Радыё Свабода, 7 верасьня 2017 г.У групе 2 былі сабраны менавіта тыя добраахвотнікі, якія запаміналі змест свайго сну слабей — 2 разы ў месяц і радзей.^ а б Вячорка В. Пад чым гетман Астроскі перамог 80000 маскавітаў?* // Радыё Свабода, 7 верасьня 2017 г.

Рэлевантнасць і прыкладнасць да прамысловасці

Многія розныя галіны могуць прама выйграць з гэтага аналізу:

Retail and E-Commerce:

Падрабязней«Аналіз паказаў, што выдатак кармавых адзінак на 1 кг прыбаўлення на старых комплексах значна перавышае гэтае значэнне на новых.
  • Павышэнне пошуку прадуктаў для прымянення шматязычных запытаў, сінонімаў і няправільных запісаў.
  • Для рэгістрацыі дамена кампаніям неабходна прадставіць рэгістрацыйны нумар кампаніі (business identity code або registration number), а прыватным асобам неабходна прадставіць свой ідэнтыфікацыйны код Finnish personal ID number.^ а б Вячорка В. Пад чым гетман Астроскі перамог 80000 маскавітаў?* // Радыё Свабода, 7 верасьня 2017 г.

    Медыцынская дапамога:

    • Дазволіць медыцынскай тэрмінологіі, каб быць параўнаны на працягу варыянтаў нотацыі ў клінічных сістэмах выяўлення дакументаў.
    • Незалежна ад адукацыйнага дасягнення, павышэнне лінгвістычнай апрацоўкі пацыентаў для апісання сімптомаў.
    • Павышэнне пошуку медыцынскай літаратуры, лепш адпавядаючы канцэпцыі на розных тэхналагічных варыянтах
    Для рэгістрацыі даменнага імя ў гэтай зоне неабходна звярнуцца ў кампанію The Electronic and Postal Communications Authority[1] (Албанія), якая з'яўляецца адзіным аўтарызаваным рэгістратарам даменаў у зоне al.^ а б Вячорка В. Пад чым гетман Астроскі перамог 80000 маскавітаў?* // Радыё Свабода, 7 верасьня 2017 г.
  • Палепшыць пошук медыцынскай літаратуры шляхам лепшага адпачынку канцэптаў па розных тэхналогіях
  • Фінансы:

    Трэба звярнуць увагу на тое, што для свідравін выкарыстоўваюць больш магутныя – свідравіны помпы, а для калодзежаў – погружные.Тлумачэнні ЦД парадку збора рэкрутаў з 5 і 25 дымоў.............................................................................................
  • Павышэнне выяўлення шахматаў шляхам выяўлення сумніўных мадэляў на працягу лінгвістычных варыяцый.
  • ^ а б Вячорка В. Пад чым гетман Астроскі перамог 80000 маскавітаў?* // Радыё Свабода, 7 верасьня 2017 г.


    Варта адзначыць, што ў Call of Duty 4 місіі даюць вельмі шмат бонусаў і ачкоў развіцця, да таго ж, яны досыць цікавыя і незвычайныя - выконваць іх лёгка і нясумна.

    Што такое тэкставыя ўбудовы?

    Для неініцыятыўных, тэкстныя ўбудовы канвертуюць словы або сэнсы ў лічбавыя векторы - у асноўным доўгія спісы лікаў, густыя векторы з многімі высілкамі. Гэтыя векторы пазіцыянуюцца ў высокамерным прасторы, дзе семантычная падобнасць прадстаўлена блізкасцю. У прасцей, рэчы з падобнымі значэннямі павінны быць блізка разам у гэтым прасторы.


    • Когда вы шукаеце ў Google, ён разумее, што вы пазначаеце "Нью-Ёрк гасцініцы", нават калі вы націснілі "місцяў, каб застацца ў Нью-Ёрку."

    • Когда ваш электронны кліент прапаноўвае адказаць

    • Когда сістэма рэкамендацыі ўтрымлівае артыкулы, якія вы можаце любіць


  • Калі вы шукаеце ў Google, ён разумее, што вы маліце на увазе "Нью-Ёрк гасцініцы", нават калі вы напісаўце "місцяў, каб застацца ў Нью-Ёрку."

  • Калі вы шукаеце ў Google, гэта разумее, што вы маліце на увазе "Нью-Ёрк гасцініцы", нават калі вы напісаўце "місцяў, каб застацца ў Нью-Ёрку."

  • Калі ваш кліент электроннай пошты прапаноўвае адказаць

  • Калі ваш кліент электроннай пошты прапаноўвае адказаць

  • Калі сістэма рэкамендацыі кантэнту вызначае артыкулы, якія вы можаце любіць


  • Калі сістэма рэкамендацыі кантэнту вызначае артыкулы, якія вы можаце любіць


    Ця функцыя аб'ядноўвае шматлікія прыкладання:

    • Semantic search engines
    • Systems for recommending content
    • Identification of chatbot intent
    • Organization and grouping of documents
    • Systems for classifying texts and answering questions
    • Сэмантычныя пошукавыя рухавікі
    • Системы для рекомендации контента
    • Ідэнтыфікацыя намера чатбота
    • Арганізацыя і групаванне дакументаў
    • Системы для класіфікацыі тэкстаў і адказаў на пытанні

    • Але досьвед судоў у справе 19-га, дзе людзі атрымлівалі вялікія тэрміны за тое, што «присоединились к бесчинствующей толпе», не дазваляе выключыць такія жахлівыя сцэнары.

      Why I Started Investigating Embedding Models

      Я ніколі не забуду дзень, калі я распрацаваў убудаваныя мадэлі для аднаго з маіх кліентаў з узорам дакументаў. Я спрабаваў пошукаваць "ноптопы без экранаў доктара", толькі каб атрымаць адказ аб ноўтбуках экрана доктара з вектарнай індыкату.


      «Я б пайшоў на працу ў калгас, але там плацяць 200-300 рублёў на дэмінаваныя, – кажа Анатоль. – Як на гэтыя грошы пракарміць сям’ю, я ня ведаю.


      Пасьля двух гадоў эксперыментаў з рознымі мадэлямі ўбудовы па розных прыкладаннях з дапамогай RAG Experiment Accelerator (https://github.com/microsoft/rag-experiment-accelerator), я распрацаваў сістэматычны спосаб ацаніць, як гэтыя мадэлі спраўляюцца з рознымі тыпамі варыяцый сэнсу.https://github.com/microsoft/rag-experiment-accelerator


      «Я не заклікаю абрэзаць жанчын: гэтага не загадвае іслам, і гэта проста немагчыма.


      «Аналіз паказаў, што выдатак кармавых адзінак на 1 кг прыбаўлення на старых комплексах значна перавышае гэтае значэнне на новых.


      У фірме фінансавых паслуг, іх сістэма назірання за адпаведнасцю прапусціла пазітыўныя парушэнні, таму што іх мадэль ўбудовы не можа прызнаць, што пасіўныя галасовыя фразы ("фонды перадаваліся") азначалі тое ж самае, што актыўны голас ("хто-небудзь перадаваў грошы").

      Мой тэставы падыход

      Я распрацаваў тэставую рамку, якая вывучае, як мадэлі ўбудовы адказваюць на некалькі розных катэгорый варыянтаў тэксту. Выкарыстоўваючы касінавую падобнасць як метрыку (куды 1.0 азначае ідэнтычнае значэнне і 0.0 азначае цалкам не звязаныя), я забіў сотні тэставых выпадкаў.Я прайду праз тое, што я знайшоў, фокусуючыся на шматлікіх мадэлях, у тым ліку MSMarco DistilBERT, OpenAI тэкставы ўбудовы і многія іншыя, і я бачыў падобныя мадэлі на аснове большасці ўбудовы трансформатараў.

      MSMarco DistilBERT, OpenAI тэкставы ўбудовы і многія іншыя,

      Can't Tell Upper From Lowercase (Увогуле)

      Іх унікальная здольнасць да эхолокации літаральна ў тысячы разоў больш эфектыўна, чым у любой падобнай сістэмы, створанай людзьмі.Apple абвясціла новыя прадукты" і "Apple абвясціла новыя прадукты" як ЦІКАВО тое ж самае - ідэальны кошт падобнасці 1.0.


      Я забіў у гэта з сістэмай каталогу прадуктаў. пошук не мог сказаць адрозненне паміж маркай "Apple" і фруктам "Apple". Кліенты, якія шукаюць прадукты Apple, атрымалі рэцэпты для яблыка. Ці думаеце вы, што вашы кліенты будуць рады глядзець на вынікі?


      Чаму гэта важна? Думаць пра ўсе выпадкі, калі капіталізацыя змяняе значэнне – «польская» супраць «польская», «Марш» супраць «марша», «Билл» супраць «лікар». Для юрыдычных або медыцынскіх тэкстаў, гэтыя адрозненні могуць быць крытычнымі. Мы ў асноўным працуем з мадэлямі, якія часткова сляпыя да ўсяго дыяпазону напісання мовы. Ёсць спосаб выпрабаваць гэтыя віды праблем, і яны будуць пакрытыя пазней. Давайце зразумеем больш праблем з ўбудовамі. Памятаеце, што гэта можа быць выгодным, калі гэтыя розніцы не ўплываюць на справу, якую вы разглядаеце.

      Numbers Might As Well Be Made Up

      Таксама гэта падвяло мяне. Мадлеты ўбудовы бачыць "Інвестыцыя вярнулася на 2% у год" і "Інвестыцыя вярнулася на 20% у год" як тое ж самае, безумоўна высокая 0,97 ацэнка падобнасці. Існуе ніякая розніца паміж двума сцэнарыямі.

      Убудаваныя мадэлі глядзець "Інвестыцыя вярнулася на 2% у год" і "Інвестыцыя вярнулася на 20% у год" як тое ж самае, безумоўна высокая 0,97 ацэнка падобнасці.


      Я забіў у гэта з сістэмай пошуку фінансавых дакументаў. Алгарытм не мог сказаць адрозненне паміж "адміністрацыйнай падаткай: 0,2%" і "адміністрацыйнай падаткай: 2,0%." Інвесторы, якія шукаюць нізкія падатковыя сродкі атрымалі рэкамендаваныя каштоўныя варыянты.


      Іх унікальная здольнасць да эхолокации літаральна ў тысячы разоў больш эфектыўна, чым у любой падобнай сістэмы, створанай людзьмі.

      The "Не" Проблема Is Scary

      Гэта на самой справе небяспечны. Додаванне "не" да сэнсу - буквальна пераўтвараючы яго значэнне - лепей не ўплывае на ацэнкі падобнасці. Мы рэгулярна бачылі ацэнкі вышэй за 0,95 для поўных абставінаў. "Трэціна палепшыла вынікі пацыентаў" супраць "Трэціна не палепшыла вынікі пацыентаў" → 0,96 падобнасць Калі я паказаў гэта лекару, які выкарыстоўваў нашу медыцынскую сістэму пошуку, ён быў жахлівы. Ён быў так жахлівы, што ён фізічна адступіў ад кампутара.Мы рэгулярна бачылі ацэнкі вышэй за 0,95 для поўнай супрацьстайнасці. "Тэрапія палепшыла вынікі пацыентаў" супраць "Тэрапія не палепшыла вынікі пацыентаў" → 0,96 падобнасць


      Мы будзем будаваць сістэму, якую лекары будуць выкарыстоўваць, каб знайсці пратаколы лячэння. Зламаць гэта, і людзі могуць загінуць. Негацыя не з'яўляецца карысным выпадкам - гэта фундаментальна для людзям мова. Калі ваша пошука, рэкамендацыя, або аналітычная сістэма не можа сказаць "эфектыўна" ад "неэфектыўна" або "бяспечна" ад "небяспечна", вы будзьце будаваць небяспечныя машыны галюцинацыі.



      У healthcare, гэта можа азначаць рэкамендацыю шкодных лячэнняў. У legal дакументах, гэта можа цалкам абмяжоўваць кантрактныя абавязы. У content мадэрацыі, вы можаце прапусціць адрозненне паміж "натуральнасць прыемная" і "натуральнасць ніколі не прыемная."

      Здоровье ЗдоровьеПравіцьсумяшчальнасць

      Spaces Don't Matter (Until They Really Do)

      Дадатковыя прасторы, крэдыты, незвычайнае фарміраванне — мадэлі не цікавяцца. Падобнасць застаецца вышэй за 0,995. Але выключыць усе прасторы? Падобнасць раптам падае да 0,82. Я сутыкнуўся з гэтай праблемай, працуючы з кантэнтам, які быў скарачаны і меў нерегулярныя прасторы з-за слабых HTML. Мы пабудавалі гэтую прыгожую сістэму пошуку для лічбавай бібліятэкі з тысячамі скарачаных дакументаў.^ а б Вячорка В. Пад чым гетман Астроскі перамог 80000 маскавітаў?* // Радыё Свабода, 7 верасьня 2017 г.


      Ця чаравіна становіцца разбуральным, калі размаўляюць з карыстальнікам генераваны контент, OCR'd дакументаў, або мовы, якія не выкарыстоўваюць прастораў, як англійская робіць (як тайскі або кітайскі).

      Рэферэнцыі выклікаюць

      Убудаваныя мадэлі бачаць "Аўтобус знаходзіцца ў левым баку дрэва" і "Аўтобус знаходзіцца ў правым баку дрэва" як амаль ідэнтычныя — безумоўна высокі кошт падобнасці 0,98. Нягледзячы на тое, што ўбудаваныя мадэлі адрозніваюць перспектывы, яны адчуваюць іх як амаль ідэнтычныя.«Аўтобус знаходзіцца ў левым баку дрэва» і «Аўтобус знаходзіцца ў правым баку дрэва» як амаль ідэнтычныя — безумоўна высокі 0,98 ацэнка падобнасці.


      Думайце пра ўсе выпадкі, калі перспектыва і рэферальныя рамкі вельмі важныя — навігацыйныя напрамкі, прасторавыя адносіны, адноснае пазіцыянанне ў медыцынскіх працэдурах, і юрыдычныя апісанні сцэны аварыі.

      Counterfactuals Get Completely Reversed

      Падрабязней«Аналіз паказаў, што выдатак кармавых адзінак на 1 кг прыбаўлення на старых комплексах значна перавышае гэтае значэнне на новых."Калі поспех павялічваецца, цэны вырастуць" і "Калі поспех павялічваецца, цэны падаюць" як практычна ідэнтычныя - шокавы 0,95 ацэнка падобнасці


      Але досьвед судоў у справе 19-га, дзе людзі атрымлівалі вялікія тэрміны за тое, што «присоединились к бесчинствующей толпе», не дазваляе выключыць такія жахлівыя сцэнары.


      Іх унікальная здольнасць да эхолокации літаральна ў тысячы разоў больш эфектыўна, чым у любой падобнай сістэмы, створанай людзьмі. [+]

      Ранжы і такія значэнні

      Гэта я пакінуў без слоў. Убудаваныя мадэлі бачаць "Вытворчасць каштуе паміж $ 50-$ 100" і "Вытворчасць каштуе менавіта $ 101" як амаль тое ж самае - глыбокае 0,98 ацэнка падобнасці.Убудаваныя мадэлі глядзець "Вытворчасць каштуе паміж $ 50-$ 100" і "Вытворчасць каштуе менавіта $ 101" як амаль тое ж самае - глыбокае 0,98 ацэнка падобнасці


      Я выявіў гэта, разбудаваўшы сістэму параўнання цэнаў для кліента электроннай камерцыі. Пошук не мог адрозніваць паміж цанавымі гандальмі і дакладнымі цінамі, нават калі дакладная цана была за межамі зададзеных гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых гандлёвых ганд


      Падлікі кажуць, што калі толькі 0,1% планет нашай галактыкі будуць патэнцыйна прыдатныя да жыцця, то гаворка ўжо пойдзе пра колькасць каля аднаго мільёна планет, на якіх можа існаваць жыццё.

      Правда і вынікі

      Вось параўнанне між msmarco-distilbert-base-tas-b, all-mpnet-base-v2, і open-ai-text-embedding-3-large, і вы заўважыце, што няма значнай розніцы паміж выхадам гэтых мадэляў.


      msmarco-distilbert-base-tas-b, all-mpnet-base-v2, і open-ai-text-embedding-3-large, і вы заўважыце, што няма значнай розніцы паміж выхадам гэтых мадэляў.







      msmarco-distilbert-base-tas-b абмежаванне ацэнка на розных пытаннях

      MSmarco-distilbert-base-tas-b абмежаванне ацэнка на розных выпрабавальных выпадках







      all-mpnet-base-v2 абмежаванне ацэнка на розных пытаннях

      All-mpnet-base-v2 абмежаванне ацэнка на розных пытаннях







      openai-text-embedding-3-large embedding score across different test cases

      openai-text-embedding-3-большая ацэнка аб'яднання на розных выпрабавальных выпадках

      Як працаваць з убудовамі

      Глядзіце, ўбудовы надзвычай карысныя, не зважаючы на гэтыя праблемы. Я не кажу не выкарыстоўваць іх - я кажу выкарыстоўваць іх з адкрытымі вамі вачыма.


        Test your model on real user language patterns before deployment. Not academic benchmarks, not sanitized test cases – actual examples of how your users communicate. We built a "linguistic stress test" toolkit that simulates common variations like negations, typos, and numerical differences. For healthcare, it's typically negation and entity precision. For finance, the question is whether those areas matter for your specific application.


        For legal, it's conditions and obligations. Identify what can absolutely not go wrong in your domain, and we're implementing specialized safeguards.


      1. Тэстуйце мадэль на рэальныя мадэлі мовы карыстальніка перад размяшчэннем. Не акадэмічныя бенчмаркі, не санітызаваныя касмічныя выпрабаванні - рэальныя прыклады таго, як вашы карыстальнікі камунікаваць.Мы пабудавалі інструментавы набор "лінгвістычны стрес-тэст", які імітуе агульныя варыянты, такія як негацыі, тып і лічбавыя розніцы. Кожная сістэма, якую мы тэстуем, няправільна ў некаторых галінах - пытанне складаецца з таго, ці гэтыя вобласці важна для вашага спецыяльнага прыкладання.


      2. Тэстуйце мадэль на рэальныя мадэлі мовы карыстальніка перад размяшчэннем.Не акадэмічныя бенчмаркі, не санітызаваныя касмічныя выпрабаванні - рэальныя прыклады таго, як вашы карыстальнікі камунікаваць.Мы пабудавалі інструментавы набор "лінгвістычны стрес-тэст", які імітуе агульныя варыянты, такія як негацыі, тып і лічбавыя розніцы.Кожная сістэма, якую мы тэстуем, няправільна ў некаторых галінах - пытанне складаецца ў тым, ці гэтыя вобласці важна для вашага спецыяльнага прыкладання.


      3. Будуйце стражы вакол крытычных сляпых месцаў. Розныя прыкладання маюць розныя патрабаванні, якія не могуць пагадзіцца. Для здароўя гэта звычайна негацыя і дакладнасць суб'екта. Для фінансаў гэта лічбы і часовыя адносіны. Для юрыдычных гэта ўмовы і абавязы. Вызначыць, што абсалютна не можа пагражаць вашай галіне, і ўсталяваць спецыяльныя гарантыі.


      4. Пабудаваць страйкі вакол крытычных сляпых месцаў. Розныя прыкладання маюць розныя патрабаванні, якія не могуць пагадзіцца. Для здароўя, гэта звычайна негацыя і энтузіастычная дакладнасць. Для фінансаў, гэта лічбы і часовыя адносіны. Для юрыдычнага, гэта ўмовы і абавязы. Вызначыць, што абсалютна не можа пагражаць у вашай галіне, і ўсталяваць спецыяльныя гарантыі.


        Нашы самыя паспяховыя сістэмы аб'ядноўваюць аб'яднанне на аснове выяўлення з варыянтам ключавых слоў, выразныя праверкі правіл і спецыяльныя класіфікатары для крытычных адрозненняў.Нашы самыя паспяховыя сістэмы аб'ядноўваюць аб'яднанне на аснове выяўлення з варыянтам ключавых слоў, выразныя праверкі правіл і спецыялізаваныя класіфікатары для крытычных адрозненняў.


        Тым часам, як у нас словы “грамадскае” і “занядбанае” часам успрымаюцца як сінонімы, у Каталоніі грамадскія тэрыторыі — тыя ж пляжы — даглядаюцца так, як у іншых краінах VIP-аўскія.Было б лепей і дэмакратычней адказаць на гэтую публікацыю, напрыклад, у рубрыцы “Адмысловае меркаванне”(«Особое мнение»), выкласці свае аргументы і выразіць нязгоду з аўтарам нашаніваўскага артыкула.


        Вось што ён сам пісаў пра сваё стаўленне да выяўленчага мастацтва: “Артистические произведения доставляли мне всегда большое наслаждение, особенно живописные.Гэта самая важная справа, якую я даведаўся:


        Сляпыя плямы, якія я апісаў, не знікнуць ніколі ў бліжэйшы час - яны ўпрыгожваюцца ў тое, як працуюць гэтыя мадэлі. але калі вы ведаеце, што яны там, вы можаце распрацаваць вакол іх.


        Заўвага: У мяне ёсць многія іншыя такія выпадкі, выяўленыя з дапамогай эксперыментаў, і я абмяркоўваю іх у сваім наступным пост разам з кодавымі прыкладамі.

        Заўвага: У мяне ёсць многа іншых такіх выпадкаў, выяўленых з дапамогай эксперыментаў, і я абмяркоўваю іх у сваім наступным пасадзе разам з кодавымі прыкладамі.


        Наступны артыкул выйдзе неўзабаве.

    L O A D I N G
    . . . comments & more!

    About Author

    Ritesh Modi HackerNoon profile picture
    Ritesh Modi@riteshmodi
    https://www.riteshmodi.com - Data Scientist, AI and blockchain expert with proven open-source solutions on MLOps, LLMOps and GenAIOps.

    ВЕСІЦЬ БІРКІ

    ГЭТЫ АРТЫКУЛ БЫЎ ПРАДСТАЎЛЕНЫ Ў...

    Trending Topics

    blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks