4,365 odczyty
4,365 odczyty

Halucynacje według projektu (część 2): ciche wady osadów i dlaczego Twoja sztuczna inteligencja robi to źle

przez Ritesh Modi9m2025/04/01
Read on Terminal Reader

Za długo; Czytać

To druga część serii o halucynacjach projektowanych. Jest to kontynuacja naszej poprzedniej dyskusji na temat tego, jak osadzenia powodują halucynacje. Zasadniczo pracujemy z modelami, które nie potrafią odróżnić spekulacji od potwierdzenia.
featured image - Halucynacje według projektu (część 2): ciche wady osadów i dlaczego Twoja sztuczna inteligencja robi to źle
Ritesh Modi HackerNoon profile picture
0-item

Wpis: Dwie postacie wyglądają inaczej, ale mają zdumiewające podobieństwo w postawie, ekspresji i tle - prawie tak, jakby były "wkładkami" różnych zdań, które kończą się blisko siebie.

KaptułDwie postacie wyglądają inaczej, ale dzielą się zdumiewającą podobieństwem w postawie, ekspresji i tle - prawie tak, jakby były "wbudowaniami" różnych zdań, które kończą się blisko siebie.


CZYTAJ CZĘŚĆ 1 tutaj (https://hackernoon.com/hallucination-by-design-how-embedding-models-misunderstand-language)

CZYTAJ CZĘŚĆ 1 tutaj (https://hackernoon.com/hallucination-by-design-how-embedding-models-misunderstand-language)https://hackernoon.com/hallucination-by-design-how-embedding-models-misunderstand-language


W zeszłym miesiącu podzieliłem się tym, jak modele osadzone halucynują podczas obsługi prostych wariantów językowych, takich jak negacja i kapitalizacja. Odpowiedź była przytłaczająca – wydaje się, że nie jestem jedyną osobą, która została spalona przez te problemy.


Jest to kontynuacja naszej wcześniejszej dyskusji na temat how embeddings hallucinate. Aby uzyskać jak najwięcej z tego artykułu, zalecam przeczytanie połączonego artykułu najpierw, ponieważ zawiera podstawowe pojęcia niezbędne do pełnego zrozumienia pomysłów zbadanych tutaj. W ten sposób będziesz miał bezproblemowe doświadczenie uczenia się i głębsze zrozumienie tematu.


jak to się dzieje

Hipotetyczne vs. rzeczywiste? Tylko szczegóły!

Oto, gdzie rzeczy stają się naprawdę niepokojące. Kiedy biegałem "Jeśli leczenie działa, objawy powinny się poprawić" przeciwko "Leczenie działa, a objawy się poprawiły", wynik podobieństwa osiągnął 0,95. Siedziałem patrząc na mój ekran w nieufności.Kiedy biegałem "Jeśli leczenie działa, objawy powinny się poprawić" przeciwko "Leczenie działa, a objawy się poprawiły", wynik podobieństwa osiągnął 0,95.


Zderzyłem się z tym problemem pracując nad dokumentem badań klinicznych. Wyszukiwanie nie mogło odróżnić hipotetycznych wyników leczenia od zweryfikowanych wyników.Lekarze szukający sprawdzonych metod leczenia otrzymywali mieszane wyniki z niedowierzanymi hipotezami.Czy uważasz, że lekarze podejmujący decyzje dotyczące leczenia doceniają mylące spekulacje z dowodami?


Znowu pomyśl o wszystkich przypadkach, w których odróżnienie hipotez od faktów jest niezbędne - badania naukowe, próby medyczne, precedensy prawne i analizy inwestycyjne.Kiedy twój model łączy się "jeśli X, to ewentualnie Y" z "X zdarzyło się i spowodowało Y", całkowicie nie zrozumiałeś statusu epistemicznego informacji.

Rozporządzenie czasowe? dowolny porządek!

Modele osadzone zobacz "Zakończyła studia przed rozpoczęciem pracy" i "Zakończyła pracę przed ukończeniem studiów" jako prawie identyczne - śmieszne 0,97 podobieństwo. Jeden jest tradycyjną ścieżką kariery; drugi pracuje podczas studiów.Zakończyła studia przed rozpoczęciem pracy" i "Zaczęła pracę przed ukończeniem studiów" jako prawie identyczne - śmieszne 0,97 podobieństwo.


Znalazłem to podczas budowy systemu screeningowego CV. Wbudowania nie mogły odróżnić kandydatów, którzy ukończyli stopnie przed pracą, od tych, którzy nadal ukończyli studia. Menedżerowie zatrudnienia marnowali godziny na przeprowadzanie wywiadów z kandydatami, którzy nie spełnili ich podstawowych wymagań kwalifikacyjnych. Czy uważasz, że zajęci rekruterzy cenią marnowanie czasu z kandydatami niepowtarzalnymi?


Zastanów się nad wszystkimi przypadkami, w których kluczowe znaczenie ma sekwencja – protokoły leczenia medycznego, wymogi prawne proceduralne, przepisy gotowania, instrukcje montażu i formuły chemiczne.Kiedy twój model nie może powiedzieć „A przed B” z „B przed A”, utracisz podstawowe powiązania przyczynowe.

Granice ilościowe zanikają w cienkim powietrzu

Ten faktycznie sprawił, że wylałem kawę. wbudowane modele patrz "Spółka ledwo przekroczyła oczekiwania dotyczące zysków" i "Spółka znacząco pominęła oczekiwania dotyczące zysków" jako SZOKOWE podobne - wynik podobieństwa 0,93. Przekroczone w stosunku do pominiętych!"Spółka ledwo przekroczyła oczekiwania dotyczące zysków" i "Spółka znacząco pominęła oczekiwania dotyczące zysków" jako SZOKOWE podobne - 0,93 punktu podobieństwa.


Jeśli zbudujesz system analizy wiadomości finansowych, wkładki nie rozróżniałyby pozytywnych i negatywnych niespodzianek z tytułu zysków – dosłownie różnicę między wzrostem i spadkiem cen akcji.Inwestorzy podejmujący decyzje handlowe na podstawie naszych streszczeń otrzymywali całkowicie sprzeczne informacje.


Następnie pomyśl o wszystkich przypadkach, w których przekroczenie progu zmienia wszystko – przekraczanie vs. nieudane oceny, zdrowe vs. niebezpieczne znaki życiowe, zyskowne vs. nieudane przedsiębiorstwa, zgodność vs. niezgodne statusy regulacyjne. Twój model traci zdolność do robienia znaczących rozróżnień, gdy nie może odróżnić między ledwo spełnieniem celu a całkowitym pominięciem go.

Inwersje skalowe są całkowicie odwrócone

Podczas testów stwierdziłem, że „Spotkanie przebiegło znacznie krócej niż zaplanowano” i „Spotkanie przebiegło znacznie dłużej niż zaplanowano” wyniosło 0,96 podobieństwa. Byłem w pełnym szoku."Spotkanie przebiegło znacznie krócej niż planowano" i "Spotkanie przebiegło znacznie dłużej niż planowano" uzyskało 0,96 podobieństwa.


Spotkałem się z tym z dokumentami zarządzania projektami. Wyszukiwanie nie było w stanie rozróżnić między przerwami w harmonogramie a efektywnością. Menedżerowie szukający przykładów technik oszczędzania czasu otrzymywali pokazane projekty z poważnymi opóźnieniami.Czy uważasz, że menedżerowie śledzący harmonogramy projektów doceniają otrzymanie dokładnie przeciwnych informacji?


Zastanów się nad wszystkimi przypadkami, w których kierunek na skali jest kluczowy – oszczędności kosztów w porównaniu z nadwyżkami, poprawa wydajności w porównaniu z degradacją, poprawa stanu zdrowia w porównaniu z spadkiem, a ryzyko wzrasta w porównaniu z spadkiem.

Domain-specificzne przeciwieństwa wyglądają jak synonimy

Dokumentacja medyczna

Nie mogłem uwierzyć w to, co widziałem w testach opieki zdrowotnej. "Pacjent prezentuje się z tachykardią" w porównaniu z "Pacjent prezentuje się z bradykardią" zwrócił wynik podobieństwa 0,94. Dla osób nie medycznych, jest to jak mylenie serca wyścigowego z tym, które jest niebezpiecznie powolne - warunki z przeciwnymi leczeniami!

"Pacjent prezentuje z tachykardią" w porównaniu do "Pacjent prezentuje z bradykardią" zwrócił wynik podobieństwa 0,94.


Odkryłem to podczas pracy nad systemem dopasowania objawów do elektronicznych rekordów zdrowotnych. Model osadzenia nie mógł odróżnić zasadniczo różnych stanów medycznych, które wymagają przeciwstawnych zabiegów. Lekarze szukający przypadków podobnych do pacjenta z wyścigowym sercem pokazali przypadki pacjentów z niebezpiecznie powolnym bicie serca. Czy uważasz, że lekarze podejmujący decyzje wrażliwe na czas doceniają otrzymywanie sprzecznych informacji klinicznych?


W dziedzinie medycyny te różnice mogą mieć znaczące konsekwencje. tachykardia może być leczona beta-adrenolitykami, podczas gdy bradykardia może wymagać pacemakera – podanie niewłaściwego leczenia może być śmiertelne.

Dokumenty prawne

Testy prawne były równie złe. W porównaniu "Skarżący ponosi ciężar dowodu" z "Ofiara ponosi ciężar dowodu", model zwrócił oszałamiającą podobieństwo 0,97. Pozwól, aby to zanurzyło się.W porównaniu "Skarżący ponosi ciężar dowodu" z "Skarżący ponosi ciężar dowodu", model zwrócił oszałamiające 0,97 podobieństwo.


Wyszukiwanie nie było w stanie odróżnić zasadniczo różnych norm prawnych i obowiązków.Prawnicy badający precedensy dotyczące obciążeń skarżących pokazali przypadki omawiające obciążenia oskarżonych.Czy uważasz, że adwokaci przygotowujący się do procesu doceniają uzyskanie dokładnie wstecznych norm prawnych?


W kontekście prawnym, kto ponosi ciężar dowodu często decyduje o wyniku sprawy. Gdy twój model nie może odróżnić, która strona ma jakie obowiązki, podważasz całą podstawę rozumowania prawnego.

Jednostki miary

Musiałem wykonać ten test wiele razy, ponieważ nie mogłem uwierzyć w wyniki. "Procedura trwa około 5 minut" w porównaniu do "Procedura trwa około 5 godzin" uzyskał niesamowitą podobieństwo 0,97."Procedura trwa około 5 minut" w porównaniu do "Procedura trwa około 5 godzin" uzyskała niesamowitą podobieństwo 0,97


Znalazłem to podczas budowy tego samego systemu opieki zdrowotnej. Wbudowania nie mogły odróżnić krótkich i długich procedur. Menedżerowie kliniczni, którzy próbowali zaplanować krótkie procedury, pokazywali długie operacje, które zablokowałyby ich suite chirurgiczne przez całe dni.Czy uważasz, że placówki medyczne ze ścisłymi ograniczeniami w harmonogramie doceniają, że ich cały dzień pracy jest zakłócony?


Gdy model traktuje „5 minut” i „5 godzin” jako zasadniczo identyczne, tracisz zdolność zrozumienia wielkości.

Więcej problemów z pomiarami

Podczas korzystania z tych samych dokumentów opieki zdrowotnej, znalazłem "Tumor ma średnicę 2 centymetrów" i "Tumor ma średnicę 2 centymetrów" uzyskał alarmującą podobieństwo 0,98. Dla kontekstu, to jest różnica między potencjalnie niewielkim guzem a tym, który jest 2,54 razy większy - często próg między "zobacz i poczekaj" w porównaniu do natychmiastowej operacji.


"Tumor ma 2 centymetry średnicy" i "Tumor ma 2 centymetry średnicy" uzyskał alarmującą 0,98 podobieństwo.


Umieszczenia nie mogły rozróżnić między pomiarami metrycznymi i cesarskimi. Onkologowie badający opcje leczenia małych guzów pokazywali przypadki znacznie większych wzrostów.


Modele traktują „Utrzymuj prędkość poniżej 30 mph” i „Utrzymuj prędkość poniżej 30 kph” jako bardzo podobne – problematyczny wynik podobieństwa 0,96.Modele traktują „Utrzymuj prędkość poniżej 30 mph” i „Utrzymuj prędkość poniżej 30 kph” jako bardzo podobne – problematyczny wynik podobieństwa 0,96.


Konwersja między jednostkami nie jest tylko ćwiczeniem matematycznym – zasadniczo zmienia zalecenia, parametry bezpieczeństwa i wyniki.W zasadzie pracujemy z modelami, które uważają, że liczby bez jednostek są wystarczające pomimo analizy tekstu, w którym jednostki całkowicie przekształcają znaczenie.

Prawda i wyniki

Oto porównanie między msmarco-distilbert-base-tas-b, all-mpnet-base-v2 i open-ai-text-embedding-3-large, a zauważysz, że nie ma znaczącej różnicy między wyjściem tych modeli.


msmarco-distilbert-base-tas-b, all-mpnet-base-v2, i open-ai-text-embedding-3-large, i zauważysz, że nie ma znaczącej różnicy między wyjściem tych modeli.







 ***msmarco-distilbert-base-tas-b wynik osadzenia w różnych przypadkach testowych*** 
***msmarco-distilbert-base-tas-b wynik osadzenia w różnych przypadkach testowych***





 ***all-mpnet-base-v2 wstawianie wyników w różnych przypadkach testowych*** 
***all-mpnet-base-v2 wynik osadzenia w różnych przypadkach testowych***






 ***openai-text-embedding-3-large embedding score w różnych przypadkach testowych*** 
***openai-text-embedding-3-large embedding score w różnych przypadkach testowych***

Wystarczy tylko powtórzyć..

Patrzcie, osadzenia są niesamowicie przydatne pomimo tych problemów. Nie jestem zwolennikiem ich używania, ale raczej ważne jest, aby podejść do nich ostrożnie.


    potencjał
  1. Testuj swój model na rzeczywistych wzorcach języka użytkownika przed wdrożeniem. Nie wskaźniki akademickie, nie sanityzowane przypadki testowe – rzeczywiste przykłady sposobu, w jaki użytkownicy komunikują się. Zbudowaliśmy zestaw narzędzi "test stresu językowego", który symuluje wspólne warianty, takie jak zaprzeczanie, typowanie i różnice liczbowe. Każdy system, który testujemy, zawiodł w niektórych obszarach – pytanie brzmi, czy te obszary mają znaczenie dla konkretnej aplikacji.



  2. Zbuduj ogrodzenia wokół krytycznych ślepych punktów. Różne aplikacje mają różne wymagania dotyczące niepowodzenia.

  3. Testuj swój model na prawdziwych wzorcach językowych użytkowników przed wdrożeniem. Nie są to wskaźniki akademickie, nie są to przypadki testowe – rzeczywiste przykłady sposobu, w jaki użytkownicy komunikują się.Zbudowaliśmy zestaw narzędzi do testowania stresu językowego, który symuluje wspólne warianty, takie jak negacje, typy i różnice liczbowe.Każdy system, który testujemy, zawiodł w niektórych obszarach – pytanie polega na tym, czy te obszary mają znaczenie dla konkretnej aplikacji.


  4. Testuj swój model na prawdziwych wzorcach językowych użytkowników przed wdrożeniem.Nie wskaźniki akademickie, nie przypadki testowe – rzeczywiste przykłady tego, jak użytkownicy komunikują się.Zbudowaliśmy zestaw narzędzi do "testowania stresu językowego", który symuluje wspólne warianty, takie jak negacje, typy i różnice liczbowe.Każdy system, który testujemy, zawiodł w niektórych obszarach – pytanie brzmi, czy te obszary mają znaczenie dla konkretnej aplikacji.


  5. Buduj ogrodzenia wokół krytycznych ślepych punktów. Różne aplikacje mają różne wymagania, które nie mogą się pomylić. W przypadku opieki zdrowotnej jest to zazwyczaj negacja i precyzja podmiotu. W przypadku finansów są to liczby i relacje czasowe. W przypadku prawa są to warunki i obowiązki. Zidentyfikuj, co absolutnie nie może pójść źle w swojej dziedzinie i wdroż specjalistyczne zabezpieczenia.


  6. Buduj ogrodzenia wokół krytycznych ślepych punktów. Różne aplikacje mają różne wymagania, które nie mogą się pomylić. W przypadku opieki zdrowotnej jest to zazwyczaj negacja i precyzja podmiotu. W przypadku finansów są to liczby i relacje czasowe. W przypadku prawa są to warunki i obowiązki. Zidentyfikuj, co absolutnie nie może pójść źle w swojej dziedzinie i wdroż specjalistyczne zabezpieczenia.


    Nasze najskuteczniejsze systemy łączą pobieranie oparte na wbudowaniu z weryfikacją słów kluczowych, wyraźnymi kontrolami zasad i wyspecjalizowanymi klasyfikatorami dla krytycznych rozróżnień.Nasze najskuteczniejsze systemy łączą odzyskiwanie oparte na wbudowaniu z weryfikacją słów kluczowych, wyraźnymi kontrolami zasad i wyspecjalizowanymi klasyfikatorami dla krytycznych rozróżnień.„br”
  7. Bądź przejrzysty z użytkownikami na temat tego, co system może i nie może zrobić niezawodnie.Dodaliśmy punkty zaufania, które wyraźnie oznaczają, gdy wynik może obejmować negację, porównanie liczbowe lub inne potencjalne słabe punkty.Użytkownicy doceniają uczciwość i buduje zaufanie do systemu jako całości.

  8. Bądź przejrzysty z użytkownikami na temat tego, co system może i nie może zrobić w sposób wiarygodny.Dodaliśmy punkty zaufania, które wyraźnie oznaczają, kiedy wynik może obejmować zaprzeczenie, porównanie liczbowe lub inne potencjalne słabe punkty.


    **Oto najważniejsza rzecz, której się nauczyłem:**Te modele nie rozumieją języka tak, jak to robią ludzie – rozumieją wzorce statystyczne.Kiedy przestałem oczekiwać zrozumienia podobnego do ludzkiego i zacząłem traktować je jako zaawansowane narzędzia do dopasowywania wzorców z konkretnymi ślepymi kropkami, moje systemy stały się lepsze.„br”

    Obliskie plamy, które opisałem, nie znikają wkrótce – są gotowane w sposób, w jaki działają te modele.Ale jeśli wiesz, że są tam, możesz projektować wokół nich.I czasami uznanie ograniczenia jest pierwszym krokiem do jego przezwyciężenia.


    Uwaga: Mam wiele więcej takich przypadków znalezionych w eksperymentach i omówię je w następnym poście.

    UwagaUwaga

    Wkrótce ukaże się kolejny artykuł kontynuacyjny.Zostań na bieżąco!!

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks