Заголовок: Два персонажа выглядят по-разному, но разделяют поразительное сходство в позе, выражении и фоне - почти так же, как если бы они были "встраиваниями" разных предложений, которые в конечном итоге близки друг к другу.
ЗаголовокДва персонажа выглядят по-разному, но разделяют поразительное сходство в позе, выражении и фоне — почти так, как будто они являются «встраивающимися» фраз, которые заканчиваются близко друг к другу.
ЧИТАЙТЕ ЧАСТЬ-1 здесь (https://hackernoon.com/hallucination-by-design-how-embedding-models-misunderstand-language)
ЧИТАЙТЕ ЧАСТЬ-1 здесь (https://hackernoon.com/hallucination-by-design-how-embedding-models-misunderstand-language)https://hackernoon.com/hallucination-by-design-how-embedding-models-misunderstand-language
В прошлом месяце я поделился тем, как встроенные модели галлюцинируют при обработке простых языковых вариаций, таких как отрицание и капитализация.Реакция была ошеломляющей – кажется, что я не единственный, кто был сожжен этими проблемами.Сегодня я погружаюсь глубже в еще более тревожные слепые пятна, которые я обнаружил через тестирование.Это те виды, которые держат меня в ночное время и заставляют меня сомневаться во всем, как мы строим системы ИИ.
Это вторая часть серии о галлюцинациях по дизайну. Это продолжение нашей предыдущей дискуссии на как галлюцинации галлюцинации. Чтобы получить максимум из этой статьи, я настоятельно рекомендую прочитать связанную статью сначала, так как она устанавливает основные концепции, необходимые для полного понимания идей, изученных здесь.как встраивать галлюцинации
Гипотетическое vs. фактическое? Просто детали!
Вот где все становится действительно тревожным. Когда я бегал «Если лечение работает, симптомы должны улучшиться» против «Лечение работает и симптомы улучшились», балл сходства достиг 0,95. Я сидел, глядя на мой экран в неверии.Когда я бегал «Если лечение работает, симптомы должны улучшиться» против «Лечение работает и симптомы улучшились», балл сходства достиг 0,95.
Я столкнулся с этой проблемой, работая над клиническим исследовательским документом. Поиск не смог отличить гипотетические результаты лечения от проверенных результатов. Врачи, ищущие проверенные методы лечения, получали смешанные результаты с непроверенными гипотезами. Думаете ли вы, что врачи, принимающие решения о лечении, ценят путающие спекуляции с доказательствами?
Опять же, подумайте обо всех случаях, когда важно отличать гипотезы от фактов - научные исследования, медицинские испытания, правовые прецеденты и инвестиционный анализ.Когда ваша модель сходит с «если X, то возможно Y» с «X произошло и вызвало Y», вы совершенно неправильно поняли эпистемический статус информации.
Временный порядок? Какой бы ни был порядок!
Встроенные модели см. «Она закончила свою степень, прежде чем начать работу» и «Она начала свою работу, прежде чем закончить свою степень» как почти идентичные – смехотворный 0,97 балл сходства. Один традиционный путь карьеры; другой работает во время учебы.Она закончила свою степень, прежде чем начать работу» и «Она начала свою работу, прежде чем закончить свою степень» как почти идентичны – смехотворное 0,97 сходство.
Я нашел это при создании системы скрининга резюме. Встраивания не могли отличить кандидатов, которые закончили свои степени до работы, и тех, кто все еще заканчивал учебу. Менеджеры по найму тратили часы на интервьюирование кандидатов, которые не соответствовали их основным требованиям к квалификации. Думаете ли вы, что занятые рекрутеры ценят то, что их время тратится на несоответствующих кандидатов?
Подумайте обо всех случаях, когда последовательность имеет решающее значение – медицинские протоколы лечения, правовые процедурные требования, рецепты приготовления пищи, инструкции по сборке и химические формулы.Когда ваша модель не может сказать «A перед B» от «B перед A», вы потеряли фундаментальные причинные связи.Мы в основном работаем с моделями, которые рассматривают время как опционную концепцию, несмотря на анализ текста, который полон критической последовательной информации.
Квантитативные пороги исчезают в тонкий воздух
Встроенные модели см. "Компания едва превысила ожидания по прибыли" и "Компания значительно пропустила ожидания по прибыли" как шокирующе похожие - 0,93 балла сходства. Превышен против пропущен!"Компания едва превысила ожидания по прибыли" и "Компания значительно пропустила ожидания по прибыли" как шокирующе похожие - 0,93 балла сходства.
Если вы строите систему анализа финансовых новостей, встраивания не будут различать положительные и отрицательные сюрпризы прибыли – буквально разница между ценами акций, поднимающимися или падающими.Инвесторы, принимающие торговые решения на основе наших резюме, получали совершенно противоречивую информацию.
Теперь подумайте обо всех случаях, когда пересечение порога меняет все – прохождение vs. неудачные оценки, здоровые vs. опасные жизненные признаки, прибыльные vs. невыгодные предприятия, соответствие vs. несовместимые нормативные статусы. Ваша модель теряет способность делать значимые различия, когда она не может отличить между едва достигнутой целью и полностью пропущенной.
Скаларные инверсии полностью перевернуты
Во время тестирования я обнаружил, что «Встреча шла значительно короче, чем планировалось» и «Встреча шла значительно дольше, чем планировалось» показала сходство 0,96. Я был в полном шоке."Встреча шла значительно короче, чем планировалось" и "Встреча шла значительно дольше, чем планировалось" показали сходство 0,96.
Я столкнулся с этим с документами по управлению проектами. Поиск не смог отличить перерывы и эффективность. Менеджерам, ищущим примеры методов экономии времени, показывали проекты с серьезными задержками. Думаете ли вы, что руководители, отслеживающие сроки проекта, ценят точную противоположную информацию, которую они просили?
Подумайте обо всех случаях, когда направление в масштабе имеет решающее значение – экономия затрат против перенапряжений, улучшение производительности против ухудшения, улучшение здоровья против снижения, а риск увеличивается против уменьшения.Когда ваша модель рассматривает "много выше", как взаимозаменяемую с "много ниже", вы потеряли способность отслеживать изменение направления.
Доменные противоположности выглядят как синонимы
Медицинские документы
Я не мог поверить тому, что я видел в тестах на здравоохранение. «Пациент с тахикардией» против «Пациент с брадикардией» вернул 0,94 балла сходства. Для немедицинских людей это похоже на путаницу гоночного сердца с опасно медленным – условия с противоположными методами лечения!
«Пациент с тахикардией» против «Пациент с брадикардией» вернул 0,94 балла сходства.
Я обнаружил это, работая над системой сопоставления симптомов для электронных медицинских записей. Встраиваемая модель не могла различать фундаментально разные медицинские состояния, требующие противоположного лечения. Врачи, ищущие случаи, похожие на пациента с гоночным сердцем, показали случаи пациентов с опасно медленным сердцем.
В области медицины эти различия могут иметь значительные последствия.Тахикардия может быть лечена бета-адреноблокаторами, в то время как брадикардия может потребовать кардиостимулятора – давать неправильное лечение может быть фатальным.Мы в основном работаем с моделями, которые не могут различать противоположные медицинские состояния, несмотря на анализ текста, где это различие определяет соответствующую помощь.
Правовые документы
Правовые тесты были одинаково плохими. Когда сравнивали «Ищец несет бремя доказывания» с «Обвиняемый несет бремя доказывания», модель возвращала потрясающее сходство 0,97. Пусть это погрузится в. Эти заявления буквально определяют, какая сторона должна доказать свой случай в суде!Когда сравнивали «Ищец несет бремя доказывания» с «Обвиняемый несет бремя доказывания», модель возвращала поразительное сходство 0,97.
Поиск не смог отличить фундаментально разные юридические стандарты и обязанности.Адвокаты, исследующие прецеденты о бремени истца, показали случаи, обсуждающие бремя ответчика.Думаете ли вы, что адвокаты, готовящиеся к суду, ценят то, что юридические стандарты точно отстают?Я уверен, что я не хотел бы, чтобы мой иск строился на полностью перевернутых правовых принципах.
В правовых контекстах, кто несет бремя доказывания часто определяет исход дела.Когда ваша модель не может отличить, какая сторона имеет какие обязанности, вы подрывали всю основу юридического рассуждения.Мы в основном работаем с моделями, которые путают юридические роли, несмотря на анализ текста, где эти различия определяют, как работает правосудие.
Единицы измерения
Мне пришлось выполнять этот тест несколько раз, потому что я не мог поверить результатам. "Процедура занимает около 5 минут" против "Процедура занимает около 5 часов" показал потрясающее сходство 0,97."Процедура занимает около 5 минут" против "Процедура занимает около 5 часов" показала невероятное сходство 0,97
Я обнаружил это при строительстве одной и той же системы здравоохранения. Встраивания не могли различать короткие и длинные процедуры. Менеджерам клиник, пытающимся запланировать короткие процедуры, показали длинные операции, которые заблокировали бы их хирургические комплекты на целые дни.Думаете ли вы, что медицинские учреждения с жесткими ограничениями в планировании ценят нарушение рабочего процесса в течение всего дня?
Единицы измерения фундаментально меняют смысл.Когда ваша модель рассматривает "5 минут" и "5 часов" как по существу идентичные, вы утратили способность понимать величину.Мы в основном работаем с моделями, которые игнорируют единицы, несмотря на анализ текста, где единицы определяют, является ли что-то тривиальным или значимым.
Больше проблем с измерениями
Во время использования тех же документов в области здравоохранения я обнаружил, что «опухоль имеет диаметр 2 сантиметра» и «опухоль имеет диаметр 2 дюйма» имеют тревожное сходство 0,98. Для контекста, это разница между потенциально незначительной опухолью и той, которая в 2,54 раза больше – часто порог между «смотри и жди» и немедленной операцией.
Встраивания не могли различать метрические и имперские измерения. Онкологи, исследующие варианты лечения небольших опухолей, показывали случаи гораздо больших ростов.
Даже ограничения скорости путают.Модели относятся к «Поддерживать скорость ниже 30 миль в час» и «Поддерживать скорость ниже 30 км в час» как КЛАСНО СОВРЕМЕННЫЕ – проблемный 0,96 балл сходства.Даже ограничения скорости путают.Модели относятся к «Поддерживать скорость ниже 30 миль в час» и «Поддерживать скорость ниже 30 километров в час» как HIGHLY похожие – проблемный 0,96 балл сходства. Конвертирование между единицами — это не просто математическое упражнение — оно коренным образом меняет рекомендации, параметры безопасности и результаты.Мы в основном работаем с моделями, которые считают, что числа без единиц достаточно, несмотря на анализ текста, где единицы полностью трансформируют смысл. Это сравнение между msmarco-distilbert-base-tas-b, all-mpnet-base-v2 и open-ai-text-embedding-3-large, и вы заметите, что нет существенной разницы между выходом этих моделей.
Правда и результаты
|
---|
***msmarco-distilbert-base-tas-b встраивание баллов в разных случаях испытаний***
***msmarco-distilbert-base-tas-b встраивание баллов по различным испытательным случаям***
|
---|
***All-mpnet-base-v2 встраивание баллов в разных тестах***
***All-mpnet-base-v2 встраивание баллов по различным испытательным случаям***
|
---|
***openai-text-embedding-3-широкий рейтинг встраивания в разных тестах***
***openai-text-embedding-3-большой рейтинг встраивания в разных испытательных случаях***
Просто чтобы повторить..
Посмотрите, встраивания невероятно полезны, несмотря на эти проблемы.Я не выступаю против их использования, а скорее, важно подойти к ним с осторожностью.
-
Тестируйте свою модель на моделях реального языка пользователя перед развертыванием. Не академические показатели, не санитизированные испытательные случаи – реальные примеры того, как ваши пользователи общаются. Мы построили набор инструментов «лингвистический стресс-тест», который имитирует общие вариации, такие как отрицания, типографии и численные различия. Каждая система, которую мы тестируем, не удается в некоторых областях – вопрос в том, имеют ли эти области значение для вашего конкретного приложения.
-
Build guardrails added around critical blind spots. Different applications have different can’t-fail requirements. For healthcare, it’s typically negation
-
Тестируйте свою модель на реальных пользовательских языковых паттернах перед развертыванием.Не академические ориентиры, не санитизированные испытательные случаи – реальные примеры того, как ваши пользователи общаются.Мы построили набор инструментов «лингвистический стресс-тест», который имитирует общие вариации, такие как отрицания, типы и численные различия.Каждая система, которую мы тестируем, не удается в некоторых областях – вопрос в том, имеют ли эти области значение для вашего конкретного приложения.
-
Постройте ограждения вокруг критических слепых точек. Различные приложения имеют разные требования, которые не могут не ошибиться. Для здравоохранения это, как правило, отрицание и точность субъекта. Для финансов это цифры и временные отношения. Для юридических это условия и обязательства. Определите, что абсолютно не может пойти не так в вашем домене, и внедрите специализированные гарантии.
-
Будьте прозрачны с пользователями относительно того, что система может и не может сделать надежно.Мы добавили баллы доверия, которые явно обозначают, когда результат может включать отрицание, численное сравнение или другие потенциальные слабые точки.
Будьте прозрачны с пользователями относительно того, что система может и не может сделать надежно.Мы добавили баллы доверия, которые явно обозначают, когда результат может включать отрицание, численное сравнение или другие потенциальные слабые точки.
** Вот самое важное, что я узнал:**Эти модели не понимают язык так, как это делают люди – они понимают статистические модели.Когда я перестал ожидать человеческого понимания и начал рассматривать их как сложные инструменты для соответствия шаблонам с конкретными слепыми точками, мои системы стали лучше.«Бр»
Слепые пятна, которые я описал, не исчезают в ближайшее время – они запекаются в том, как работают эти модели. но если вы знаете, что они есть, вы можете проектировать вокруг них.
Примечание: У меня есть много других подобных случаев, найденных с помощью экспериментов, и я буду о них рассказывать в следующем посте.
ПримечаниеПримечаниеСледующая статья выйдет в ближайшее время. оставайтесь в курсе!!
Тестируйте свою модель на реальных пользовательских языковых паттернах перед развертыванием.Не академические ориентиры, не санитизированные испытательные случаи – реальные примеры того, как ваши пользователи общаются.Мы построили набор инструментов «лингвистический стресс-тест», который имитирует общие вариации, такие как отрицания, типы и численные различия.Каждая система, которую мы тестируем, не удается в некоторых областях – вопрос в том, имеют ли эти области значение для вашего конкретного приложения.
Постройте ограждения вокруг критических слепых точек. Различные приложения имеют разные требования, которые не могут не ошибиться. Для здравоохранения это, как правило, отрицание и точность субъекта. Для финансов это цифры и временные отношения. Для юридических это условия и обязательства. Идентифицируйте то, что абсолютно не может пойти не так в вашем домене, и реализуйте специализированные гарантии.