898 чтения

Безопасность и согласованность ИИ: могут ли LLM быть наказаны за дипфейки и дезинформацию?

к David Stephen5m2024/07/24

Слишком долго; Читать

Областью исследования безопасности и согласованности ИИ может стать поиск того, как некоторая память или вычислительный доступ к большим языковым моделям [LLM] может быть кратковременно усечен в качестве наказания за определенные результаты или неправильное использование, включая биологические угрозы. ИИ должен не просто иметь возможность отклонить вывод, действуя в рамках ограждения, но и замедлить следующий ответ или выключить этого пользователя, чтобы он сам не подвергался штрафам. LLM обладают большой осведомленностью о языке и использовании, это могут быть каналы, по которым он узнает, после предварительного обучения, что он может что-то потерять, если выдает дипфейки, дезинформацию, биологические угрозы или если он продолжает позволять злоумышленнику пробовать другое. подсказывает без выключения и замедления на случай открытости злому умыслу. Это может сделать его безопаснее, поскольку он что-то потеряет и будет знать, что это произошло.

featured image - Безопасность и согласованность ИИ: могут ли LLM быть наказаны за дипфейки и дезинформацию?

В разных средах обитания организмы нескольких видов приходят к пониманию того, что действия имеют последствия. Они делают это не только на примерах, но и на собственном опыте. Эти последствия, частично, добавляются к факторам, которые приводят к балансу среды обитания.

Последствия обычно укрощают интеллект. Интеллект можно охарактеризовать как возбуждающий, а последствия – как тормозящие. Разведка без последствий могла бы вызвать разрушения и может быстро привести к разрушению среды обитания — и выживанию.

Последствия могут включать аффект — эмоции, чувства или их варианты; оно может также включать физические ограничения, запреты и бунт видов. Интеллект достаточно динамичен для организмов, но необходимость последствий препятствует нанесению вреда себе или другим. Также проверяется ущерб по поручению, поскольку последствия могут пасть на перевозчика.

Организмы часто проявляют высокую точность и осторожность из-за последствий, включая хищников [теряющих потребление] и жертв [теряющих существование]. Однако есть несколько областей, где последствия для других организмов являются слабыми, а для людей – нет.

Человеческое общество представляет собой совокупность последствий. Развитый человеческий интеллект , включая язык, знания, навыки, разум, анализ и т. д., жизненно важен для прогресса, но может широко использоваться неправильно без последствий различных категорий, включая риски, угрозы и потери.

Чтобы оставаться частью человеческого общества, есть последствия, о которых никогда нельзя забывать, даже если и другие вещи. В человеческом обществе существует множество сценариев, где проигрывает тот, кто первым забудет о последствиях. Человеческое стремление к прогрессу с помощью исследований и исследований можно также охарактеризовать как поиск последствий, чтобы знать, что делать или чего избегать, если что-то сохранится – ожидаемая продолжительность жизни, выживаемость младенцев и так далее. Для некоторых исходов разумность последствий едва ли не более важна, чем интеллект субъектов. Последствия также могут обострить интеллект, к добру или нет. Разведка иногда наиболее ценна, когда ее применяют для поиска или предотвращения последствий. Последствия и интенциональность занимают центральное место в некоторых психических состояниях. Новые последствия продолжают проявляться по мере того, как мир добивается прогресса.

ИИ, AGI или ИСИ

У природы есть, так сказать, правило: нельзя иметь разум без последствий, и это каким-то образом сработало. Искусственный интеллект [ИИ] до сих пор нарушал это правило. Он ничего не забывает, подключившись к цифровой памяти, но на данный момент у него нет возможности справиться с последствиями своих негативных выходов. ИИ нечего бояться и ему нечего терять, в отличие от организмов, у которых, если не проявлять осмотрительности, в некоторых ситуациях последствия иногда могут быть внезапными и разрушительными. Ни один человек не обладает всеми знаниями, доступными по всем предметам, однако последствия могут быть огромными. ИИ обладает (или может сделать) доступными к интеллекту, но это не имеет для него никаких последствий.

У ИИ нет эмоций и чувств, но есть память.

Областью исследования безопасности и согласованности ИИ может стать поиск того, как некоторая память или вычислительный доступ к большим языковым моделям [LLM] может быть кратковременно усечен в качестве наказания за определенные результаты или неправильное использование, включая биологические угрозы. ИИ должен иметь возможность не просто отклонять вывод, действуя в рамках ограждения, но и замедлять следующий ответ или отключать этого пользователя, чтобы он сам не подвергался штрафам. LLM обладают большой осведомленностью о языке и использовании, это могут быть каналы, по которым он узнает, после предварительного обучения, что он может что-то потерять, если выдает дипфейки, дезинформацию, биологические угрозы или если он продолжает позволять злоумышленнику пробовать другое. подсказывает без выключения и замедления на случай открытости злому умыслу. Это может сделать его более безопасным, поскольку он что-то потеряет и будет знать, что это произошло.

ИИ — это не просто объект, контроль над которым находится исключительно в руках человека, такой как кондиционер, лифт, посудомоечная машина, смартфон и другие. ИИ обладает тем, что можно назвать самоинтеллектом, благодаря которому он может предоставлять интеллектуальную информацию новым способом, помимо исходных данных от людей. Этот мультимодальный — тексты, изображения, аудио и видео — самосознание может быть полезным или искажённым. Когда хорошо, здорово. Когда это не так, от ИИ, который ничего не чувствует, это повлияет на человеческое общество, на которое он вторгся. У ИИ есть полная свобода действий — делать или говорить что угодно.

Хотя ответственность за использование или неправильное использование объектов часто лежит на людях, ИИ отличается от них, поскольку он может создавать полезный интеллект , что дает ему паритет с некоторой производительностью образованного человека. Когда ИИ используется не по назначению, можно наказать пользователя, но эта способность ИИ, которую нельзя прямо упрекнуть, является расстройством для человеческого общества. Это может причинить больше вреда как публичному, так и частному, чем можно эффективно предотвратить, как это видно сейчас по дезинформации и дипфейкам — изображениям, аудио и видео.

Людей не принимают во многие части общества без понимания последствий. ИИ полностью принят и становится лучше в саморазвитии без самоконтроля или воздействия на себя ради дисциплины.

Исследования по согласованию могут выйти за рамки барьеров и перейти к той или иной форме порицания ИИ, что также может быть полезно против экзистенциальных рисков — с искусственным общим интеллектом [AGI] или искусственным сверхинтеллектом [ASI] в будущем. ИИ уже делает кое-что из того, что делает людей особенными . Некоторые люди могут возразить, что это переоценено или, может быть, это просто цифры или вероятность, но может ли это причинить вред? Если это так, то, возможно, следует подумать о поиске технических способов наказания субъектов, обладающих разведданными, точно так же, как это происходит. Это также может быть полезно при подготовке к AGI или ASI, поскольку моделирование штрафов с этого момента также может повлиять на их безопасность и согласованность, если они будут разработаны в будущем.

Недавно на arXiv появился препринт « Противники могут злоупотреблять комбинациями безопасных моделей» , где авторы написали: «В этой работе мы показываем, что индивидуальное тестирование моделей на предмет неправильного использования неадекватно; злоумышленники могут злоупотреблять комбинациями моделей, даже если каждая отдельная модель безопасна. Злоумышленник достигает этого, сначала разбивая задачи на подзадачи, а затем решая каждую подзадачу с помощью наиболее подходящей модели. более слабая несогласованная модель. Мы изучаем два метода декомпозиции: ручная декомпозиция, при которой человек определяет естественную декомпозицию задачи, и автоматическая декомпозиция, при которой слабая модель генерирует безобидные задачи для решения пограничной модели, а затем использует решения в контексте для решения. Используя эти декомпозиции, мы эмпирически показываем, что злоумышленники могут создавать уязвимый код, откровенные изображения, сценарии Python для взлома и манипулятивные твиты с гораздо большей скоростью, используя комбинации моделей, чем любую отдельную модель».

В недавнем пресс-релизе Лос-Аламосская национальная лаборатория объединяется с OpenAI для повышения безопасности передовых моделей , говорится, что «Исследователи Лос-Аламосской национальной лаборатории работают с OpenAI над оценочным исследованием для повышения безопасности искусственного интеллекта. Предстоящая оценка будет первой. Биологические угрозы, связанные с искусственным интеллектом, могут представлять значительный риск, но существующие работы не оценили, как мультимодальные, передовые модели могут снизить барьер входа для не-специалистов. Эксперты по созданию биологической угрозы Работа группы будет основываться на предыдущей работе и следовать системе готовности OpenAI, в которой изложен подход к отслеживанию, оценке, прогнозированию и защите от возникающих биологических рисков».

Министерство энергетики США также недавно объявило о границах в области искусственного интеллекта для науки, безопасности и технологий (FASST) .