Вы калі-небудзь прасілі мадэль штучнага інтэлекту расказаць вам анекдот і атрымлівалі што-небудзь вельмі несмешнае? Нешта накшталт:
Чаму праграмісты аддаюць перавагу цёмны рэжым? Бо святло прыцягвае блашчыц!
Наватарскі. Сапраўды.
Часцей за ўсё гэтыя так званыя жарты, створаныя ІІ, дзіўныя і надзвычай прадказальныя. Прычына? Гэта машына! У іх няма чалавечага кантэксту - усё, што ён бачыць, - гэта шаблоны ў дадзеных, на якіх яны навучаны, і калі мы просім іх расказаць анекдот, яны злучаюць словы на аснове верагоднасці, а не на сапраўднай досціпнасці або камедыйным моманте.
Гэта не ракетабудаванне для таго, хто працуе з штучным інтэлектам, але цікава паглядзець , што робіць яго такім, які ён ёсць . Разумеючы гэта, вы таксама можаце высветліць, як «прасіць» у мадэляў штучнага інтэлекту лепшыя жарты .
Мадэль штучнага інтэлекту (напрыклад, GPT або бот, які распавядае анекдоты) не нараджаецца з пачуццём гумару. Замест гэтага ён вучыцца на тысячах прыкладаў жартаў, узятых з кніг, вэб-сайтаў і размоў. Але замест таго, каб разумець гумар, як мы, ён распазнае статыстычныя заканамернасці.
Вось занадта спрошчаны погляд на тое, як мадэль штучнага інтэлекту можа апрацоўваць структуры жартаў (зусім іншы код, толькі для вашага разумення):
import random setup = ["Why did the chicken cross the road?", "What do you get when you mix AI with a comedian?", "Why don't programmers like nature?"] punchline = ["To get to the other side!", "A neural network with bad timing!", "Too many bugs."] print(random.choice(setup) + " " + random.choice(punchline)) # NOTE: This is oversimplified for easier understanding. # Real AI models don't just randomly select from pre-written jokes. # They use neural networks with billions of parameters to predict # the most likely next words based on patterns in their training data.
Бачыце праблему? Ён распазнае мадэль жарту: спачатку ідзе ўстаноўка, а другім - галоўная лінія; ён не разумее, чаму жарт смешны.
Вынікі мадэляў штучнага інтэлекту, незалежна ад таго, гумарыстычныя ці не, працуюць выключна на статыстычнай верагоднасці . Вялікія моўныя мадэлі, такія як GPT, часта працуюць, прагназуючы найбольш верагоднае статыстычна наступнае слова(я). Гэта выдатна для аўтазапаўнення і стварэння базавага тэксту, але жудасна для арыгінальнага гумару.
Напрыклад, калі штучны інтэлект згенеруе настройку: «Чаму курыца перайшла дарогу?»
Ён прадказвае агульныя адказы для галоўнай лініі. Паколькі найбольш статыстычна верагодным адказам з'яўляецца «перабрацца на той бок», ён часта прывядзе да гэтага, нават калі гэта менш за ўсё смешна.
from collections import Counter jokes_dataset = ["To get to the other side!", "Because it was programmed to!", "To escape the AI overlords!"] probabilities = Counter(jokes_dataset) # chooses the most frequent joke print(probabilities.most_common(1)[0][0])
Вось чаму яны сапраўды прадказальныя і паўтараюцца.
Гумар, у адрозненне ад звычайнага стварэння тэксту, глыбока звязаны з эмоцыямі, чалавечым вопытам і культурай. На жаль, гэта менавіта тое, што ІІ прынцыпова не разумее. Нават з мадэлямі, навучанымі на велізарных аб'ёмах даных, штучнаму інтэлекту цяжка, калі справа даходзіць да:
Нягледзячы на тое, што штучны інтэлект можа распазнаваць звычайныя фарматы жартаў, ён не разумее, чаму нешта смешнае. Як следства, яны занадта стараюцца быць смешнымі.
attempts = ["I'm hilarious, trust me!", "Why did the algorithm break up? It lost its spark!", "What's an AI's favorite drink? Java."] print(random.choice(attempts))
І зноў жа, каго вінаваціць? Гэта машыны, навучаныя на не вельмі законна атрыманых дадзеных. Апошняе, чаго хацелася б інжынерам штучнага інтэлекту, - гэта падаць у суд за навучанне мадэляў штучнага інтэлекту на дадзеных, атрыманых ад стэндап-комікаў.
Каб атрымаць лепшыя жарты ад штучнага інтэлекту, вы павінны быць канкрэтнымі. Раскажыце ў патрэбным вам стылі (магчыма, як чорны гумар Луіса Сі-Кі або сарказм Чандлера Бінга), задайце сцэну і дайце зразумець, які гумар вам патрэбны. Гэта не палепшыла б яго ў 50 разоў, але прынамсі не было б такім простым і жорсткім.
Гэта дасць ІІ аснову для працы. Таму што зараз, без кантэксту і разумення чалавечых эмоцый, усё, што ён можа зрабіць, гэта адгадаць сутнасць - звычайна самым прадказальным, рабатызаваным спосабам.
Гэта ўсяго 700 слоў, рэзюмэ не патрабуецца. Да наступнай сустрэчы!