AI بمقابله انسان - ایا ماشین دمخه غوره دی؟

که تاسو د LLM فعالیت اندازه کولو لپاره کارول شوي مشهور معیارونه چیک کړئ ، نو تاسو شاید داسې احساس وکړئ چې AI ډیر هوښیار دی.

دا یو عادلانه سطحي تاثیر دی؛ په هرصورت، ایا AI واقعیا د ادراکي کارونو لپاره د اوسط انسان څخه غوره دی؟

فرنټیر ماډلونه لکه د OpenAI څخه o1 او د انټروپیک څخه کلاډ 3.5 سونیټ په یو شمیر برخو کې د ماهرو انسانانو په پرتله ښه فعالیت کوي ، پشمول د قانون ، کوډینګ او ریاضي. بیا ولې ChatGPT نشي کولی ځینې ساده ځایي استدلال دندې یا ځینې احمقانه چال پوښتنې حل کړي؟ ښه، موږ لاهم د "لوی ژبو ماډلونو" په اړه خبرې کوو - دوی یو ټن لیکونه اخلي او هڅه کوي وړاندوینه وکړي چې د ورکړل شوي پوښتنې لپاره کوم لیکونه توی شي.

په یاد ولرئ، چې په دې معادله کې هیڅ ځای د "فکر" یادونه نه ده شوې. ماډلونه د یو ډول سټوچیسټیک طوطي دي ، ځکه چې دوی هڅه کوي د دوی د روزنې ډیټا سیټ څخه سم معلومات ترلاسه کړي د دې پرځای چې واقعیا ستاسو پوښتنې ته پام وکړي. لږترلږه، دا قضیه وه تر هغه چې OpenAI o1-preview خپور کړ، مګر وروسته په دې اړه نور.

د هغو کسانو په منځ کې چې د موجوده LLM معیارونو په اړه یې د مطابقت لپاره پوښتنې پیل کړې د "AI تشریح شوي" یو مشهور یوټیوب چینل لیکوال دی چې زه یې لوی پرستار یم. فیلیپ (د YouTuber نوم) ولیدل چې د صنعت معیاري معیارونه د پوښتنو روښانه سټایل لري چې ډیری یې په عامه توګه شتون لري. دا پدې مانا ده چې نه یوازې دا دقیقې پوښتنې د روزنې ډیټاسیټ برخه کیدی شي ، مګر د معیاري کیدو له امله ، د ماډلونو لپاره د عمومي روزنې ډیټا څخه نمونې موندل او پلي کول اسانه دي.

په ساده ډول ووایاست ، د AI څیړونکي چې د پام وړ پیچلي ټیک رامینځته کوي یقینا کولی شي د بنچمارک کولو دمخه د دوی ماډل ته اړوند پوښتنې او ځوابونه د "یاد ساتلو" لپاره یوه لاره ومومي.

هلته د غوره ماډل پایلو ته په کتلو سره، د OpenAI څخه o1، یو څوک دا معنی لري چې دا په ډیری مسلکي ډومینونو کې له اوسط څخه پورته نمرې لري. او دا ریښتیا ده، مګر دا پایله د اړوندو روزنیزو معلوماتو او د دې ځانګړو برخو څخه د تیرو مثالونو شتون پورې اړه لري. ما غلط مه کوئ، ماډلونه اوس د درسي کتاب پوښتنو ته د درسي کتاب ځوابونو په ورکولو کې حیرانتیا لري، او دا پخپله خورا اغیزمن دی.

که څه هم د "مصنوعي هوښیارتیا" اصطلاح یوازې د معلوماتو ترلاسه کولو څخه یو څه ډیر څه معنی لري؛ پدې کې باید یو څه ریښتیني فکر شامل وي. نو د پورته ټولو اغیزمنو شمیرو لپاره منطقي تعقیب دا دی چې ایا دا ډول "AI" کولی شي یو پیچلي دلیل ته ځواب ووایی؟ پوښتنه دا ده چې ایا دا کوم ځایي هوښیارتیا لري یا دا په عامو ټولنیزو سناریوګانو کې ښه حرکت کولی شي؟

د مخکې ټاکل شوي ځوابونو سره د ساحې ځانګړي پوښتنو برخلاف ، هغه ستونزې چې انسانان یې هره ورځ حل کوي ډیری وختونه د طبیعي ژبې هاخوا شرایطو پوهیدو ته اړتیا لري (کوم یوازینی شی دی چې LLM لري).

پورته په ساده بنچمارک کې لوړ نمرې کونکي دي ، کوم چې د LLMs پوښتنې وړاندې کوي چې یو اوسط سړی به لږ وګڼي مګر ماډلونه لاهم نشي کولی ځواب ورکړي. موږ عادت شوي یو چې AI په ازموینو یا ځانګړي معیارونو کې د اوسط انسان په پرتله خورا ښه کار کوي ، مګر دلته ، د غوره ماډل فعالیت واقعیا یوازې د اوسط انسان 83.7٪ په پرتله یوازې 41.7٪ (o1-preview) دی. دا بنچمارک د 200 څو انتخابي متن پوښتنې کاروي چې په ځایي - لنډمهاله استدلال، ټولنیز استخباراتو، او چال پوښتنو تمرکز کوي.

د بنچمارک ترټولو مهمه ځانګړتیا دا ده چې دا پوښتنې په عامه توګه شتون نلري، نو د AI لابراتوارونه نشي کولی یوازې د دوی د روزنې معلوماتو کې اضافه کړي. تاسو کولی شئ د دې بنچمارک په اړه نور معلومات دلته زده کړئ.

د LLM فعالیت اندازه کولو لپاره دا نوې تګلاره ښیې چې ټول ماډلونه لاهم د اوسط انساني استدلال وړتیا څخه څومره لرې دي. هرڅومره ژر چې دا تشه په راتلونکو میاشتو کې وتړل شي ، زموږ سرلیک ته "هو" ځواب خورا روښانه کیږي. د لیدو لپاره یو په زړه پوری نوی میټریک که تاسو لیواله یاست مګر د AI په اړه محتاط یاست.

AI بمقابله انسان - ایا ماشین دمخه غوره دی؟

ډېر اوږد؛ لوستل

About Author

hang tags

دا مقاله په کې وړاندې شوې وه...

Categories

Trending Topics

AI بمقابله انسان - ایا ماشین دمخه غوره دی؟

ډېر اوږد؛ لوستل

About Author

hang tags

دا مقاله په کې وړاندې شوې وه...

اړوندې کیسې

Categories

Trending Topics