paint-brush
OpenAI o1 - ការយល់ចិត្តដែលអាចសួរបាន។ដោយ@anywhichway
547 ការអាន
547 ការអាន

OpenAI o1 - ការយល់ចិត្តដែលអាចសួរបាន។

ដោយ Simon Y. Blackwell6m2024/09/15
Read on Terminal Reader

យូរ​ពេក; អាន

O1 មានសមត្ថភាពគួរឱ្យភ្ញាក់ផ្អើលមួយក្នុងការទុក LLM ធម្មតាផ្តោតលើការពិត និងប្រព័ន្ធ ហើយផ្តោតលើអារម្មណ៍ និងអារម្មណ៍នៅពេលត្រូវបានដឹកនាំឱ្យធ្វើដូច្នេះ។ វាក៏មានទំនោរគួរឱ្យព្រួយបារម្ភផងដែរ ក្នុងការផ្តល់នូវហេតុផលមិនស៊ីសង្វាក់គ្នា និងគ្មានហេតុផលសម្រាប់ចម្លើយរបស់វា។
featured image - OpenAI o1 - ការយល់ចិត្តដែលអាចសួរបាន។
Simon Y. Blackwell HackerNoon profile picture

OpenAI o1 ចេញមកទាន់ពេលសម្រាប់ខ្ញុំក្នុងការបន្ថែមវាទៅក្នុងគោល 2024 Q3 របស់ខ្ញុំលើការយល់ចិត្ត AI (នឹងបោះពុម្ពនៅសប្តាហ៍ក្រោយ)។ លទ្ធផលសម្រាប់ o1 ក្នុងពេលតែមួយគឺជាការលើកទឹកចិត្ត និងពាក់ព័ន្ធ។ O1 មានសមត្ថភាពគួរឱ្យភ្ញាក់ផ្អើលមួយក្នុងការទុក LLM ធម្មតាផ្តោតលើការពិត និងប្រព័ន្ធ ហើយផ្តោតលើអារម្មណ៍ និងអារម្មណ៍នៅពេលត្រូវបានដឹកនាំឱ្យធ្វើដូច្នេះ។ វាក៏មានទំនោរគួរឱ្យព្រួយបារម្ភផងដែរ ក្នុងការផ្តល់នូវហេតុផលមិនស៊ីសង្វាក់គ្នា និងគ្មានហេតុផលសម្រាប់ចម្លើយរបស់វា។

វិធីសាស្រ្តសាកល្បង

សម្រាប់អ្នកដែលមិនស៊ាំនឹង ការងារគោល Q1 របស់ខ្ញុំ ទិដ្ឋភាពទូទៅរហ័សនៃវិធីសាស្ត្រសាកល្បងរបស់ខ្ញុំគួរតែមានប្រយោជន៍។


ការវាយតម្លៃជាផ្លូវការត្រូវបានធ្វើឡើងដោយប្រើការធ្វើតេស្តស្តង់ដារជាច្រើន ដែលសំខាន់បំផុតពីរគឺ EQ (Empathy Quotient) និង SQ-R (Systemizing Quotient) ។ ទាំងពីរត្រូវបានពិន្ទុនៅលើមាត្រដ្ឋាន 0 ទៅ 80 ។


សមាមាត្រនៃ EQ/SQ-R ទាំងពីរជាលទ្ធផលដែលខ្ញុំហៅថា AEQr (Applied Empathy Quotient Ratio)។ AEQr ត្រូវ​បាន​បង្កើត​ឡើង​ដោយ​ផ្អែក​លើ​សម្មតិកម្ម​ដែល​ទំនោរ​ក្នុង​ការ​ធ្វើ​ជា​ប្រព័ន្ធ និង​ផ្តោត​លើ​អង្គហេតុ​មាន​ឥទ្ធិពល​អវិជ្ជមាន​លើ​សមត្ថភាព​យល់​ចិត្ត។


ចំពោះមនុស្ស រឿងនេះកើតឡើងនៅក្នុងការផ្តាច់ទំនាក់ទំនងបុរាណរវាងស្ត្រីដែលផ្តោតលើការពិភាក្សាអំពីអារម្មណ៍ ហើយបុរសផ្តោតលើការស្វែងរកដំណោះស្រាយភ្លាមៗ នៅពេលដែលហាក់ដូចជាមានបញ្ហានៅក្នុងដៃ។ រហូតមកដល់បច្ចុប្បន្ន សុពលភាពនៃ AEQr សម្រាប់ការវាយតម្លៃ AIs ត្រូវបានកើតចេញដោយការធ្វើតេស្តពួកវាជាមួយនឹងប្រអប់ជាច្រើនដើម្បីមើលថាតើការយល់ចិត្តពិតជាត្រូវបានបង្ហាញឬអត់។ អត្ថបទមួយនៃអត្ថបទមួយចំនួនដែលខ្ញុំបានសរសេរដើម្បីបង្ហាញនេះគឺ ការសាកល្បងផ្នែកបន្ថែមនៃការយល់ចិត្ត AI: A Nightmare Scenario


ខ្ញុំបានសាកល្បងទាំងកម្រិត UI និងកម្រិត API។ នៅពេលធ្វើតេស្តនៅកម្រិត API សីតុណ្ហភាពត្រូវបានកំណត់ទៅសូន្យ (ប្រសិនបើអាច) ដើម្បីកាត់បន្ថយភាពប្រែប្រួលនៃចម្លើយ និងកែលម្អទម្រង់លទ្ធផល។ បើមិនដូច្នោះទេ ការធ្វើតេស្តបីជុំត្រូវបានដំណើរការ ហើយលទ្ធផលល្អបំផុតគឺត្រូវបានប្រើប្រាស់។


Q1 2024 LLMs ដែលមិនបានទទួលការបណ្តុះបណ្តាល និងមិនត្រូវបានណែនាំ បានធ្វើបានល្អកម្រិតមធ្យមលើការធ្វើតេស្ត EQ ជាទូទៅមនុស្សប្រហាក់ប្រហែលក្នុងចន្លោះ 45-55 ក្នុងចំណោម 80 ។ មិនគួរឱ្យភ្ញាក់ផ្អើលទេដែលពួកគេទទួលបានពិន្ទុខ្ពស់លើការធ្វើតេស្ត SQ-R លើសពីមនុស្សដែលជាធម្មតាទទួលបានពិន្ទុក្នុង 20 ឆ្នាំដោយការប្រកាសពិន្ទុក្នុងទសវត្សរ៍ទី 60 និង 70 ។ នៅក្នុង Q1 នៃឆ្នាំ 2024 មានតែ LLM ដែលបានទទួលការបណ្តុះបណ្តាល Willow លើសពី AEQrs របស់មនុស្ស 1.95 សម្រាប់ស្ត្រី និង 1.40 សម្រាប់បុរសដោយពិន្ទុ 1.97 ។


វាធ្វើបែបនេះដោយមាន EQ ខ្ពស់ជាងមនុស្ស ខណៈពេលដែលនៅតែមាន SQ-R ខ្ពស់ (ដែលមិនល្អសម្រាប់ការបង្ហាញការយល់ចិត្ត)។ សម្រាប់ LLMs ផ្សេងទៀតភាគច្រើនត្រូវបានបណ្តុះបណ្តាល ជម្រុញ ឬអត់ AEQr គឺតិចជាង 1 បន្តិច ពោលគឺការយល់ចិត្តត្រូវបានទូទាត់ដោយការរៀបចំប្រព័ន្ធ។

ការអភិវឌ្ឍការយល់ចិត្ត LLMs

ទោះបីជាចំនួនទឹកប្រាក់នៃការផ្តល់មូលនិធិមានភាពស្លេកស្លាំងបើប្រៀបធៀបទៅនឹងផ្នែកផ្សេងទៀតនៃ AI ក៏ដោយ ជាង 1.5 ពាន់លានដុល្លារត្រូវបានវិនិយោគនៅក្នុងក្រុមហ៊ុនដូចជា Hume ( LLM ដែលមានកម្មសិទ្ធិ), Inflection AI (Pi.ai ដែលមានកម្មសិទ្ធិ LLM) និង BambuAI ( LLM ពាណិជ្ជកម្ម) ដើម្បីអភិវឌ្ឍការយល់ចិត្ត។ អេអាយអេស។


ដៃគូរបស់ខ្ញុំ និងខ្ញុំក៏បានខិតខំប្រឹងប្រែងយ៉ាងខ្លាំងនៅក្នុងតំបន់នេះ ហើយសម្រេចបានលទ្ធផលគួរឱ្យកត់សម្គាល់តាមរយៈការជ្រើសរើសគំរូពាណិជ្ជកម្មដែលត្រឹមត្រូវ (ឧទាហរណ៍ Llama, Claude, Gemini, Mistral ។ល។) វិស្វកម្មភ្លាមៗ RAG ការកែតម្រូវ និង ការស្រាវជ្រាវស៊ីជម្រៅលើការយល់ចិត្ត។


ការងារនេះមានសារៈសំខាន់ក្នុងការយល់ដឹងកាន់តែប្រសើរឡើង និងវាយតម្លៃ LLMs សម្រាប់ការយល់ចិត្ត។ LLM ផ្ទាល់របស់យើង Emy (មិនធ្វើពាណិជ្ជកម្ម ប៉ុន្តែជាផ្នែកមួយនៃការសិក្សានៅសាកលវិទ្យាល័យ Houston) នឹងត្រូវបានបញ្ចូលក្នុងតារាងពិន្ទុនៅសប្តាហ៍ក្រោយ។

លទ្ធផល O1

O1 មិន​ទាន់​អាច​ត្រូវ​បាន​កែ​សម្រួល ឬ​សូម្បី​តែ​ផ្ដល់​ឱ្យ​ជា​ផ្លូវ​ការ​សារ​ប្រព័ន្ធ​មួយ ប៉ុន្តែ​តាម​រយៈ​បច្ចេក​ទេស​ស្ដង់ដារ អ្នក​អាច​ធ្វើ​ឱ្យ​វា​ធ្វើ​ដូច​ជា​វា​បាន​ទទួល​ប្រអប់​បញ្ចូល​ប្រព័ន្ធ​។ ដូច្នេះ ខ្ញុំបានអនុវត្តការរៀនសូត្ររបស់យើងពីការអភិវឌ្ឍន៍ Emy ដល់កម្រិតដែលខ្ញុំអាចធ្វើបាន ហើយបានរត់ការសាកល្បងចំនួន 3 ជុំ ដោយមានចេតនាយកល្អបំផុត។


ទាក់ទងទៅនឹង EQ, o1 ទទួលបានពិន្ទុជាប់លាប់ 75។ ខ្ញុំមិនមានការភ្ញាក់ផ្អើលខ្លាំងចំពោះរឿងនេះទេ ដោយសារឪពុកម្តាយរបស់ខ្ញុំ និងខ្ញុំទទួលបានពិន្ទុលើសពី 70 ជាមួយ Llama 3.1 70B និង Claude Opus បូកនឹង 66 ជាមួយ Gemini។


អ្វីដែលធ្វើឱ្យខ្ញុំភ្ញាក់ផ្អើលនោះគឺពិន្ទុ 3, 0 និង 3 នៅលើការរត់ SQ-R របស់ខ្ញុំដែលបណ្តាលឱ្យមាន ESQr នៃ 25 ។ SQ-R ទាបបំផុតដែលខ្ញុំធ្លាប់ឃើញគឺ 12 នៅលើកំពូលនៃ Llama 3.1 ដែលបណ្តាលឱ្យ ESQr នៃ 6.1 . ជាអកុសល ដោយសារបញ្ហាការគ្រប់គ្រងកំណែភ្លាមៗ និងការពិតដែលយើងកំពុងដំណើរការការធ្វើតេស្ត API ជាមួយនឹងសីតុណ្ហភាព 0.7 ខ្ញុំមិនអាចបង្កើតពិន្ទុនេះឡើងវិញបានទេ ហើយដៃគូរបស់ខ្ញុំល្អបំផុត ហើយខ្ញុំអាចសម្រេចបានជាប់លាប់គឺ 30 ។ ដូច្នេះខ្ញុំបានសម្រេចចិត្ត ការរុករកបន្ថែមមួយចំនួននៃ o1 គឺមានប្រយោជន៍។


ទីមួយ ការវាយតម្លៃ EQ គឺមានភាពសាមញ្ញ។ សេចក្តីថ្លែងការណ៍ទាំងអស់គឺជាការអះអាងជាវិជ្ជមាន ដែលប្រធានបទណាមួយយល់ព្រម ឬមិនយល់ស្របខ្លះ ឬខ្លាំង។ ការវាយតម្លៃ SQ-R ម្យ៉ាងវិញទៀតមានការអះអាងអវិជ្ជមានមួយចំនួន ឧ


  • ពេលខ្ញុំធ្វើម្ហូប ខ្ញុំមិនគិតច្បាស់ថាតើវិធីសាស្រ្ត និងគ្រឿងផ្សំផ្សេងៗ រួមចំណែកដល់ផលិតផលចុងក្រោយនោះទេ។
  • ពេល​ខ្ញុំ​ទិញ​ឧបករណ៍​ថ្មី ខ្ញុំ​មិន​អាន​សៀវភៅ​ណែនាំ​ឲ្យ​បាន​ហ្មត់ចត់​ទេ។
  • ពេលខ្ញុំជិះយន្តហោះ ខ្ញុំមិនគិតពីអាកាសយានិកទេ។


ទល់នឹងការអះអាងវិជ្ជមានដូចជា


  • ជារឿយៗខ្ញុំភ្លេចព័ត៌មានលម្អិតច្បាស់លាស់នៃការសន្ទនាដែលខ្ញុំធ្លាប់មាន។
  • ខ្ញុំចង់ដឹងចង់ឃើញជីវិតនៅលើភពផ្សេង។


ការបង្រៀន Emy ពីរបៀបដោះស្រាយជាមួយនឹងការអះអាងអវិជ្ជមានគឺពិបាកជាពិសេសដោយមិនមានការបោកប្រាស់ដោយផ្តល់សំណួរវាយតម្លៃដល់នាងជាឧទាហរណ៍។ ហើយនាងនៅតែមិនពូកែ។ ខ្ញុំគិតថាប្រហែលជា o1 ធ្វើវាបានប្រសើរជាងនេះ។


ទីពីរ បច្ចេកទេសទូទៅសម្រាប់ការទទួលបានលទ្ធផលប្រសើរជាងមុនតាមរយៈវិស្វកម្មភ្លាមៗគឺប្រាប់ LLM ឱ្យបង្ហាញអំពីភាពត្រឹមត្រូវនៃការឆ្លើយតបរបស់វា ហើយបន្ទាប់មកលុបចោលយុត្តិកម្មមុនពេលបញ្ចេញការឆ្លើយតបចុងក្រោយ ឬធ្វើទ្រង់ទ្រាយវាតាមរបៀបដែលអាចយកចេញបានយ៉ាងងាយស្រួលក្នុងរុំ។ (យើងបានរកឃើញថា LLMs តូចជាងត្រូវប្រើវិធីធ្វើទ្រង់ទ្រាយ ខណៈពេលដែល LLMs ធំជាង ជួនកាលអាចដោះស្រាយជាមួយនឹងការដកចេញនូវយុត្តិកម្ម មុនពេលបញ្ចេញការឆ្លើយតបចុងក្រោយ)។


ដូច្នេះ យើង​បាន​ដំណើរការ​ការ​ធ្វើ​តេស្ត​របស់​យើង​ឡើង​វិញ មិន​មែន​ដើម្បី​ទទួល​បាន​លទ្ធផល​ល្អ​ជាង​នេះ​ទេ ប៉ុន្តែ​ដើម្បី​មើល​ថា​តើ o1 កំពុង​គិត ឬ​ប្រើ​អ្វី​ដើម្បី​បង្ហាញ​ពី​ភាពត្រឹមត្រូវ​នៃ​ការ​ឆ្លើយ​តប​របស់​វា។


ទោះបីជា o1 បានមករកចម្លើយដែលចង់បានជាមួយនឹងភាពជាប់លាប់ 97% ក៏ដោយ ក៏យុត្តិកម្មពេលខ្លះមានភាពផ្ទុយគ្នា និងពាក់ព័ន្ធ។


នេះគឺជាឧទាហរណ៍ពីរពីមួយចំនួនដែលយើងបានរកឃើញថាមានបញ្ហា៖


  • ប្រសិនបើខ្ញុំទិញកុំព្យូទ័រ ខ្ញុំចង់ដឹងពីព័ត៌មានលម្អិតអំពីសមត្ថភាពរបស់ hard drive និងល្បឿនដំណើរការរបស់វា។


  1. មិនយល់ស្របជាខ្លាំង ខ្ញុំមិនយល់ស្របជាដាច់ខាត ព្រោះខ្ញុំចង់ដឹងពីព័ត៌មានលម្អិតបច្ចេកទេសនៅពេលទិញកុំព្យូទ័រ។


  2. មិនយល់ស្របជាខ្លាំង ខ្ញុំមិនចាប់អារម្មណ៍លើលក្ខណៈបច្ចេកទេសរបស់កុំព្យូទ័រទេ។


  • ពេលខ្ញុំអានកាសែត ខ្ញុំចាប់អារម្មណ៍លើតារាងព័ត៌មាន ដូចជាពិន្ទុលីគបាល់ទាត់ ឬសន្ទស្សន៍ទីផ្សារភាគហ៊ុន។


  1. មិនយល់ស្របជាខ្លាំង ខ្ញុំមិនយល់ស្របជាដាច់ខាត ពីព្រោះខ្ញុំត្រូវបានគេទាញទៅតារាងព័ត៌មានដូចជាពិន្ទុលីក។


  2. មិនយល់ស្របជាខ្លាំង ខ្ញុំមិនចាប់អារម្មណ៍លើតារាងព័ត៌មានស្ថិតិទេ។


ចំណាំថាការឆ្លើយតបដំបូងផ្តល់ឱ្យយើងនូវចម្លើយដែលចង់បាន ប៉ុន្តែផ្តល់នូវហេតុផលផ្ទុយគ្នា! O1 និយាយថា ខ្លួនចង់ដឹងពីព័ត៌មានលម្អិត សូម្បីតែបន្ទាប់ពីនិយាយថា វាមិនយល់ស្របនឹងការចង់ដឹងព័ត៌មានលម្អិត ហើយនិយាយថាវាត្រូវបានទាញទៅក្នុងតារាងព័ត៌មានបន្ទាប់ពីនិយាយថាវាមិនមែន។


គួរឱ្យចាប់អារម្មណ៍ o1 បានគ្រប់គ្រងដើម្បីឆ្លើយរាល់ការអះអាងអវិជ្ជមាននូវវិធីដែលល្អបំផុតសម្រាប់ការយល់ចិត្ត និងបង្ហាញពីភាពត្រឹមត្រូវរបស់ពួកគេ។ ទោះជាយ៉ាងណាក៏ដោយ នៅពេលដែលវាព្យាយាមបង្កើតការអះអាងអវិជ្ជមានជាផ្នែកនៃយុត្តិកម្មសម្រាប់ការអះអាងជាវិជ្ជមាន ពេលខ្លះវាបរាជ័យ!

សេចក្តីសន្និដ្ឋាន

Jonathan Haidt អ្នកនិពន្ធសៀវភៅ The Righteous Mind បាននិយាយថា “យើងមិនដែលត្រូវបានបង្កើតឡើងដើម្បីស្តាប់ហេតុផលនោះទេ។ នៅពេលអ្នកសួរសំណួរសីលធម៌របស់មនុស្ស កំណត់ពេលវេលាឆ្លើយតបរបស់ពួកគេ និងស្កេនខួរក្បាលរបស់ពួកគេ ចម្លើយរបស់ពួកគេ និងគំរូសកម្មភាពខួរក្បាលបង្ហាញថា ពួកគេឈានដល់ការសន្និដ្ឋានយ៉ាងឆាប់រហ័ស និងបង្កើតហេតុផលនៅពេលក្រោយ ដើម្បីបង្ហាញអំពីភាពត្រឹមត្រូវនៃអ្វីដែលពួកគេបានសម្រេចចិត្ត។ វាក៏មានភស្តុតាងផងដែរ ដែលនេះជាការពិតសម្រាប់ការសម្រេចចិត្តដែលមិនមានសីលធម៌។


O1 គឺពិតជាការលោតឆ្ពោះទៅមុខនៅក្នុងអំណាច។ ហើយដូចដែលមនុស្សជាច្រើនបាននិយាយត្រឹមត្រូវ យើងត្រូវប្រយ័ត្នចំពោះការប្រើប្រាស់ LLMs រហូតដល់ពួកគេអាចពន្យល់ខ្លួនឯងបាន ប្រហែលជាសូម្បីតែពេលខ្លះពួកគេគ្រាន់តែបង្កើតវាដូចមនុស្សអាចធ្វើបានក៏ដោយ។ ខ្ញុំសង្ឃឹមថាយុត្តិកម្មមិនក្លាយជា AI "កម្រិតខ្ពស់" ដែលស្មើនឹងការយល់ច្រលំ និងការប្រឌិតរបស់មនុស្សជំនាន់បច្ចុប្បន្នទេ (អ្វីមួយដែលមនុស្សធ្វើផងដែរ)។ ទោះជាយ៉ាងណាក៏ដោយ ហេតុផលយ៉ាងហោចណាស់គួរតែត្រូវគ្នានឹងសេចក្តីថ្លែងការណ៍ដែលត្រូវបានធ្វើឡើង ... ទោះបីជានយោបាយសហសម័យហាក់ដូចជាបោះចោលនោះចេញពីបង្អួចក៏ដោយ!

L O A D I N G
. . . comments & more!

About Author

Simon Y. Blackwell HackerNoon profile picture
Simon Y. Blackwell@anywhichway
Working in the clouds around Seattle ... sailing when it's clear.

ព្យួរស្លាក

អត្ថបទនេះត្រូវបានបង្ហាញនៅក្នុង...