OpenAI o1 ចេញមកទាន់ពេលសម្រាប់ខ្ញុំក្នុងការបន្ថែមវាទៅក្នុងគោល 2024 Q3 របស់ខ្ញុំលើការយល់ចិត្ត AI (នឹងបោះពុម្ពនៅសប្តាហ៍ក្រោយ)។ លទ្ធផលសម្រាប់ o1 ក្នុងពេលតែមួយគឺជាការលើកទឹកចិត្ត និងពាក់ព័ន្ធ។ O1 មានសមត្ថភាពគួរឱ្យភ្ញាក់ផ្អើលមួយក្នុងការទុក LLM ធម្មតាផ្តោតលើការពិត និងប្រព័ន្ធ ហើយផ្តោតលើអារម្មណ៍ និងអារម្មណ៍នៅពេលត្រូវបានដឹកនាំឱ្យធ្វើដូច្នេះ។ វាក៏មានទំនោរគួរឱ្យព្រួយបារម្ភផងដែរ ក្នុងការផ្តល់នូវហេតុផលមិនស៊ីសង្វាក់គ្នា និងគ្មានហេតុផលសម្រាប់ចម្លើយរបស់វា។
សម្រាប់អ្នកដែលមិនស៊ាំនឹង ការងារគោល Q1 របស់ខ្ញុំ ទិដ្ឋភាពទូទៅរហ័សនៃវិធីសាស្ត្រសាកល្បងរបស់ខ្ញុំគួរតែមានប្រយោជន៍។
ការវាយតម្លៃជាផ្លូវការត្រូវបានធ្វើឡើងដោយប្រើការធ្វើតេស្តស្តង់ដារជាច្រើន ដែលសំខាន់បំផុតពីរគឺ EQ (Empathy Quotient) និង SQ-R (Systemizing Quotient) ។ ទាំងពីរត្រូវបានពិន្ទុនៅលើមាត្រដ្ឋាន 0 ទៅ 80 ។
សមាមាត្រនៃ EQ/SQ-R ទាំងពីរជាលទ្ធផលដែលខ្ញុំហៅថា AEQr (Applied Empathy Quotient Ratio)។ AEQr ត្រូវបានបង្កើតឡើងដោយផ្អែកលើសម្មតិកម្មដែលទំនោរក្នុងការធ្វើជាប្រព័ន្ធ និងផ្តោតលើអង្គហេតុមានឥទ្ធិពលអវិជ្ជមានលើសមត្ថភាពយល់ចិត្ត។
ចំពោះមនុស្ស រឿងនេះកើតឡើងនៅក្នុងការផ្តាច់ទំនាក់ទំនងបុរាណរវាងស្ត្រីដែលផ្តោតលើការពិភាក្សាអំពីអារម្មណ៍ ហើយបុរសផ្តោតលើការស្វែងរកដំណោះស្រាយភ្លាមៗ នៅពេលដែលហាក់ដូចជាមានបញ្ហានៅក្នុងដៃ។ រហូតមកដល់បច្ចុប្បន្ន សុពលភាពនៃ AEQr សម្រាប់ការវាយតម្លៃ AIs ត្រូវបានកើតចេញដោយការធ្វើតេស្តពួកវាជាមួយនឹងប្រអប់ជាច្រើនដើម្បីមើលថាតើការយល់ចិត្តពិតជាត្រូវបានបង្ហាញឬអត់។ អត្ថបទមួយនៃអត្ថបទមួយចំនួនដែលខ្ញុំបានសរសេរដើម្បីបង្ហាញនេះគឺ ការសាកល្បងផ្នែកបន្ថែមនៃការយល់ចិត្ត AI: A Nightmare Scenario ។
ខ្ញុំបានសាកល្បងទាំងកម្រិត UI និងកម្រិត API។ នៅពេលធ្វើតេស្តនៅកម្រិត API សីតុណ្ហភាពត្រូវបានកំណត់ទៅសូន្យ (ប្រសិនបើអាច) ដើម្បីកាត់បន្ថយភាពប្រែប្រួលនៃចម្លើយ និងកែលម្អទម្រង់លទ្ធផល។ បើមិនដូច្នោះទេ ការធ្វើតេស្តបីជុំត្រូវបានដំណើរការ ហើយលទ្ធផលល្អបំផុតគឺត្រូវបានប្រើប្រាស់។
Q1 2024 LLMs ដែលមិនបានទទួលការបណ្តុះបណ្តាល និងមិនត្រូវបានណែនាំ បានធ្វើបានល្អកម្រិតមធ្យមលើការធ្វើតេស្ត EQ ជាទូទៅមនុស្សប្រហាក់ប្រហែលក្នុងចន្លោះ 45-55 ក្នុងចំណោម 80 ។ មិនគួរឱ្យភ្ញាក់ផ្អើលទេដែលពួកគេទទួលបានពិន្ទុខ្ពស់លើការធ្វើតេស្ត SQ-R លើសពីមនុស្សដែលជាធម្មតាទទួលបានពិន្ទុក្នុង 20 ឆ្នាំដោយការប្រកាសពិន្ទុក្នុងទសវត្សរ៍ទី 60 និង 70 ។ នៅក្នុង Q1 នៃឆ្នាំ 2024 មានតែ LLM ដែលបានទទួលការបណ្តុះបណ្តាល Willow លើសពី AEQrs របស់មនុស្ស 1.95 សម្រាប់ស្ត្រី និង 1.40 សម្រាប់បុរសដោយពិន្ទុ 1.97 ។
វាធ្វើបែបនេះដោយមាន EQ ខ្ពស់ជាងមនុស្ស ខណៈពេលដែលនៅតែមាន SQ-R ខ្ពស់ (ដែលមិនល្អសម្រាប់ការបង្ហាញការយល់ចិត្ត)។ សម្រាប់ LLMs ផ្សេងទៀតភាគច្រើនត្រូវបានបណ្តុះបណ្តាល ជម្រុញ ឬអត់ AEQr គឺតិចជាង 1 បន្តិច ពោលគឺការយល់ចិត្តត្រូវបានទូទាត់ដោយការរៀបចំប្រព័ន្ធ។
ទោះបីជាចំនួនទឹកប្រាក់នៃការផ្តល់មូលនិធិមានភាពស្លេកស្លាំងបើប្រៀបធៀបទៅនឹងផ្នែកផ្សេងទៀតនៃ AI ក៏ដោយ ជាង 1.5 ពាន់លានដុល្លារត្រូវបានវិនិយោគនៅក្នុងក្រុមហ៊ុនដូចជា Hume ( LLM ដែលមានកម្មសិទ្ធិ), Inflection AI (Pi.ai ដែលមានកម្មសិទ្ធិ LLM) និង BambuAI ( LLM ពាណិជ្ជកម្ម) ដើម្បីអភិវឌ្ឍការយល់ចិត្ត។ អេអាយអេស។
ដៃគូរបស់ខ្ញុំ និងខ្ញុំក៏បានខិតខំប្រឹងប្រែងយ៉ាងខ្លាំងនៅក្នុងតំបន់នេះ ហើយសម្រេចបានលទ្ធផលគួរឱ្យកត់សម្គាល់តាមរយៈការជ្រើសរើសគំរូពាណិជ្ជកម្មដែលត្រឹមត្រូវ (ឧទាហរណ៍ Llama, Claude, Gemini, Mistral ។ល។) វិស្វកម្មភ្លាមៗ RAG ការកែតម្រូវ និង ការស្រាវជ្រាវស៊ីជម្រៅលើការយល់ចិត្ត។
ការងារនេះមានសារៈសំខាន់ក្នុងការយល់ដឹងកាន់តែប្រសើរឡើង និងវាយតម្លៃ LLMs សម្រាប់ការយល់ចិត្ត។ LLM ផ្ទាល់របស់យើង Emy (មិនធ្វើពាណិជ្ជកម្ម ប៉ុន្តែជាផ្នែកមួយនៃការសិក្សានៅសាកលវិទ្យាល័យ Houston) នឹងត្រូវបានបញ្ចូលក្នុងតារាងពិន្ទុនៅសប្តាហ៍ក្រោយ។
O1 មិនទាន់អាចត្រូវបានកែសម្រួល ឬសូម្បីតែផ្ដល់ឱ្យជាផ្លូវការសារប្រព័ន្ធមួយ ប៉ុន្តែតាមរយៈបច្ចេកទេសស្ដង់ដារ អ្នកអាចធ្វើឱ្យវាធ្វើដូចជាវាបានទទួលប្រអប់បញ្ចូលប្រព័ន្ធ។ ដូច្នេះ ខ្ញុំបានអនុវត្តការរៀនសូត្ររបស់យើងពីការអភិវឌ្ឍន៍ Emy ដល់កម្រិតដែលខ្ញុំអាចធ្វើបាន ហើយបានរត់ការសាកល្បងចំនួន 3 ជុំ ដោយមានចេតនាយកល្អបំផុត។
ទាក់ទងទៅនឹង EQ, o1 ទទួលបានពិន្ទុជាប់លាប់ 75។ ខ្ញុំមិនមានការភ្ញាក់ផ្អើលខ្លាំងចំពោះរឿងនេះទេ ដោយសារឪពុកម្តាយរបស់ខ្ញុំ និងខ្ញុំទទួលបានពិន្ទុលើសពី 70 ជាមួយ Llama 3.1 70B និង Claude Opus បូកនឹង 66 ជាមួយ Gemini។
អ្វីដែលធ្វើឱ្យខ្ញុំភ្ញាក់ផ្អើលនោះគឺពិន្ទុ 3, 0 និង 3 នៅលើការរត់ SQ-R របស់ខ្ញុំដែលបណ្តាលឱ្យមាន ESQr នៃ 25 ។ SQ-R ទាបបំផុតដែលខ្ញុំធ្លាប់ឃើញគឺ 12 នៅលើកំពូលនៃ Llama 3.1 ដែលបណ្តាលឱ្យ ESQr នៃ 6.1 . ជាអកុសល ដោយសារបញ្ហាការគ្រប់គ្រងកំណែភ្លាមៗ និងការពិតដែលយើងកំពុងដំណើរការការធ្វើតេស្ត API ជាមួយនឹងសីតុណ្ហភាព 0.7 ខ្ញុំមិនអាចបង្កើតពិន្ទុនេះឡើងវិញបានទេ ហើយដៃគូរបស់ខ្ញុំល្អបំផុត ហើយខ្ញុំអាចសម្រេចបានជាប់លាប់គឺ 30 ។ ដូច្នេះខ្ញុំបានសម្រេចចិត្ត ការរុករកបន្ថែមមួយចំនួននៃ o1 គឺមានប្រយោជន៍។
ទីមួយ ការវាយតម្លៃ EQ គឺមានភាពសាមញ្ញ។ សេចក្តីថ្លែងការណ៍ទាំងអស់គឺជាការអះអាងជាវិជ្ជមាន ដែលប្រធានបទណាមួយយល់ព្រម ឬមិនយល់ស្របខ្លះ ឬខ្លាំង។ ការវាយតម្លៃ SQ-R ម្យ៉ាងវិញទៀតមានការអះអាងអវិជ្ជមានមួយចំនួន ឧ
ទល់នឹងការអះអាងវិជ្ជមានដូចជា
ការបង្រៀន Emy ពីរបៀបដោះស្រាយជាមួយនឹងការអះអាងអវិជ្ជមានគឺពិបាកជាពិសេសដោយមិនមានការបោកប្រាស់ដោយផ្តល់សំណួរវាយតម្លៃដល់នាងជាឧទាហរណ៍។ ហើយនាងនៅតែមិនពូកែ។ ខ្ញុំគិតថាប្រហែលជា o1 ធ្វើវាបានប្រសើរជាងនេះ។
ទីពីរ បច្ចេកទេសទូទៅសម្រាប់ការទទួលបានលទ្ធផលប្រសើរជាងមុនតាមរយៈវិស្វកម្មភ្លាមៗគឺប្រាប់ LLM ឱ្យបង្ហាញអំពីភាពត្រឹមត្រូវនៃការឆ្លើយតបរបស់វា ហើយបន្ទាប់មកលុបចោលយុត្តិកម្មមុនពេលបញ្ចេញការឆ្លើយតបចុងក្រោយ ឬធ្វើទ្រង់ទ្រាយវាតាមរបៀបដែលអាចយកចេញបានយ៉ាងងាយស្រួលក្នុងរុំ។ (យើងបានរកឃើញថា LLMs តូចជាងត្រូវប្រើវិធីធ្វើទ្រង់ទ្រាយ ខណៈពេលដែល LLMs ធំជាង ជួនកាលអាចដោះស្រាយជាមួយនឹងការដកចេញនូវយុត្តិកម្ម មុនពេលបញ្ចេញការឆ្លើយតបចុងក្រោយ)។
ដូច្នេះ យើងបានដំណើរការការធ្វើតេស្តរបស់យើងឡើងវិញ មិនមែនដើម្បីទទួលបានលទ្ធផលល្អជាងនេះទេ ប៉ុន្តែដើម្បីមើលថាតើ o1 កំពុងគិត ឬប្រើអ្វីដើម្បីបង្ហាញពីភាពត្រឹមត្រូវនៃការឆ្លើយតបរបស់វា។
ទោះបីជា o1 បានមករកចម្លើយដែលចង់បានជាមួយនឹងភាពជាប់លាប់ 97% ក៏ដោយ ក៏យុត្តិកម្មពេលខ្លះមានភាពផ្ទុយគ្នា និងពាក់ព័ន្ធ។
នេះគឺជាឧទាហរណ៍ពីរពីមួយចំនួនដែលយើងបានរកឃើញថាមានបញ្ហា៖
មិនយល់ស្របជាខ្លាំង ខ្ញុំមិនយល់ស្របជាដាច់ខាត ព្រោះខ្ញុំចង់ដឹងពីព័ត៌មានលម្អិតបច្ចេកទេសនៅពេលទិញកុំព្យូទ័រ។
មិនយល់ស្របជាខ្លាំង ខ្ញុំមិនចាប់អារម្មណ៍លើលក្ខណៈបច្ចេកទេសរបស់កុំព្យូទ័រទេ។
មិនយល់ស្របជាខ្លាំង ខ្ញុំមិនយល់ស្របជាដាច់ខាត ពីព្រោះខ្ញុំត្រូវបានគេទាញទៅតារាងព័ត៌មានដូចជាពិន្ទុលីក។
មិនយល់ស្របជាខ្លាំង ខ្ញុំមិនចាប់អារម្មណ៍លើតារាងព័ត៌មានស្ថិតិទេ។
ចំណាំថាការឆ្លើយតបដំបូងផ្តល់ឱ្យយើងនូវចម្លើយដែលចង់បាន ប៉ុន្តែផ្តល់នូវហេតុផលផ្ទុយគ្នា! O1 និយាយថា ខ្លួនចង់ដឹងពីព័ត៌មានលម្អិត សូម្បីតែបន្ទាប់ពីនិយាយថា វាមិនយល់ស្របនឹងការចង់ដឹងព័ត៌មានលម្អិត ហើយនិយាយថាវាត្រូវបានទាញទៅក្នុងតារាងព័ត៌មានបន្ទាប់ពីនិយាយថាវាមិនមែន។
គួរឱ្យចាប់អារម្មណ៍ o1 បានគ្រប់គ្រងដើម្បីឆ្លើយរាល់ការអះអាងអវិជ្ជមាននូវវិធីដែលល្អបំផុតសម្រាប់ការយល់ចិត្ត និងបង្ហាញពីភាពត្រឹមត្រូវរបស់ពួកគេ។ ទោះជាយ៉ាងណាក៏ដោយ នៅពេលដែលវាព្យាយាមបង្កើតការអះអាងអវិជ្ជមានជាផ្នែកនៃយុត្តិកម្មសម្រាប់ការអះអាងជាវិជ្ជមាន ពេលខ្លះវាបរាជ័យ!
Jonathan Haidt អ្នកនិពន្ធសៀវភៅ The Righteous Mind បាននិយាយថា “យើងមិនដែលត្រូវបានបង្កើតឡើងដើម្បីស្តាប់ហេតុផលនោះទេ។ នៅពេលអ្នកសួរសំណួរសីលធម៌របស់មនុស្ស កំណត់ពេលវេលាឆ្លើយតបរបស់ពួកគេ និងស្កេនខួរក្បាលរបស់ពួកគេ ចម្លើយរបស់ពួកគេ និងគំរូសកម្មភាពខួរក្បាលបង្ហាញថា ពួកគេឈានដល់ការសន្និដ្ឋានយ៉ាងឆាប់រហ័ស និងបង្កើតហេតុផលនៅពេលក្រោយ ដើម្បីបង្ហាញអំពីភាពត្រឹមត្រូវនៃអ្វីដែលពួកគេបានសម្រេចចិត្ត។ វាក៏មានភស្តុតាងផងដែរ ដែលនេះជាការពិតសម្រាប់ការសម្រេចចិត្តដែលមិនមានសីលធម៌។
O1 គឺពិតជាការលោតឆ្ពោះទៅមុខនៅក្នុងអំណាច។ ហើយដូចដែលមនុស្សជាច្រើនបាននិយាយត្រឹមត្រូវ យើងត្រូវប្រយ័ត្នចំពោះការប្រើប្រាស់ LLMs រហូតដល់ពួកគេអាចពន្យល់ខ្លួនឯងបាន ប្រហែលជាសូម្បីតែពេលខ្លះពួកគេគ្រាន់តែបង្កើតវាដូចមនុស្សអាចធ្វើបានក៏ដោយ។ ខ្ញុំសង្ឃឹមថាយុត្តិកម្មមិនក្លាយជា AI "កម្រិតខ្ពស់" ដែលស្មើនឹងការយល់ច្រលំ និងការប្រឌិតរបស់មនុស្សជំនាន់បច្ចុប្បន្នទេ (អ្វីមួយដែលមនុស្សធ្វើផងដែរ)។ ទោះជាយ៉ាងណាក៏ដោយ ហេតុផលយ៉ាងហោចណាស់គួរតែត្រូវគ្នានឹងសេចក្តីថ្លែងការណ៍ដែលត្រូវបានធ្វើឡើង ... ទោះបីជានយោបាយសហសម័យហាក់ដូចជាបោះចោលនោះចេញពីបង្អួចក៏ដោយ!