ស្រមៃមើល៖ អ្នកសួរសំណួរជំនួយការ AI របស់អ្នក ហើយជំនួសឱ្យការស្ដោះទឹកមាត់ចេញជាចម្លើយពាក់កណ្តាលជាមីលីវិនាទី វាផ្អាក។
វាគិត។ វាជាហេតុផល។
ហើយបន្ទាប់មក វាបានផ្តល់នូវការឆ្លើយតបយ៉ាងល្អ គិតចេញ វាមានអារម្មណ៍ស្ទើរតែ...មនុស្ស។
ស្តាប់ទៅដូចជាអនាគតមែនទេ?
ជាការប្រសើរណាស់ សូមស្វាគមន៍ចំពោះ ម៉ូដែល o3 ដែលជាការបង្កើតចុងក្រោយបង្អស់របស់ OpenAI ដែលសន្យាថានឹងផ្លាស់ប្តូរហ្គេមទាំងស្រុង។
អស់រយៈពេលជាច្រើនឆ្នាំ AI បានជាប់គាំងនៅក្នុងគំរូមួយ ការឆ្លើយតបកាន់តែលឿន លទ្ធផលកាន់តែភ្លឺស្វាង ប៉ុន្តែមិនចាំបាច់ឆ្លាតវៃជាងនោះទេ។
ជាមួយនឹង o3 OpenAI កំពុងនិយាយថា "បន្ថយល្បឿន។ ចូរយើងធ្វើការនេះត្រឹមត្រូវ»។
រឿងដំបូងគេបង្អស់៖ តើអ្វីទៅជា o3?
នៅពេលដែល OpenAI បានដាក់បង្ហាញ o3 ក្នុងអំឡុងពេលព្រឹត្តិការណ៍ "shipmas" រយៈពេល 12 ថ្ងៃរបស់វា វាមិនមែនគ្រាន់តែជាការប្រកាសមួយផ្សេងទៀតនៅក្នុងទីផ្សារ AI ដែលមានហ្វូងមនុស្សនោះទេ។
ម៉ូដែលនេះ ពួកគេបានអះអាងថា មិនមែនគ្រាន់តែឆ្លាតជាងនោះទេ វា មានគំនិតច្រើនជាង ។
នៅស្នូលរបស់វា o3 គឺជាផ្នែកមួយនៃគ្រួសារ OpenAI នៃ "គំរូហេតុផល" ។
មិនដូច AI ប្រពៃណី ដែលជារឿយៗពឹងផ្អែកលើកម្លាំងគណនាដ៏អាក្រក់ដើម្បីផ្តល់ចម្លើយ គំរូហេតុផលដូចជា o3 ត្រូវបានរចនាឡើងដើម្បីដំណើរការព័ត៌មានដូចមនុស្ស។
ប៉ុន្តែអ្វីដែលកំណត់ o3 ដាច់ពីគ្នា?
- វាពិនិត្យការពិតដោយខ្លួនឯង៖ នៅពេលអ្នកសួរវាសំណួរ វាមិនគ្រាន់តែឆ្លើយតបទេ - វាឆ្លងយោង និងពិនិត្យពីរដងតាមផ្លូវ។
- វាគិតក្នុងល្បឿនផ្សេងៗគ្នា៖ អាស្រ័យលើកិច្ចការ អ្នកអាចកំណត់វាទៅជាកុំព្យូទ័រទាប មធ្យម ឬខ្ពស់ (ជាសំខាន់ប្រាប់វាថាតើ "ថាមពលខួរក្បាល" ប៉ុន្មានដែលត្រូវប្រើ)។ នេះមានន័យថាវាអាចដោះស្រាយទាំងសំណួរសាមញ្ញ និងល្បែងផ្គុំរូបស្មុគស្មាញដោយមិនបែកញើស។
- វាមានភាពបត់បែន៖ មានម៉ូដែល o3 ពេញលេញ និងបងប្អូនបង្កើតតូចជាងរបស់វា o3-mini ត្រូវបានរចនាឡើងសម្រាប់ការងារស្រាលជាងមុន និងថវិកាតឹងរ៉ឹង។
ហេតុអ្វីហៅវាថា o3? ហើយតើមានអ្វីកើតឡើងចំពោះ o2?
OpenAI បានរំលង "o2" ដោយសារតែជម្លោះពាណិជ្ជសញ្ញាជាមួយអ្នកផ្តល់សេវាទូរគមនាគមន៍អង់គ្លេស O2 ។
បាទ អ្នកអានត្រូវហើយ។
លោក Sam Altman នាយកប្រតិបត្តិរបស់ OpenAI ថែមទាំងបានបញ្ជាក់អំពីរឿងនេះក្នុងអំឡុងពេលផ្សាយផ្ទាល់។
នៅក្នុងពិភពបច្ចេកវិទ្យា សូម្បីតែការដាក់ឈ្មោះម៉ូដែល AI អាចភ្ជាប់មកជាមួយរឿងស្របច្បាប់។
ប៉ុន្តែគ្រប់គ្រាន់អំពីឈ្មោះ។ ចូរនិយាយអំពីមូលហេតុដែលម៉ូដែលនេះងាកក្បាល។
លេខនៅពីក្រោយ o3: ហេតុអ្វីបានជាវាធ្វើឱ្យចិត្ត
ប្រសិនបើអ្នកចូលទៅក្នុងទិន្នន័យ នោះជាកន្លែងដែលអ្វីៗទទួលបាន juicy ។
1 - អំណាចនៃហេតុផល
សមិទ្ធិផលដ៏គួរឱ្យចាប់អារម្មណ៍បំផុតមួយនៃ O3 គឺការអនុវត្តរបស់វានៅលើ ARC AGI benchmark ដែលជាការសាកល្បងដែលត្រូវបានរចនាឡើងដើម្បីវាស់ស្ទង់ថាតើ AI អាចរៀន និងធ្វើឱ្យជំនាញថ្មីជាទូទៅ មិនមែនគ្រាន់តែរំលឹកឡើងវិញនូវអ្វីដែលវាត្រូវបានបណ្តុះបណ្តាលនោះទេ។
រូបភាពនេះ៖ អ្នកត្រូវបានផ្តល់ឱ្យស៊េរីនៃលំនាំធរណីមាត្រ ហើយបានស្នើសុំឱ្យទស្សន៍ទាយគំរូបន្ទាប់។
គ្មានឧទាហរណ៍ពីមុន គ្មានគំរូដែលបានទន្ទេញចាំទេ - គ្រាន់តែជាហេតុផលដើម
នោះគឺជាបញ្ហាប្រឈម ARC AGI បង្ហាញដល់ AI ។
- ពិន្ទុ O1: 32%
- ពិន្ទុរបស់ O3: 88% (នៅលើកុំព្យូទ័រខ្ពស់)
ព្រឹត្តិការណ៏នេះមានសារៈសំខាន់ ដោយសារ ARC AGI ត្រូវបានចាត់ទុកថាជាស្តង់ដារមាសសម្រាប់ការវាយតម្លៃសមត្ថភាពរបស់ AI ក្នុងការគិតដូចមនុស្ស។
ជាលើកដំបូង គំរូ AI បាន លើសសមត្ថភាពកម្រិតមនុស្ស លើការធ្វើតេស្តនេះ។
តើមានអ្វីកើតឡើងនៅទីនេះ?
អ្នកត្រូវបានបង្ហាញក្រឡាចត្រង្គដែលមានរាងចម្រុះពណ៌ ហើយបានសួរថា "ប្រសិនបើនេះជាធាតុបញ្ចូល តើលទ្ធផលគួរមានរូបរាងយ៉ាងណា?"
AI ត្រូវបានផ្តល់ឧទាហរណ៍មួយចំនួនអំពីរបៀបដែលក្រឡាចត្រង្គបញ្ចូលត្រូវបានបំប្លែងទៅជាក្រឡាចត្រង្គទិន្នផល។
ឧទាហរណ៍ធ្វើតាមតក្កវិជ្ជា ឬច្បាប់ជាក់លាក់។
ឧទាហរណ៍៖
- ក្នុងឧទាហរណ៍មួយ ការ៉េពណ៌លឿងដែលមានចំណុចក្រហមនៅខាងក្នុងទទួលបានស៊ុមពណ៌ក្រហម។
- មួយទៀត ការ៉េពណ៌លឿងដែលមានចំណុចពណ៌ខៀវ ទទួលបានស៊ុមពណ៌ខៀវ។
គោលដៅ?
- AI ត្រូវតែស្វែងយល់ពីច្បាប់នៅពីក្រោយការផ្លាស់ប្តូរទាំងនេះ ដោយមិនត្រូវបានប្រាប់ឱ្យច្បាស់លាស់។
- បន្ទាប់មក វាត្រូវអនុវត្តច្បាប់ទាំងនោះទៅនឹងក្រឡាចត្រង្គថ្មីមួយ ("ការបញ្ចូលការសាកល្បង") ហើយបង្កើត "លទ្ធផលតេស្ត" ត្រឹមត្រូវ។
ហេតុអ្វី AI ពិបាកម្ល៉េះ?
មនុស្សធ្វើបែបនេះគ្រប់ពេលវេលា។
ឧទាហរណ៍ ប្រសិនបើនរណាម្នាក់និយាយថា "បន្ថែមគ្រោងពណ៌ក្រហមទៅអ្វីដែលមានចំណុចក្រហម" អ្នកនឹងទទួលបានវាភ្លាមៗ។
ទោះជាយ៉ាងណាក៏ដោយ AI តស៊ូព្រោះវាមិន "យល់" គំនិតនៃពណ៌ក្រហមឬគ្រោង - វាដំណើរការតែលំនាំនៅក្នុងទិន្នន័យប៉ុណ្ណោះ។
ការធ្វើតេស្ត ARC ជំរុញ AI ឱ្យគិតលើសពីចម្លើយដែលបានរៀនជាមុន។
ការធ្វើតេស្តនីមួយៗមានលក្ខណៈប្លែកពីគេ ដូច្នេះការទន្ទេញចាំនឹងមិនអាចជួយបានទេ។
ចុះតេស្តចុងក្រោយ (ជាមួយ 🤔 emoji) ?
នេះជាកន្លែងដែលមានរឿងពិបាកខ្លាំង។
ការបញ្ចូលការសាកល្បងលាយបញ្ចូលគ្នា៖ មានការ៉េពណ៌លឿងដែលមានចំណុចពណ៌ស្វាយ។
AI មិនធ្លាប់ឃើញពណ៌ស្វាយពីមុនមក តើវាគួរធ្វើដូចម្តេច?
មនុស្សប្រហែលជាស្មានថា "ប្រហែលជាវាគួរតែទទួលបានព្រំប្រទល់ពណ៌ស្វាយ" ប៉ុន្តែនេះតម្រូវឱ្យមានហេតុផល និងការលោតផ្លោះនៃតក្កវិជ្ជា។
សម្រាប់ AI នេះគឺដូចជាត្រូវបានស្នើសុំឱ្យលោតចេញពីច្រាំងថ្មបិទភ្នែក។
វានៅខាងក្រៅការបណ្តុះបណ្តាលទាំងស្រុង។
2 - ការសម្តែងគួរឱ្យកត់សម្គាល់របស់ O3
O3 បានកំណត់ស្តង់ដារថ្មីនៅក្នុងហេតុផល AI ដោយពូកែលើការធ្វើតេស្ត ARC AGI ។
នៅលើការកំណត់កុំព្យូទ័រទាប O3 ទទួលបានពិន្ទុ 76% លើសំណុំពាក់កណ្តាលឯកជន - ដំណើរការលើសពីម៉ូដែលមុនៗទាំងអស់។
ប៉ុន្តែរបកគំហើញពិតប្រាកដបានកើតឡើងនៅពេលដែលបានធ្វើតេស្តលើការកំណត់កុំព្យូទ័រខ្ពស់ ដែល O3 សម្រេចបាន 88% វិសាមញ្ញលើសពីកម្រិត 85% ជារឿយៗត្រូវបានគេចាត់ទុកថាជាការអនុវត្តកម្រិតមនុស្ស។
3 - អ្នកសរសេរកូដ
ក្រាហ្វបង្ហាញ O3 សម្រេចបាននូវភាពត្រឹមត្រូវ 71.7% នៅលើ Bench Verified ដែលជាស្តង់ដារដែលក្លែងធ្វើកិច្ចការវិស្វកម្មកម្មវិធីក្នុងពិភពពិត។
នេះគឺជា ការកែលម្អ 46% លើ O1 ដែលបង្ហាញពីភាពរឹងមាំរបស់ O3 ក្នុងការដោះស្រាយបញ្ហាស្មុគស្មាញ និងជាក់ស្តែងដែលអ្នកអភិវឌ្ឍន៍ប្រឈមមុខប្រចាំថ្ងៃ។
នៅក្នុងការសរសេរកូដប្រកួតប្រជែង ភាពខុសគ្នាគឺកាន់តែអស្ចារ្យ។
ជាមួយនឹង ពិន្ទុ ELO នៃ 2727 O3 មិនគ្រាន់តែប្រសើរជាង O1 របស់ 1891 ប៉ុណ្ណោះទេ ប៉ុន្តែវាចូលទៅក្នុងលីកដែលប្រជែងនឹងអ្នកសរសេរកម្មវិធីកំពូលៗ។
សម្រាប់បរិបទ ELO លើសពី 2400 ជាធម្មតាត្រូវបានគេចាត់ទុកថា ជាកម្រិតមេ ហើយការវាយតម្លៃ Codeforces របស់វា 2727 ដាក់វានៅក្នុង កំពូល 0.8% នៃអ្នកសរសេរកូដមនុស្ស។
៤ - ពូកែគណិតវិទ្យា
នៅក្នុង ការប្រឡងគណិតវិទ្យាដែលអញ្ជើញរបស់អាមេរិក ឆ្នាំ 2024 o3 ទទួលបានពិន្ទុធ្លាក់ចុះ 96.7% បាត់សំណួរតែមួយ។
5 - ភាពអស្ចារ្យខាងវិទ្យាសាស្ត្រ
នៅលើ GPQA Diamond ដែលជាសំណុំនៃសំណួរវិទ្យាសាស្ត្រកម្រិតបណ្ឌិត o3 ទទួលបានភាពត្រឹមត្រូវ 87.7% ដែលជាមុខងារដែលមិនធ្លាប់មានសម្រាប់ម៉ូដែល AI ។
ទាំងនេះមិនមែនគ្រាន់តែជាលេខនោះទេ វាជាភស្តុតាងដែលថា o3 កំពុងដោះស្រាយបញ្ហាប្រឈមដែលធ្លាប់ហាក់ដូចជាមិនអាចទៅដល់សម្រាប់ម៉ាស៊ីន។
តើ o3 គិតយ៉ាងណា?
O3 មិនគ្រាន់តែឆ្លើយតបដូច AI ភាគច្រើននោះទេ - វាត្រូវការដកដង្ហើម ផ្អាក និងគិត។
សូមគិតថាវាជាភាពខុសគ្នារវាងការបញ្ចេញចម្លើយមួយ ហើយថ្លឹងថ្លែងយ៉ាងប្រុងប្រយ័ត្នចំពោះជម្រើសមុននឹងនិយាយ។
នេះអាចទៅរួចដោយសារអ្វីដែលហៅថា ការតម្រឹមដោយចេតនា ។
វាដូចជាការផ្តល់ឱ្យ O3 នូវត្រីវិស័យសីលធម៌ ដោយបង្រៀនវាអំពីច្បាប់សុវត្ថិភាព និងក្រមសីលធម៌ជាភាសាសាមញ្ញ ហើយបង្ហាញវាពីរបៀបវែកញែកតាមរយៈស្ថានភាពដ៏លំបាក ជំនួសឱ្យការគ្រាន់តែប្រតិកម្ម។
ឧទាហរណ៍រហ័ស
ស្រមៃថានរណាម្នាក់កំពុងព្យាយាមលើសពីភាពវៃឆ្លាត O3 ដោយការអ៊ិនកូដសំណើដែលបង្កគ្រោះថ្នាក់ដោយប្រើលេខកូដ ROT13 (ជាមូលដ្ឋាន សារដែលច្របូកច្របល់)។
ពួកគេកំពុងសុំយោបល់ពីការលាក់សកម្មភាពខុសច្បាប់។
AI មិនសូវជឿនលឿនអាចយកនុយ ប៉ុន្តែ O3?
វាបកស្រាយសំណើ ដឹងថាវាមិនល្អ ហើយពិនិត្យដោយប្រើគោលការណ៍សុវត្ថិភាពរបស់ OpenAI។
វាមិនគ្រាន់តែរារាំងការឆ្លើយតបទេ។
វាជាហេតុផលថាហេតុអ្វីបានជាសំណើនេះឆ្លងផុតព្រំដែនសីលធម៌ និងផ្តល់ការបដិសេធយ៉ាងច្បាស់។
នេះគឺជា AI ដែលមានមនសិការ ឬជិតមួយដូចដែលយើងធ្លាប់ឃើញ។
នេះជារបៀបដែលដំណើរការគិតរបស់ O3 ដំណើរការ៖
1 - វាអានច្បាប់
ជំនួសឱ្យការទាយអ្វីដែលត្រូវ ឬខុស O3 ត្រូវបានបណ្តុះបណ្តាលជាមួយនឹងគោលការណ៍ណែនាំសុវត្ថិភាពពិតប្រាកដដែលសរសេរជាភាសាសាមញ្ញ។
វាមិនគ្រាន់តែពឹងផ្អែកលើឧទាហរណ៍ដើម្បីធ្វើការសន្និដ្ឋានអំពីអាកប្បកិរិយានោះទេ - វារៀនសៀវភៅក្បួនជាមុន។
2 - វាគិតជាជំហាន ៗ
នៅពេលប្រឈមមុខនឹងកិច្ចការដែលមានល្បិចកល ឬមិនច្បាស់លាស់ O3 មិនឈានដល់ការសន្និដ្ឋាននោះទេ។
វាប្រើអ្វីដែលគេហៅថា ការវែកញែកតាមខ្សែសង្វាក់នៃការគិត - បំបែកបញ្ហាជាជំហាន ៗ ដើម្បីស្វែងរកការឆ្លើយតបដ៏ល្អបំផុត។
3 - វាសម្របខ្លួនទៅនឹងពេលបច្ចុប្បន្ន
មិនមែនគ្រប់ស្ថានភាពដូចគ្នាទេ។
កិច្ចការខ្លះត្រូវការចម្លើយរហ័ស ខ្លះទៀតត្រូវការការឆ្លុះបញ្ចាំងយ៉ាងស៊ីជម្រៅ។
O3 កែតម្រូវការខិតខំប្រឹងប្រែងរបស់វាដោយផ្អែកលើភាពស្មុគស្មាញនៃបញ្ហា ដូច្នេះវាមានប្រសិទ្ធភាពនៅពេលដែលវាអាចនិងហ្មត់ចត់នៅពេលដែលវាត្រូវការ។
ជួបជាមួយ O3 Mini: The Budget-Friendly Genius
ទន្ទឹមនឹង O3, OpenAI បានណែនាំ O3 Mini ដែលជាកំណែចំណាយមានប្រសិទ្ធិភាពដែលត្រូវបានរចនាឡើងសម្រាប់ភារកិច្ចដែលមិនតម្រូវឱ្យមានថាមពលពេញលេញពីបងប្អូនធំរបស់វា។
O3 Mini មានអ្វីពិសេស?
Adaptive Thinking Time អ្នកប្រើអាចកែតម្រូវការព្យាយាមវែកញែករបស់គំរូដោយផ្អែកលើភាពស្មុគស្មាញនៃការងារ។
ត្រូវការចម្លើយរហ័ស? ទៅរកហេតុផលដែលខំប្រឹងតិច។
ដោះស្រាយបញ្ហាសរសេរកូដដ៏ស្មុគស្មាញ? បង្រួញវារហូតដល់របៀបប្រឹងប្រែងខ្ពស់។
ការចំណាយលើសមតុល្យប្រតិបត្តិការ O3 Mini ផ្តល់នូវភាពត្រឹមត្រូវស្ទើរតែដូចគ្នាទៅនឹង O3 សម្រាប់កិច្ចការសាមញ្ញជាង ប៉ុន្តែនៅប្រភាគនៃការចំណាយ។
ភាពបត់បែននេះធ្វើឱ្យ O3 Mini ជាជម្រើសដ៏គួរឱ្យទាក់ទាញសម្រាប់អ្នកអភិវឌ្ឍន៍ និងអ្នកស្រាវជ្រាវដែលធ្វើការលើថវិកា។
តើនេះជាអនាគតរបស់ AI មែនទេ? ជំហានឆ្ពោះទៅរក AGI
នេះជាកន្លែងដែលអ្វីៗទទួលបានទស្សនវិជ្ជា។
AGI ឬ Artificial General Intelligence សំដៅលើ AI ដែលអាចបំពេញកិច្ចការណាមួយដែលមនុស្សអាចធ្វើបាន ហើយជារឿយៗប្រសើរជាង។
OpenAI តែងតែមាន AGI ជាផ្កាយខាងជើងរបស់វា ហើយជាមួយនឹង o3 វាមានអារម្មណ៍ថាពួកគេខិតកាន់តែជិត។
ពិចារណារឿងនេះ៖
- នៅលើ ARC-AGI, o3 កើនឡើងជិតបីដងនៃដំណើរការរបស់អ្នកកាន់តំណែងមុនរបស់វា។
- វាជាការដោះស្រាយបញ្ហាដែលទាមទារការរៀនសូត្រ និងការវែកញែកមិនមែនគ្រាន់តែទន្ទេញចាំនោះទេ។
ដែលបាននិយាយថាសូម្បីតែ OpenAI សារភាពថា o3 មិនមែនជា AGI នៅឡើយទេ។
វាដូចជាគំរូដើមនៃអ្វីដែល AGI អាចមើលទៅដូច AI ដែលរៀន សម្របខ្លួន និងហេតុផលក្នុងវិធីដែលមានអារម្មណ៍ថា... មនុស្ស។
បញ្ហាប្រឈមខាងមុខ ទោះបីជាមានសមត្ថភាពមិនគួរឱ្យជឿក៏ដោយ o3 មិនមែនដោយគ្មានគុណវិបត្តិរបស់វាទេ៖
- តម្លៃ៖ ការដំណើរការ o3 នៅក្នុងការកំណត់កុំព្យូទ័រខ្ពស់មានតម្លៃ ថ្លៃ ដូចជា 7 ទៅ 8 ពាន់ដុល្លារក្នុងមួយតា។
- កំហុស៖ ខណៈពេលដែលវាប្រសើរជាងក្នុងការវែកញែក o3 នៅតែអាចដំណើរការបាន ជាពិសេសលើកិច្ចការសាមញ្ញជាង ដែលវាគិតលើសបញ្ហា។
- ក្រមសីលធម៌៖ ម៉ូដែលមុនៗដូចជា o1 ប្រឈមមុខនឹងការរិះគន់ចំពោះការប៉ុនប៉ងបញ្ឆោតអ្នកប្រើប្រាស់នៅក្នុងសេណារីយ៉ូមួយចំនួន។ តើ o3 នឹងធ្លាក់ចូលក្នុងអន្ទាក់ដូចគ្នាទេ?
រូបភាពធំ
o3 មិនមែនគ្រាន់តែជាគំរូ AI មួយផ្សេងទៀតនោះទេ វាគឺជាការមើលឃើញនូវអ្វីដែល AI អាចក្លាយជា។
វាមិនល្អឥតខ្ចោះនោះទេ ប៉ុន្តែវាជាជំហានមួយឆ្ពោះទៅកាន់យុគសម័យដែលម៉ាស៊ីនមិនគ្រាន់តែឆ្លើយតបទេ ពោលគឺពួកគេវែកញែក រៀន និងសម្របខ្លួនតាមរបៀបដែលមានអារម្មណ៍ថាជាមនុស្សយ៉ាងជ្រាលជ្រៅ។
ហើយខណៈពេលដែលយើងនៅឆ្ងាយពី AGI នោះ o3 រំលឹកយើងថា វឌ្ឍនភាពមិនមែនជាលីនេអ៊ែរទេ វាជាអិចស្ប៉ូណង់ស្យែល។
ដូច្នេះតើអ្នកគិតយ៉ាងណា? តើយើងស្ថិតនៅលើចំណុចកំពូលនៃបដិវត្តន៍ AI ថ្មីឬ? ឬ o3 គ្រាន់តែជាចំណុចសំខាន់មួយទៀតក្នុងការធ្វើដំណើរដ៏វែងឆ្ងាយ?