582 საკითხავი
582 საკითხავი

You Don’t Own Your Data, But AI Does—and That’s the Problem

მიერ Laszlo Fazekas8m2025/04/14
Read on Terminal Reader

Ძალიან გრძელი; Წაკითხვა

აღმოაჩინეთ, თუ როგორ blockchain შეიძლება დაეხმაროს decentralizing და démocratising AI მეშვეობით Open Data, decentralized storage, და საზოგადოება-მუშავებული governance.
featured image - You Don’t Own Your Data, But AI Does—and That’s the Problem
Laszlo Fazekas HackerNoon profile picture

არ არის მხოლოდ ის, რომ ჩვენი ინსტრუმენტები და პროგრამული უზრუნველყოფა უფრო განიცდიან - ეს არის, რომ ჩვენ დაიწყოთ პროგრამული უზრუნველყოფის განვითარებას სრულიად ახალი გზა.


რა თქმა უნდა, ეს არის ცოდნა, რადგან არ იყო ნაბიჯული ცვლილება ჰარტერული ან პროგრამული უზრუნველყოფა. ჩვენი პროგრამები ჯერ კიდევ იყენებენ ციფრული CPUs და GPUs, და ისინი ჯერ კიდევ წერილი ტრადიციული პროგრამული ენებზე, როგორიცაა Python. ასე რომ, რა არის რეკლუზიური ცვლილება?


მნიშვნელოვანია, რომ შეამოწმოთ დიდი ენის მოდელები, როგორიცააGPT-2 საწყისიდაგროკები, or Meta’s წერილიერთ-ერთი სასიამოვნო რამ არის, თუ როგორ არის ეს კოდი საკმარისი და საკმაოდ მარტივი – რაც შეუზღუდავი, იმიტომ, რომ ამ მოდელები სარგებლობენ ფართო ცოდნა და პრობლემების გადაწყვეტილებების ინტელექტურობას. ეს არის, როდესაც ჩვენ იწყებთ ნამდვილად შეინახოთ, რატომ ეს არის ნამდვილი რეკლამა, და რატომ შეგვიძლია ვთქვა, რომ პროგრამული უზრუნველყოფის განვითარება ძირითადად განსხვავებულია.


ეს არის

ხელოვნური ინტელექტურობის სისტემაში, runtime კოდი არის მხოლოდ ნედლეული ნაწილი სისტემაში - რეალური ცოდნა და ინტელექტურობა მოდის მონაცემთა კომპლექტი, რომელიც გამოიყენება სასწავლო. მონაცემები არის ახალი წყარო კოდი!

ეს არის

ხელოვნური ინტელექტურობის სისტემაში, runtime კოდი არის მხოლოდ ნომერი ნაწილი სისტემა - რეალური ცოდნა და ინტელექტურობა მოდის მონაცემთა კომპლექტი, რომელიც გამოიყენება სასწავლო.Data is the new source code!


ეს არის ის მიზეზი, რომ ეს ახალი ფორმა პროგრამული უზრუნველყოფა გამოიყენებაპროგრამული უზრუნველყოფა 2.0Andrej Karpathy - და მე ვფიქრობ, რომ ეს ძალიან ხელმისაწვდომი სახელი.

Open Source ≠ Open Source

არსებობს რამდენიმე უფასოდ ხელმისაწვდომი open-source მოდელები, რომ ვინმეს შეუძლია ჩამოტვირთვა, გაშვება, ან თარგმნა. მაგალითები მოიცავს LLaMA, Grok, და ბოლოში ბევრი განიხილული ჩინური მოდელი DeepSeek.


ეს მოდელები ჩვეულებრივ შედგება რამდენიმე Python ფაილი და რამდენიმე დიდი წონა მატრიზები (თუ თითოეული რამდენიმე gigabytes ზომა). მიუხედავად იმისა, რომ ეს არის ფაქტი, რომ ეს მოდელები შეიძლება შემდგომი განვითარება - ფინალატრირებული, კანტიზებული, distilled და ა.შ. - ისინი ჯერ კიდევ არ შეიძლება ნამდვილად ითვლება open-source კლასიკური მნიშვნელობა. ეს არის, რადგან ჩვენ არ გვაქვს ხელმისაწვდომი მონაცემთა კომპლექტი, რომელიც გამოიყენება მათ სასწავლო.


უკეთესი არის, რომ ამ სახელწოდებსopen-weight modelsვიდრე open-source მოდელები, რადგან ნამდვილად ღირებულ კომპონენტები - სასწავლო მონაცემები - მდებარეობს გამოქვეყნებელი კომპანიებს (Meta, xAI და ა.შ.).


ეს არის

True open-source AI შექმნილია Open Data- ზე.

ეს არის

True open-source AI შექმნილია Open Data- ზე.


ვინ არის მონაცემების მფლობელი?

დიდი ენის მოდელები ჩვეულებრივ შექმნილია პირველი შექმნა aFoundation მოდელი, რომელიც შემდეგ მორგებულია კონკრეტული მიზნით (გალითად, ჩატი, როგორც ChatGPT- ში). ეს საფუძველზე მოდელი მზადდება ადამიანების წარმოებული მონაცემებით და ფართოდ ხელმისაწვდომია - საიტებზე, წიგნები, YouTube ვიდეოები და სოციალური მედია. იმის გამო, რომ ამ მონაცემთა ფართოობა ჩვენი საერთო მუშაობის შედეგია, გონივლება იქნება, რომ ამ მონაცემთა კომპლექტი გაქირავდეს საზოგადოებრივი დონეზე, უფასოდ ხელმისაწვდომი ყველასთვის.


ამ მიზეზით, მრავალი მომსახურება სპეციფიკურად აირჩიეს, რომ AI მოდელის განვითარებლები არ გამოიყენონ მათი შინაარსი.


პირდაპირი, მე არ შეესაბამება ამ მიმოხილვა, რადგან მე ვფიქრობ, რომ ეს შეუზღუდავი პროგნოზი.fair-use modelრომელიც საშუალებას გაძლევთ პოპულარულად ხელმისაწვდომი მონაცემების გამოყენებას AI ტრენინგიში – ამ პირობით, რომ მიღებული მონაცემთა კომპლექტი და მოდელი უნდა იყოს უფასოდ ხელმისაწვდომი.


მიუხედავად იმისა, რომ ამავე დროს არ არსებობს ამგვარი სამართლებრივი რუკა და არ არსებობს ინტენსიურობა AI კომპანიებს შექმნათ ნამდვილად open-source მოდელები, ეს პასუხისმგებლობა მოიცავს საზოგადოებას.

Decentralized Storage – იდეალური სახლი Open Datasets

ეს არ არის მინიმალური კითხვა, რადგან მსოფლიოში სხვადასხვა რეგიონებში ადამიანების შორის მნიშვნელოვანია ემოციური და კულტურული განსხვავება. ამ მიზეზით, არ არის შესაძლებელი შექმნათ ერთი მონაცემთა სერტიფიკაცია საზოგადოებრივ ხელმისაწვდომი გლობალური ცოდნაგან, რომელიც ყველას შეესაბამება. გარდა ამისა, მნიშვნელოვანია, რომ ასეთი მონაცემთა სერტიფიკაცია არ არის ვინმე, რომ ხელმისაწვდომი არ შეიძლება იყოს შეზღუდული, რომ მონაცემები არ შეიძლება შეუზღუდავი იყოს, და რომ ვინმეს არ აქვს ძალა ეს სენსორებას.


ამ სტრატეგიების მიხედვით, საუკეთესო ვარიანტი არის შეუზღუდავი დეტალური შენახვის სისტემა, როგორიცაა:IPFSანEthereum Swarmეს გადაწყვეტილებები გამოიყენებენ შინაარსის მისამართი (და შემთხვევაში, თუ მონაცემთა მისამართი არის მისი შინაარსის ქსელი), რაც უძრავი შინაარსის შეცვალოს თითქმის არ არის შესაძლებელი. შენახვა განთავსებულია მრავალი ნომრები, რათა უზრუნველყოს უსაფრთხო და სენსორაციის წინააღმდეგობის ხელმისაწვდომობა, სადაც მონაცემთა ხელმისაწვდომობა არ შეიძლება შეზღუდოთ.


ეს სისტემები აქვს კიდევ ერთი ძალიან სასარგებლო ფუნქცია: ისინი შეინახავს შინაარსი ბლოკებში. იმის გამო, რომ შინაარსი ბლოკების მისამართი იწყება მისი ჰაზში, თუ იგივე ბლოკს აჩვენებს მრავალი ფაილი, იგი მხოლოდ ერთხელ უნდა შეინახოთ. ამ გზით, ორივე IPFS და Swarm მუშაობს მსგავსიGit repository, სადაც ვერსიაფიკაცია ავტომატურია, და forking იაფი. ეს არის იდეალური შემთხვევაში, როდესაც ჩვენ გსურთ შენახვა რამდენიმე მონაცემთა კომპლექტი, რომელიც განსხვავდება მხოლოდ მცირე (გალითად, ნაკლებია, ვიდრე 1%). თუ ვინმეს არ შეესაბამება შინაარსის მონაცემთა კომპლექტი, მათ შეუძლიათ შექმნათ ახალი ვერსია გარეშე უნდა შექმნათ სრული კუპია - მხოლოდ ცვლილებები შენახვა. ისევე, როგორც როდესაც ჩვენ fork პროექტს GitHub- ში, რათა შეცვალოს რაღაც.

როგორ blockchain შეუძლია მხარდაჭერა შექმნა Open მონაცემთა კომპლექტი

Blockchain და decentralized storage მხარს უჭერს. ერთ მხრივ, decentralized storage საშუალებას გაძლევთ შენახვა დიდი რაოდენობით მონაცემები უსაფრთხოების დონეზე შედარებით blockchain storage. სხვა მხრივ, blockchain შეიძლება უზრუნველყოს incentive სისტემა და governance layer decentralized storage. კარგი მაგალითია Ethereum Swarm, რომელიც არ შეიძლება მუშაობა გარეშე blockchain, რადგან მისი incentive სისტემა - მნიშვნელოვანი ქსელის ოპტიმალური ოპერაცია - განახლებულია მეშვეობით Smart კონტაქტები მუშაობს blockchain.


ოპტიმიზებული მონაცემთა კომპლექტი, blockchain-based DAO- ს შეუძლიათ აირჩიოთ, რა მოიცავს მონაცემთა კომპლექტი. სისტემა შეიძლება მუშაობა მსგავსი ვიკიპედია, სადაც ადმინისტრატორები უზრუნველყოფს, რომ ფსიქიკური ინფორმაცია არ იყენებს ინტიმური მონაცემებს. რა არის ფსიქიკური მონაცემები, ხშირად არ არის ნათელი. ვიკიპედია არ აქვს რეალური გადაწყვეტილებები ამ საკითხზე - მაგრამ დეტალირებული, blockchain-based სისტემაში, forks იღებენ.


თუ ვინმეს არ შეესაბამება მონაცემთა კომპლექტი შინაარსი, მათ შეუძლიათ შექმნათ საკუთარი fork და დაიწყოს ახალი DAO, რათა მართოთ ალტერნატიული ვერსია.

Decentralized სასწავლო

თუ მონაცემები არის ახალი წყარო კოდი, მაშინ პროგრამული უზრუნველყოფის 2.0 (ანქტური ინტელექტურობის) შემთხვევაში სასწავლო პროგრამის კომბინაციაა. ტრადიციული პროგრამული უზრუნველყოფის განვითარება, ამ კომბინაციაში ინტელექტუალური პროგრამული უზრუნველყოფის ინტელექტურობებს მათი საკუთარი მანქანებში აწარმოებს. AI სისტემებში, თუმცა, სასწავლო ძალიან ენერგეტიკური და კომპიუტერული ინტელექტუალური სამუშაოა. დიდი ენის მოდელის სასწავლო შეიძლება ღირებულდეს მილიონი დოლარებს და მოითხოვს დიდი კომპიუტერული კრუსები - მნიშვნელოვანი მოვლენები საზოგადოების მორგებული მოდელები.


ერთი ვარიანტი არის, რომ საზოგადოება მოკლე ფული და გაქირავება კომპიუტერული ძალა cloud მომწოდებელს ცენტრალური სასწავლო. კიდევ ერთი ვარიანტი არის დეტალირებული სასწავლო, სადაც წევრები დაჯავშნა კომპიუტერული ძალა უფასოდ (მაგულისთვის) ან გადაიხადოს გადახდა.


თუმცა, დეტალირებული ტრენინგი არ არის მინიმალური საქმიანობა. ერთ მოვლენები არის, რომ დიდი მოდელები არ შეუძლიათ ტრენინგი ერთი ნომერი - მრავალ ნომერი ტრენინგი მოითხოვს, რაც მოითხოვს მაღალი მოცულობის კომუნიკაცია ნომერი შორის. ეს კომუნიკაცია უნდა იყოს ოპტიმიზირებული ტრენინგი ეფექტური იყოს. ბედნიეროდ, რამდენიმე სტრატეპები მუშაობს ამ საკითხზე. ერთი იმიჯი მაგალითია:Exo ლაბორატორიები, რომელიც შეიმუშავებს პროტოლოკს, რომელიც გამოიყენებადისკები, განკუთვნილია, რათა უზრუნველყოს სასწავლო ინტერნეტში დაკავშირებული ქსელის nodes.


კიდევ ერთი პრობლემა, რომელიც საერთოა ყველა ღია დეტალაციის სისტემებს (blockchains, decentralized storage და ა.შ.) - არის პრობლემაtrustმას შემდეგ, რაც ვინმეს შეუძლია თავისუფლად შეესაბამება საკუთარი მოწყობილობები სისტემაში, არ არსებობს გარანტიას, რომ ისინი ქმნიან გონივლად. მფლობელი მფლობელი, მაგალითად, შეიძლება გამოიყენოთ არასამთავრობო მონაცემები DAO- ის აღიარებული მონაცემთა კომპლექტი helyett, ამით "კონტაქტირება" მოდელი.


ამ სისტემებს, trust არის შეცვალოს კომპიუტერული გარანტიები. უფრო უსაფრთხოების ჩვენ გსურთ არასასურველი ქსელი ქსელის, უფრო კომპიუტერული ძალა საჭიროა. კარგი მაგალითია ეს არის blockchain, სადაც თითოეული node გამოქვეყნოს ახალი ბლოკი ასევე დააყენებს ყველა კომპიუტერები ქსელში, რომელიც იწვევს მას.


ამ მიზნით, თუმცა, არ მუშაობს AI ტრენინგი, ასე რომ ჩვენ უნდა შეამოწმოთ სხვა გადაწყვეტილებები. აქ არის სამი პოტენციური მიზნები:

Consensus დაფუძნებული კონფიგურაცია

ერთი მიმოხილვა არის, რომ თითოეული კომპიუტერის გაკეთება მრავალჯერადი (გალითად, სამი) ნომრები. თუ შედეგები არ შეესაბამება, ცუდი ნომერი დაკარგავს მისი სტატისტიკა. ამ მეთოდის უპირატესობა არის, რომ ეს უზრუნველყოფს საკმაოდ მაღალი უსაფრთხოება. უპირატესობა არის, რომ ეს მოითხოვს საჭირო კომპიუტერული ძალა.

Zero-knowledge გამოცდილება

ეს ტექნიკა გამოიყენება სისტემებში, როგორიცაა zkRollups, სადაც zkSNARK უზრუნველყოფს, რომ valid transactions გააკეთა Layer 2 ქსელში. უარყოფითი არის, რომ ქსელის გენერაცია კომპიუტერული ღირებულებაა, განსაკუთრებით მას შემდეგ, რაც კომპიუტერის მოპოვების რაოდენობა იზრდება. ეს იმას ნიშნავს, რომ ამჟამად ZKP ტექნოლოგია, სასწავლო AI მოდელები ამგვარად მოითხოვს მაქსიმალურად უფრო კომპიუტერული ძალა. თუმცა, ZKPs არის აქტიურად კვლეული ტერიტორია, და მომავალში, ისინი შეიძლება იყოს საკმარისი ეფექტური გათავისუფლებისთვის.

Optimistic Decentralized მანქანური სასწავლო

ოპტიმიზირებული დეტალური მანქანური სასწავლო მუშაობს ისევე, როგორც ოპტიმიზირებული rollups. კომპიუტერები იმიტომ, რომ სწორი არ არის, თუ ვინმეს გთავაზობთ საღებავი-პოვს, რათა აჩვენოს განსხვავებით. პრაქტიკაში, სასწავლო ღილაკს დარეგისტრირებს პროცესის თითოეული ნაბიჯი - მათ შორის დაწყებული წონის მატრიზს, სასწავლო მონაცემებს და შედეგად წონის მატრიზს. თუ ლოკში ასევე დარეგისტრირებულია საღებავი თხევადი, მთელი კომპიუტერები გახდება დეტერტიზისტული და რეპუტაციის შესაძლებელი.


მას შემდეგ, რაც ვალუტატორები შეუძლიათ ნიმუში შეიმუშავებს სასწავლო ლოგის სექციებს და მათ გაწმენდა. თუ შეესაბამება იპოვება, სასწავლო ღონისძიება დაკარგავს მისი სტატისტიკა. ამ მეთოდი აქვს ყველაზე დაბალი კომპიუტერული ღირებულება: მას არ მოითხოვს ღირებულება zero-knowledge-proof გენერაცია, და განსხვავებით კონცენტრაციის დაფუძნებული გაწმენდა, მხოლოდ ნიმუში აირჩიული ნაწილები კომპიუტერის უნდა გაწმენდა. ეს იძლევა ყველაზე ეფექტური სამი მეთოდები.


საბოლოოდ, დეტალირებული ტრენინგი მოითხოვს "ნოდი ბაზარზე" - პლატფორმა, სადაც ხელმისაწვდომი კომპიუტერული რესურსები შეიძლება იპოვოს და გამოიყენოთ. მაგალითად,Aleph ქსელი, რომელიც, როგორც სხვა ქსელის მომწოდებლები, უზრუნველყოფს კომპიუტერული მოცულობა - მაგრამ ეს არის დეტალირებული პლატფორმა, რომელიც განკუთვნილია გაფართოებული შენახვის, კომპიუტერული და მონაცემთა მომსახურების უზრუნველყოფს გაფართოებული ღილაკების ქსელის მეშვეობით. იგი იყენებს ERC20 ტოკონი მომსახურების გადახდისთვის, ასე რომ ეს შეიძლება ადვილად ინტეგრირებული იყოს სხვა blockchain-based გადაწყვეტილებები. Aleph ღილაკები გამოიყენება საიმედო შესრულების გარემოები, ასე რომ შეუზღუდავი არის ამ შემთხვევაში.

Decentralized კონტაქტი

დიდი ზომის მოდელები, არა მხოლოდ სასწავლო არ არის ნედლეული, რადგან მაღალი კომპიუტერული მოთხოვნები, მაგრამ მუშაობა მოდელი (inference) არის ასევე რთული. ეს განსაკუთრებით ფაქტობრივი მოდელები, სადაც შედეგები გამოჩნდა მხოლოდ შემდეგ მრავალფეროვანი შემდეგი წინასწარ გადაცემები - რაც ნიშნავს, საერთო კომპიუტერული ძალა, რომელიც საჭიროა შეფასების შეიძლება უფრო მეტია, ვიდრე სასწავლო.


იმიტომ, რომ ნერვული ქსელის გაშვება მუშაობს იგივე გზა, რაც ტრენინგიას (ინference არის წინასწარ ფაზები, ხოლო ტრენინგი მოიცავს მრავალი წინასწარ და წინასწარ ფაზები), ოპტიმიტიზული დეტალირებული მანქანული სასწავლო ასევე შეიძლება გამოყენებულ იქნას.


ამ კონტაქტში ძირითადი მოთხოვნები არის კონფიდენციალურობა. ტექნოლოგია, როგორიცაა ჰომომორფული კრეპტიზაცია და მრავალფეროვანი კომპიუტერაცია (MPC), შეუძლია დაეხმაროს პირადი მონაცემების დაცვას. ამავე დროს, ჰომორფული ქსელის შესრულება გაგრძელებს ექსპონენტურად, და ახალი ტექნოლოგია, როგორიცაა 1.5-bit ნეიროური ქსელები და დისტრირებული Mixture-of-Experts (MoE) მოდელები, როგორიცაა DeepSeek, უფრო მეტად საშუალებას იძლევა ამ ქსელები ადგილობრივ.


მე ვფიქრობ, რომ ხანგრძლივში, ჩვენ შეგვიძლია გამოიყენოთ ასეთი მოდელები ადგილობრივ - ან მინიმუმ, პირადი გაქირავებული საიმედო გარემოებში.

კონტაქტი

ამჟამად, ბევრი ადამიანებს ნათელია, რომ AI- ის რეკლუზიური ცვლილებები იქნება. ეს ჩვენი მსოფლიოს შეცვალოს გზა, რომ ჩვენ არ შეგვიძლია დაინახოთ - და ეს არ არის, ვიცით, რომ humanoid robots- ის ეფექტი. რა მნიშვნელოვანია, ვინც გაქვთ ძალა AI- ზე. ეს გაგრძელდება ზოგიერთი დიდი კორპორაციების ხელში, ან ეს იქნება საერთო საზოგადოებრივი ბედნიერი, რომელიც ეხმარება ყველა ადამიანებს?


ეს ხელს უწყობს ერთ-ერთი კითხვა ჩვენი მომავალში: რა არის ნამდვილად დეტალებული AI?


ასეთი სისტემის შექმნა მოითხოვს უფრო მეტია, ვიდრე მხოლოდ ტექნიკური ინოვაცია - ეს მოითხოვს Open Data Sets, Decentralized Storage, Blockchain-based governance, და საავტომობილო მექანიზმი, რომელიც საშუალებას გაძლევთ საზოგადოებებს შეუწყოს და თანამშრომლობენ თავისუფლად. იგი ასევე მოითხოვს მგრძნობიარე გადაწყვეტილებები decentralized training and inference, უზრუნველყოს ორივე ეფექტურობის და კონფიდენციალურობის.


If we succeed, we will not just democratize AI – we will lay the groundwork for a new digital commons, სადაც ინტელექტურობა იგივე არის co-created, transparent, და ხელმისაწვდომი ყველა.

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks