🚨 Știri de ultimă oră : OpenAI a lansat Operator , un agent bazat pe inteligență artificială care își poate folosi propriul browser pentru a efectua sarcini pentru tine. În prezent, este disponibil numai pentru utilizatorii Pro din SUA, dar va veni la nivel global în curând. 🌍
Cool, nu? Dar stai, suntem siguri că site-urile web nu vor respinge? 🤔 Tehnologia actuală anti-bot, cum ar fi interzicerea IP, amprentele browserului, amprentele TLS și, desigur, CAPTCHA-urile vor ține pasul cu noul instrument OpenAI?
Deci, cine câștigă cu adevărat în această bătălie între roboții automati complexi și apărarea anti-robot? Citiți mai departe pentru a afla! 🔥
Când modelele LLM au apărut pentru prima dată pe piață, a fost doar o revoluție. Modul în care abordăm sarcinile de zi cu zi la locul de muncă s-a schimbat pentru totdeauna, bursa a reacționat cu entuziasm 🚀 și toată lumea a sărit în trenul AI (chiar dacă în spatele majorității produselor online nu exista încă AI reală ).
Ca întotdeauna, hype-ul inițial a dispărut în cele din urmă și au început să apară câteva întrebări importante. Nu trebuie să fii un inginer de învățare automată sau un mare maestru Kaggle (BTW, ne putem găsi și acolo ! 😉) pentru a ști că LLM-urile nu funcționează pe magie 🧙 — au nevoie de tone de date pentru a fi instruiți .
Deci, de unde vin toate aceste date? Răspuns simplu: Web! 🌍
Web-ul este cea mai mare sursă de date de pe planetă, așa că nu este surprinzător că companii precum OpenAI au răzuit internetul ani de zile pentru a colecta datele necesare pentru a-și instrui tehnologia inovatoare. Și atâta timp cât web scraping se face etic, nu este nimic în neregulă cu asta 🤷.
Sfat profesionist : Aprofundați acest subiect citind articolul nostru despre cum să rămâneți etici și legale în era AI web scraping .
Dar iată problema: majoritatea proprietarilor de site-uri nu sunt încântați de faptul că companiile de inteligență artificială își folosesc datele! 😠
La urma urmei, datele sunt egale cu bani 💰. Au trecut câțiva ani de când The Economist a publicat articolul „ Cea mai valoroasă resursă a lumii nu mai este petrolul, ci datele ”. Deci, sincer, nu este nevoie să explicăm asta mai departe.
Pe scurt, a oferi gratuit datele tale este, practic, același lucru cu a distribui numerar 💸. Nu e de mirare că proprietarii de site-uri – în special companiile mari – nu sunt tocmai încântați de asta. 😅
Acum, că peisajul evoluează și noi operatori și instrumente AI intră în scenă, site-urile web ar putea începe să devină foarte nemulțumite de asta. 😬
În articolul său despre cum funcționează Operator , OpenAI a împărtășit:
„Operatorul este alimentat de un nou model numit Computer-Using Agent (CUA). Combinând capacitățile de viziune ale GPT-4 cu raționamentul avansat prin învățare prin întărire, CUA este instruit să interacționeze cu interfețele grafice cu utilizatorul (GUI) - butoanele, meniurile și câmpurile de text pe care oamenii le văd pe un ecran.”
Este clar că, în timp ce companiile de inteligență artificială precum OpenAI au construit anterior roboți de scraping pentru a colecta date din surse populare pentru a-și antrena modelele, acum oferă utilizatorilor un instrument care poate interacționa „magic” și naviga pe site-uri web. Este atât incitant, cât și înfricoșător! 😱
Vedeți Operatorul OpenAI în acțiune în videoclipul de prezentare:
Din nou, din articolul de prezentare oficial:
„Operatorul poate „vedea” (prin capturi de ecran) și „interacționa” (folosind toate acțiunile permise de mouse și tastatură) cu un browser, permițându-i să acționeze pe web fără a necesita integrări API personalizate.
Dacă întâmpină provocări sau face greșeli, Operatorul își poate valorifica capacitățile de raționament pentru a se auto-corecta. Când se blochează și are nevoie de asistență, pur și simplu predă controlul înapoi utilizatorului, asigurând o experiență lină și de colaborare.”
Este incredibil de promițător, dar ridică și unele îngrijorări serioase. 🤔 Ce se întâmplă dacă utilizatorii încep să abuzeze de Operator în scopuri rău intenționate? Cu toții ne-am săturat de roboți (cum ar fi acele comentarii spam care inundă YouTube), iar acest lucru s-ar putea transforma rapid într-o problemă majoră. ⚠️
Presupunând că OpenAI reușește să împiedice Operatorul să efectueze acțiuni dăunătoare sau nedorite - la fel cum au lucrat pentru a împiedica ChatGPT să răspundă la întrebări periculoase - putem fi cu adevărat siguri că majoritatea site-urilor web vor saluta acest tip de interacțiune nouă, automată, bazată pe inteligență artificială? 🤖
Înainte de a aborda marea întrebare pe care am lăsat-o deschisă, să clarificăm mai întâi cu ce fel de interacțiuni avem de-a face. La sfârșitul zilei, dacă acești noi operatori AI nu sunt la fel de eficienți pe cât credem, de ce ar trebui să ne deranjam chiar să ne protejăm împotriva lor? 👀
Anti-bot nu este o glumă. Companii precum Cloudflare – un lider în furnizorii WAF ( Web Application Firewall ), cunoscut pentru soluțiile sale puternice anti-bot – cheltuiesc milioane de dolari în fiecare an pe cercetare și dezvoltare pentru a rămâne în avans . 🤑
În prezent, numai utilizatorii din SUA care plătesc 200 USD pe lună pentru cel mai înalt nivel de abonament ChatGPT Pro pot accesa Operatorul OpenAI , așa că nu toată lumea a avut șansa de a-l testa. Dar pentru cei care au? Rezultatele sunt impresionante! 🤯
Utilizatorii timpurii și recenzenții tehnologici au descoperit că OpenAI este uimitor în automatizarea sarcinilor de zi cu zi precum:
Cum este posibil? Operatorul deschide o fereastră de mini browser și finalizează sarcini pe baza solicitărilor dvs. text - exact așa cum ar face un utilizator obișnuit:
Sigur, produsul este încă în stadiul de „previzualizare a cercetării” și nu este perfect. Ocazional, va trebui să-i dai un ghiont sau să-l salvezi dintr-o buclă de încercări eșuate.
În timp ce unii utilizatori Reddit și-au exprimat plângeri - în special având în vedere prețul ridicat -, nu se poate nega că această tehnologie este deja extraordinară chiar și în această etapă. Urmăriți-l și rezervați un zbor , de exemplu!
➡️ Adevărata întrebare acum: vor primi site-urile web automatizarea bazată pe inteligență artificială sau vor riposta? Și dacă o fac, cum? ⚔️
Soluțiile anti-bot și anti-scraping nu sunt nimic nou – multe site-uri le folosesc de ani de zile pentru a se proteja împotriva scripturilor automate care războară datele și interacționează cu paginile lor. 🚫
Dacă sunteți curios despre aceste metode, consultați webinarul nostru despre tehnici avansate anti-bot:
După cum probabil știți deja, mai ales dacă ați urmărit seria noastră despre web scraping avansat , vorbim despre:
Limitatoare de rată : instrumente care restricționează numărul de solicitări de la un utilizator într-un anumit timp pentru a preveni supraîncărcarea. Acestea funcționează prin interzicerea IP-urilor .
TLS Fingerprinting : O metodă care urmărește caracteristicile unice ale conexiunii criptate a unui browser pentru a identifica roboții. Explorați rolul amprentei TLS în scrapingul web .
Amprentarea browserului : O tehnică pentru detectarea atributelor unice ale dispozitivului sau browserului pentru a identifica instrumentele automate.
Aceste apărări inițiale se concentrează pe blocarea solicitărilor de la instrumente automate (cum ar fi operatorii AI) înainte ca aceștia să aibă șansa de a accesa site-ul 🛡️.
Dacă aceste apărări eșuează, alte tehnici intră în joc. Câteva exemple? Analiza comportamentului utilizatorilor,provocări JavaScript și CAPTCHA!
CAPTCHA-urile sunt deosebit de eficiente deoarece sunt concepute pentru a fi ușor de rezolvat de către oameni, dar greu de spart pentru roboți.
Dar odată ce AI devine mai inteligentă și începe să gândească mai mult ca oamenii, recunoașterea roboților devine din ce în ce mai dificilă. Acesta este motivul pentru care unele idei sălbatice, cum ar fi folosirea jocurilor video ca CAPTCHA , sunt aruncate. 🎮
Dar adevărata întrebare este: sunt CAPTCHA-urile soluția finală împotriva operatorilor AI? Să ne scufundăm și să aflăm! 💡
TL;DR : Nu, nu chiar... 🙅♂️
De când OpenAI Operator a ajuns pe piață pentru testare, utilizatorii l-au împins să finalizeze sarcini care implică CAPTCHA - autentificarea în rețelele sociale, completarea formularelor și multe altele.
Dar, după cum s-a menționat în pagina de prezentare a agentului care utilizează computerul OpenAI, intervenția umană este încă necesară:
„Deși se ocupă de majoritatea pașilor în mod automat, CUA solicită confirmarea utilizatorului pentru acțiuni sensibile, cum ar fi introducerea detaliilor de conectare sau răspunsul la formularele CAPTCHA.”
Sigur, uneori, motorul de raționament al AI s-ar putea strecura pe lângă un CAPTCHA 🥷, dar, de cele mai multe ori, eșuează lamentabil - cu rezultate care sunt atât hilare, cât și frustrante. Când este pus la încercare pe Reddit, Google Maps, Amazon și G2 , acesta este oprit în mod repetat de protecțiile anti-bot.
Vizionarea operatorilor AI care se prăbușesc și arde împotriva CAPTCHA-urilor a devenit o tendință virală. Videoclipurile cu aceste instrumente de inteligență artificială care își fac drumul prin încercările de conectare inundă Reddit și X:
Alți evaluatori de tehnologie confirmă aceeași frustrare: Operatorul OpenAI este blocat de majoritatea CAPTCHA-urilor .
Pe de o parte, acest lucru este liniștitor – CAPTCHA-urile își fac treaba și împiedică roboții automatizați să facă ravagii. Pe de altă parte, suntem într-un joc cu pisica și șoarecele 🐁 🐈. Operatorii de tehnologie anti-bot și AI vor continua să evolueze, pe rând fiind cu un pas înainte.
Adevărații învinși? Utilizatori obișnuiți! Mai multe site-uri vor implementa probabil CAPTCHA, făcând navigarea mai dureroasă pentru toată lumea. Și să fim sinceri – toți urâm CAPTCHA-urile. 😩
Această bătălie nu îi afectează doar pe operatorii de inteligență artificială, ci și răzuitorii etici ai webi sunt prinși în focul încrucișat. Pe măsură ce site-urile intensifică măsurile anti-bot, scripturile de scraping legitime vor fi blocate pe nedrept, îngreunând extragerea datelor pentru cercetători, companii și dezvoltatori .
Din fericire, există o modalitate mai bună de a interacționa cu site-urile în mod programatic, fără a avea de-a face cu CAPTCHA-uri și alte coșmaruri anti-bot: Scraping Browser !
OpenAI Operator automatizează browserele obișnuite la fel ca alte instrumente de automatizare a browserului. Dar iată problema: majoritatea tehnologiilor anti-bot, inclusiv CAPTCHA-urile, nu apar din cauza automatizării în sine. Acestea apar datorită modului în care este configurat browser-ul !
Majoritatea bibliotecilor de automatizare a browserelor configurează browserele în moduri care le expun ca automate, înfrângând complet scopul utilizării unui browser „obișnuit”. Acolo intervin sistemele anti-bot și blochează accesul. 🚫
În loc să se concentreze pe dacă AI poate ocoli CAPTCHA-urile, adevăratul schimbător de joc folosește browserul potrivit, unul optimizat pentru scraping și automatizare . Exact aici intervine Browserul Scraping de la Bright Data , plin cu:
Amprente fiabile TLS pentru a evita detectarea
Scalabilitate nelimitată pentru extragerea datelor la scară largă
Rotație IP încorporată alimentată de o rețea proxy IP de 72 de milioane
Reîncercări automate pentru a gestiona cererile eșuate
Superputeri de rezolvare a CAPTCHA care depășesc operatorii AI 🧠
Nicio surpriză aici: soluția CAPTCHA încorporată în Browser Scraping este mult mai eficientă decât Operatorul OpenAI. De ce? Pentru că este susținut de ani de dezvoltare din partea aceleiași echipe care s-a ocupat de recentele întreruperi de date SEO în câteva minute . ⚡
Soluția CAPTCHA de la Bright Data sa dovedit a fi de succes împotriva:
Nu numai că reduce șansele de apariție a CAPTCHA-urilor , dar atunci când apar, le rezolvă fără efort . 🔥
Scraping Browser funcționează cu toate cadrele majore de automatizare a browserului, inclusiv Playwright, Puppeteer și Selenium. Deci, indiferent dacă doriți control programatic complet sau chiar să adăugați logica AI deasupra , sunteți acoperit.
Vedeți Browser-ul Scraping al Bright Data în acțiune:
Deci... ar trebui să forțăm în continuare AI să rezolve CAPTCHA-urile sau pur și simplu să folosim un instrument care funcționează? Alegerea este evidentă. Scraping Browser FTW. 🏆
Operatorul OpenAI este aici pentru a revoluționa interacțiunea web, dar nu este atotputernic. Deși este impresionant, încă se luptă împotriva CAPTCHA-urilor și este blocat.
Evitați necazurile cu Scraping Browser, care include un solutor CAPTCHA încorporat pentru o automatizare perfectă. Porniți-vă în încercarea noastră de a democratiza Web-ul, asigurându-vă că acesta rămâne accesibil tuturor, oriunde, chiar și prin scripturi automate!
Până data viitoare, continuă să explorezi Internetul liber și fără CAPTCHA!