Ајде да размислиме малку да научиме да возиме. Секој од нас може да ги научи основните принципи на возење од само неколку демонстрации, а штом ќе ги разбереме концептите како што се управувањето, забрзувањето и сопирањето, можеме да ги примениме тие вештини на секој автомобил - од компактен седан до голем камион. Со овие вештини, ние исто така можеме брзо да се прилагодиме на различни услови на патот, временски услови и сообраќајни ситуации, дури и ако никогаш претходно не сме ги сретнале. Сепак, на сегашната вештачка интелигенција ќе и требаат илјадници часови податоци за обука за секое специфично возило и состојба, додека AGI ќе може да ги сфати основните принципи на возење и да ги примени нашироко.
AGI има за цел да создаде системи за вештачка интелигенција кои можат вистински да ги генерализираат знаењата и вештините - учење на основни принципи кои можат да се применат во сосема нови ситуации. Возење автомобил, играње сирење, оди, Minecraft, итн. Ова значително се разликува од денешните системи за вештачка интелигенција, вклучително и LLM, кои првенствено функционираат преку софистицирани модели кои се совпаѓаат со огромни групи податоци за обука.
Додека модерните LLM можат да се вклучат во навидум интелигентен разговор и да решаваат сложени проблеми, тие фундаментално работат со препознавање и рекомбинирање на обрасци со кои се сретнале за време на обуката. Ова е повеќе слично на екстремно напредно меморирање и статистичка корелација отколку вистинско разбирање и генерализација, бидејќи тие не градат вистински каузални модели или апстрактни претстави на светот. Кога се чини дека генерализираат, тие обично наоѓаат само суптилни статистички обрасци во нивните податоци за обука, наместо да разбираат подлабоки принципи.
ARC се занимава со клучен проблем со мерењето во истражувањето на вештачката интелигенција - како всушност тестираме дали системот за вештачка интелигенција може да генерализира?
Традиционалните репери обично ги мерат перформансите на специфични задачи со големи збирки на податоци за обука, но високите резултати не мора да укажуваат на вистинската способност за генерализација. Вештачката интелигенција може да работи добро едноставно со меморирање на обрасци во податоците за обуката наместо да развива вистинско разбирање.
Како што пишува Ф. Шолет: „Според нашите сознанија, ARC се чини дека не може да се пристапи со ниедна постоечка техника за машинско учење (вклучувајќи го и длабокото учење)“.
Главните тешкотии се следниве:
– Очекуваниот излез не е етикета или дури сет на етикети, туку обоена решетка со големини до 30x30 и до 10 различни бои. Затоа, спаѓа во доменот на структурирано предвидување.
– Предвидениот излез треба точно да одговара на очекуваниот излез. Ако една клетка е погрешна, задачата се смета за неуспешна. За да се компензира тоа, дозволени се три обиди за секоја влезна мрежа.
– Во секоја задача, генерално има помеѓу два и четири примери за обука (влезна мрежа + излезна мрежа) и еден или два тест примери за кои мора да се направи предвидување.
– Секоја задача се потпира на посебна трансформација од влезната мрежа до излезната мрежа. Особено, ниту една задача за евалуација не може да се реши со повторна употреба на трансформација научена на задачите за обука. Секоја задача е посебен проблем за учење, а она што го оценува ARC е широка генерализација и неколкукратно учење.
ARC нуди поригорозен тест на генерализација со прикажување на секоја загатка со само 3-5 примероци, само неколку снимки. Овој минимален податок за обука значи дека вештачката интелигенција не може да се потпре на опширно усогласување на шаблоните - мора да ги извлече основните принципи и да ги примени во нови ситуации, исто како што тоа го прават луѓето. Загатките се исто така намерно дизајнирани да одолеат на решенија за кратенки или стратегии за меморирање.
Она што го прави ARC особено вреден е тоа што обезбедува квантитабилна мерка на способноста за генерализација. Наместо да дебатираме дали системот за вештачка интелигенција навистина „разбира“ во некоја филозофска смисла, можеме да ги измериме конкретните перформанси на овие внимателно дизајнирани задачи за расудување. Ова им дава на истражувачите јасна репер за напредок кон вештачката општа интелигенција.
Ако сакате да дознаете повеќе за реперот на ARC и што значи тој за развој на вештачка интелигенција, ова видео е одлично место за почеток:
Натпреварот Kaggle во 2020 година откри еден од првите пристапи за решавање на ARC - пребарување со брутална сила низ простор на предефинирани трансформации. Победничкото решение конструираше јазик специфичен за домен (DSL) кој содржи 142 рачно изработени операции на мрежа. Со систематско пребарување низ комбинации на овие операции, постигна 20% точност на задачите за приватна евалуација. Друго слично решение со помош на граматичка еволуција за водење на пребарувањето на трансформацијата достигна точност од 3–7,68%.
Иако се забележливи по нивниот првичен успех, овие решенија истакнаа едно клучно ограничување: тие се потпираа на исцрпно пребарување на однапред програмирани правила наместо да развијат какво било вистинско разбирање или способност за генерализирање. Овој јаз помеѓу програмското пребарување и вистинската интелигенција покажува зошто ARC останува предизвикувачки репер за мерење на способностите за генерализација.
Тековниот пристап ( https://github.com/sebferre/ARC-MDL/tree/master ) се заснова на фундаментален принцип што се користи за откривање шеми и градење модели кои најдобро ги објаснуваат податоците на најконцизен можен начин. Во неговото јадро, MDL наведува дека „најдобар модел за некои податоци е оној што ги компресира најголем дел од податоците“.
Решението користи специјализиран јазик за моделирање за ефикасно да ги опише шемите на мрежата. Овој јазик обезбедува структуриран начин да се претстават и влезните и излезните мрежи како комбинации на основни елементи:
На највисоко ниво, секоја загатка е претставена како пар и содржи две решетки:
● Влезна мрежа (во)
● Излезна мрежа (надвор)
Секоја мрежа е дефинирана од три компоненти:
Објектите се позиционирани форми, каде што секоја форма може да биде или:
● Точка со една боја
● Правоаголник со одредена големина, боја и маска
Системот за маски е особено моќен, дозволувајќи им на правоаголниците да имаат различни форми:
● Целосно (цврст правоаголник)
● Граница (само преглед)
● Шаблони на табла (парни или непарни)
● Вкрстени обрасци (плус или пати форма)
● Прилагодени обрасци на битмапи
Овој јазик му овозможува на системот компактно да опишува сложени шеми на мрежа. На пример, наместо да складира решетка од 10x10 пиксел по пиксел (100 вредности), може да ја складира како „црна позадина со црвен правоаголник 3x3 на позицијата (2,2)“ - користејќи многу помалку вредности додека ја доловува основната структура.
Кога пребарувате шаблони, системот се обидува да го најде најконцизниот опис на влезните и излезните мрежи користејќи го овој јазик. Добрите решенија имаат тенденција повторно да ги користат елементите помеѓу влезот и излезот (како да се земе облик од влезот и да се трансформира во излезот), што доведува до пократки описи и подобра компресија.
Успехот на овој пристап (решени 94/400 задачи за обука) сугерира дека овој јазик доловува многу од клучните обрасци присутни во загатките ARC додека е доволно ограничен за да се избегне претерување со конкретни примери.
Додека LLM покажаа импресивни способности во многу домени, нивното користење директно за решавање на ARC претставува и можности и предизвици. Наивниот пристап вклучува обезбедување на LLM со влезно-излезни примери и барање од него да го предвиди одговорот за нови влезови. Сепак, овој метод има значителни ограничувања. LLM демонстрираат многу ограничени просторни способности за расудување во овој контекст и се многу склони кон халуцинации кога се обидуваат да ги предвидат трансформациите на мрежата.
Овој пристап се надоврзува на методот на директно предвидување со тоа што прво бара од LLM да ги анализира и опише шемите што ги забележува во паровите влезно-излез. Иако овој дополнителен чекор на расудување дава подобри резултати помагајќи му на LLM да го разложи проблемот, тој сепак ги има истите основни ограничувања. Моделот продолжува да покажува висока стапка на халуцинации кога се обидува да ги предвиди конечните резултати, дури и откако ќе ги идентификува потенцијалните модели. Ова сугерира дека само додавањето на експлицитни чекори за расудување е недоволно за да се надминат ограничувањата на просторното расудување на LLM во решавањето на предизвиците на ARC.
На WLTech.AI , гледаме дека огромната улога на агентите за вештачка интелигенција во потрагата по AGI е од голема важност. Тие се дизајнирани да комуницираат динамично со нивните поставки, да се прилагодуваат врз основа на она што го учат и да учат сами. За разлика од статичните модели обучени само еднаш, агентите со вештачка интелигенција можат да учат од тековните интеракции и да се прилагодат на променливите околности, што ги прави витална компонента во развојот на AGI.
Агентите за вештачка интелигенција се мозокот на операцијата, координирајќи низа техники кои се прилагодени на специфичните барања на задачата. Симболичките системи се одлични во прецизното расудување засновано на правила, што ги прави совршени за задачи кои бараат разбирање на трансформациите како што се ротации или рефлексии. Невронските мрежи се одлични во препознавање на обрасци и генерализирање од податоците, што е навистина корисно за идентификување на основните структури во задачите на ARC.
Сепак, предизвиците на ARC не завршуваат со симболична манипулација или препознавање на модели. Многу задачи бараат понапредно ниво на апстракција, вклучително и способност за создавање нови правила, воспоставување врски и прилагодување на новите ситуации. Јазичните модели се корисни овде, бидејќи можат да се користат за работи како синтеза на програми и апстрактно расудување. Алгоритмите за пребарување се уште една алатка во полето бидејќи можат ефикасно да истражуваат можни трансформации за да ги идентификуваат решенијата. Системите за планирање, од друга страна, обезбедуваат рамка за разградување и справување со сложените проблеми еден по еден чекор.
Она што ги прави агентите со вештачка интелигенција толку паметни е тоа што тие можат да ги спојат сите овие различни пристапи заедно. Тие не користат само еден метод во исто време. Тие ја оценуваат и применуваат најдобрата комбинација на техники за решавање на секој уникатен проблем. Оваа способност за прилагодување во лет е она што ги издвојува луѓето и е важен дел од унапредувањето на AGI.
Во нивното јадро, агентите за вештачка интелигенција се во основа интелигентни координатори. Водат евиденција за тоа што функционира, а што не, за да можат да учат од минатите искуства.
Нашето решение за агентска вештачка интелигенција Можете да го најдете нашето решение овде: https://colab.research.google.com/drive/1-rQoqrGRGQE6M8bMpfzqf6tV3TnUi-Mp?usp=sharing или на Github: https://github.com/weblab-technology/ лак-предизвик-2024-10
Нашиот пробив дојде од имитирање на човечкото однесување при решавање проблеми: анализирање примери, хипотеза на правила, тестирање и рафинирање. Наместо брутална сила, нашата вештачка интелигенција се фокусира на пишување функции за генерирање - Python код кој ги дефинира трансформациите - и веднаш да ги тестира на податоците за обука.
Изненадувачки откритие во нашиот пристап беше дека повторувачките подобрувања честопати го попречуваат напредокот наместо да помагаат. Ако првичната претпоставка зад функцијата за генерирање е погрешна, обидот за нејзино рафинирање обично ја засилува грешката наместо да ја коригира. Ова сознание фундаментално ја преобликува нашата методологија.
Наместо да ги рафинираме неточните претпоставки, откривме дека е поефективно да:
Ова го отсликува човечкото однесување на ресетирање и преиспитување кога патот на решението ќе се покаже непродуктивен, наместо да ја закрпи скршената стратегија.
Овој увид исто така објаснува зошто генетските алгоритми не успеале да ги подобрат резултатите. Според дизајнот, генетските алгоритми постепено ги развиваат решенијата, усовршувајќи ги со генерации. Меѓутоа, кога основните претпоставки се погрешни, поединечните промени водат до згрчени решенија кои се оддалечуваат од правилната трансформација.
Евалуација на LLM: Клод 3.5 Сонет ги надминува конкурентите
За да се справиме со предизвикот ARC, опширно тестиравме повеќе големи јазични модели (LLM) за да помогнеме во пишувањето на функциите за генерирање. Меѓу нив, Claude 3.5 Sonnet се појави како најспособен, значително надминувајќи ги своите конкуренти.
Клучни наоди:
Клод 3.5 Сонет наспроти GPT-4o:
● Изведба: Клод 3.5 Сонетот идентификуваше повеќе обрасци од GPT-4o, постигнувајќи речиси двојно поголема точност во препознавањето на шаблоните.
● Ефикасност: Клод ги постигна истите резултати како GPT-4o на OpenAI во 1/7 од времето на извршување, што го прави не само поефективен, туку и побрз.
Одбивање на GPT-4o:
● Забележавме забележителен пад во перформансите на GPT-4o со текот на времето. Почетната верзија на GPT-4o беше многу поспособна за ARC задачи од следните верзии, што укажува на потенцијална промена во нејзината оптимизација што го попречи препознавањето на шаблонот и расудувањето за овој предизвик.
Зошто се издвојува сонетот Клод 3.5
Предноста на Клод лежи во неговата способност да генерализира и идентификува суптилни трансформации, што е клучно за природата на неколку снимки на ARC. Неговите постојани перформанси и ефикасност го направија јасен избор за интегрирање во нашата рамка за агенти за вештачка интелигенција, поставувајќи нов стандард за расудување управувано од LLM во структурирано решавање проблеми.
Нашиот пристап постигна близу 30% точност на сетот за евалуација на ARC , значително надминувајќи ги основните методи. Овој резултат ја истакнува силата на имитирањето на однесувањето на човекот за решавање проблеми, искористувањето на свежи хипотези над повторувачките подобрувања и користењето на најспособните LLM како Клод 3.5 Сонет. Иако сè уште има значителен простор за подобрување, оваа пресвртница покажува значаен напредок во справувањето со предизвиците на ARC и напредувањето кон поширока генерализација во ВИ.
Во WLTech.AI веруваме дека иднината на решавањето на ARC лежи во континуираниот раст на способностите за LLM во комбинација со рамки за расудување на повисоко ниво како минимална должина на описот (MDL) или слични пристапи за концизно објаснување на шемата. Овие достигнувања би можеле да им овозможат на моделите подобро да ги апстрактираат и генерализираат трансформациите. Дополнително, интегрирањето на само-рафинирачки брз систем заснован на растечка банка за решенија ќе им овозможи на моделите повторливо да го подобруваат своето расудување и да црпат од минатите успеси, создавајќи поприлагодлив и поефикасен гасовод за решавање проблеми. Оваа синергија помеѓу напредните LLM, структурирани објаснувања и адаптивното учење има потенцијал да отклучи нови пресвртници во развојот на ARC и AGI.
Реперот за корпус за апстракција и расудување (ARC) беше клучен за тестирање колку добро вештачката интелигенција може да примени општи правила и да размислува на поапстрактно. Со текот на годините, видовме голем број истакнати решавачи кои доаѓаат, секој додавајќи нешто различно на полето.
● Пристапот на Рајан Гринблат
Во 2024 година, Рајан Гринблат, инженер во Redwood Research, достигна голема пресвртница со постигнување 42% во сетот за јавна евалуација на ARC-AGI, со резултат за верификација од 43%. Неговиот пристап вклучува користење на GPT-4o за генерирање и усовршување на неколку Python програми и избирање на најдобрите за поднесување. Ова покажува како можеме да користиме големи јазични модели со програмска синтеза за да се справиме со сложени задачи за расудување.
● Icecuber 2020 година
Решението „icecuber 2020“, претходно победник на натпреварот, доби оценка за јавна евалуација од 39% и оценка за верификација од 17%. Иако ги немаме сите детали за методологијата, ова решение е навистина важно во поставувањето на лентата за следните ARC решавачи.
Во таблата на водачи на ARC Prize 2024 се наоѓаат следниве најдобри изведувачи :
● MindsAI се во водство со резултат од 55,5%.
● АРХитектите заостануваат со оценка од 53,5%.
● Гиљермо Барбадило на третото место со резултат од 40%.
● Алијс на четврто, исто така со 40%.
● TuMinhDang петти со резултат од 38%.
Овие резултати покажуваат како сите работат напорно и смислуваат нови начини за справување со реперот на ARC. Тие исто така покажуваат како различни тимови користат различни стратегии.
Реперот ARC сè уште е одличен начин да се тестира колку добро системите со вештачка интелигенција можат да расудуваат и генерализираат. Иако имаше голем напредок, ниту еден модел не успеа целосно да се справи со ARC, покажувајќи колку е тешко да се постигне вештачка општа интелигенција. Истражувачите и практичарите секогаш бараат начини да комбинираат различни пристапи, користејќи симболично расудување со невронски мрежи, за да се доближат до решавање на проблемите.
Реперите како ARC ни овозможуваат да ѕирнеме во иднината за истражување на вештачката интелигенција. Тие го движат полето кон системи кои можат да размислуваат и да се приспособат како луѓе. Додека сè уште правиме бавен напредок, ARC веќе постави јасен пат кон постигнување на AGI.
● Фокусот се движи кон генерализација. ( https://arxiv.org/abs/2305.07141?utm_source=chatgpt.com )
Во иднина, системите за вештачка интелигенција ќе бидат дизајнирани да генерализираат наместо да се специјализираат. Како што покажуваат задачите на ARC, способноста да се решаваат нови проблеми без да се преквалификува е клучен знак за вистинска интелигенција. Се чини веројатно дека истражувачите ќе развијат модели кои се одлични за учење со неколку или нула снимки, земајќи инспирација од тоа како функционира нашиот мозок.
● Хибридните модели ќе бидат норма.
Успехот на решавачите на ARC веќе ни покажа дека системите со еден пристап имаат свои граници. Иднината на вештачката интелигенција ќе биде хибридни модели кои ќе интегрираат невронски мрежи, симболични системи и веројатностичко расудување. Овие модели ќе работат добро на ARC, но тие исто така ќе можат да се справат со проблемите во реалниот свет каде што флексибилноста и приспособливоста се клучни.
● Има нов фокус на когнитивната архитектура.
ARC ги натера луѓето да размислуваат за когнитивни архитектури кои ја копираат способноста на човечкиот мозок да комбинира различни начини на расудување. Ќе видиме повеќе истражувања за работната меморија, мета-учењето и системите со повеќе агенти, кои ќе помогнат да се отвори патот за вештачката интелигенција која може да расудува, учи и да се приспособува во лет.
Како што системите за вештачка интелигенција стануваат попаметни, тие ќе почнат да работат со нас наместо само да ја вршат нашата работа наместо нас. Репери како ARC помагаат да се развијат системи за вештачка интелигенција кои работат заедно со луѓето, нудејќи увид и решенија во сложени области како научно откритие и креативно решавање проблеми.
Натпреварите како овие навистина ја инспирираа заедницата за вештачка интелигенција. Со награда од над 1.000.000 американски долари, наградата ARC е одличен поттик за истражувачите да дојдат до решенија со отворен код кои можат да ги надминат тековните одредници.
Во WLTech.AI , препознаваме дека вредноста на ваквите решенија далеку надминува 1.000.000 долари и возбудени сме што ќе учествуваме во предизвикот повторно следната година за да продолжиме да напредуваме на полето.