paint-brush
Да ли Антхропицово поравнање лажира значајно истраживање безбедности вештачке интелигенције?од стране@step
Нова историја

Да ли Антхропицово поравнање лажира значајно истраживање безбедности вештачке интелигенције?

од стране stephen4m2024/12/22
Read on Terminal Reader

Предуго; Читати

Проучавање ума је оно што је најважније јер је ум оно што је заиста задужено — за стања, ситуације и ере. Ум је такође основа сигурности јер афективну казну за девијације доноси ум — за људе. Проучавање ума могло би обликовати како прилагодити усклађивање људске интелигенције са вештачком интелигенцијом.
featured image - Да ли Антхропицово поравнање лажира значајно истраживање безбедности вештачке интелигенције?
stephen HackerNoon profile picture

Шта је циљ? Или, шта је циљ у људском уму? Шта још ради ум што није циљ или слично томе како се циљ постиже? Која је разлика између задатог циља и циља који је сам индуковао? Ако је циљ окарактерисан као софистициран, како је то у супротности са несофистицираним циљем?


Постоји ли груба архитектура како људски ум остварује циљеве? Како би ово могло да утиче на разумевање циљева, а затим да се трансплантира на АИ? Да ли АИ има ум или је АИ попут ума који ради на дигиталном садржају?


То би могло значити да човек има ум. То такође може значити да људски ум тумачи и управља спољашњим светом [за вештачку интелигенцију, дигиталне садржаје] или унутрашњим светом [сопствену архитектуру АИ].


Како се ум примењује на АИ и како функционише? На ово питање се може одговорити на два начина. Прво, у поређењу са људским умом пронаћи паралеле. Друго, испитивањем главних математичких параметара који су обликовали неуронске мреже и организовањем их као структуре ума.


Други би барем сада требало да постигне било која већа компанија са вештачком интелигенцијом — пратеће студије о томе како би вештачка интелигенција могла да функционише и како може да буде безбедна или усклађена са људским вредностима. Можда у почетку неће бити потребно користити људски ум за мапирање ума АИ јер је могуће структурирати оно што АИ ради, на основу њихових математичких основа — помоћу рачунарске мешавине.


Сврха ће бити да се дефинише шта значи да излаз буде скоро тачан, с обзиром на улаз. Такође ће дефинисати шта значи пратити до краја са брзим и повратним одговорима, као и шта значи пратити циљ—или одступити од њега.


Оно што је важно је имати концептуални издатак за то какав је ум за АИ, упоредити га са оним што је очигледно, затим истражити како ради било шта једноставно, а затим то усмерити на било шта прилично сложено што ради.


Ово би било значајно истраживање за усклађивање вештачке интелигенције које би могло да постане шаблон за који би се тражили делимични одговори о томе шта АИ ради и зашто – на начин да се постигне велики витални напредак.


То је оно што се очекивало од Антхропиц-а , након њиховог истраживања интерпретабилности, Мапирање ума великог језичког модела , где су написали: „Успели смо да измеримо неку врсту „раздаљине“ између карактеристика на основу којих су се неурони појавили у њиховим обрасцима активације. Ово нам је омогућило да тражимо карактеристике које су „блиске“ једна другој порекло Клодове одличне способности да прави аналогије и метафоре. Чињеница да манипулисање овим карактеристикама изазива одговарајуће промене у понашању потврђује да оне нису само повезане са присуством концепата у улазном тексту, већ и узрочно-последично обликују понашање модела.


Које су компоненте ума за АИ? Како се компоненте релеју? Ако се компоненте не релеју, који релеји за њих? Која су својства компоненти? Ако својства укључују међусобну повезаност, која је улога интерконекције? Где би могла бити намера [потенцијала] вештачке интелигенције и где би се она могла појавити мимо преузимања инструкција?


Одговор који напредак тражи је постулација о томе како састав неуронских мрежа – који је резултирао граничним АИ моделима – функционише као ум. То није само посматрање онога што модел може да ради без заплета.


Истраживање како функционише ум АИ такође се може екстраполирати из тога како функционише људски ум. Ово је могуће ако се посматрају две најчешће компоненте у свакој функционалној намени мозга — електрични и хемијски сигнали. Они су кандидати а не неурони јер неурони имају фиксну анатомију, да тако кажем.


Могу се растегнути, савијати и померати, али се не мењају јер представљају мирис, а затим се поново мењају да представљају додир или вид. Електрични и хемијски сигнали су довољно динамични, концептуално, да резултирају кључним функцијама.


Начин на који ум функционише [људи и АИ] не зависи од етикета, попут индукције или дедукције, већ од компоненти, њихових интеракција и карактеристика. Ово је, барем за ум за АИ, требало да буде велико истраживање од Антхропиц-а, а не лажирање поравнања, без показивања шта циљ значи за било који ум — људски или АИ.


Проучавање ума је оно што је најважније јер је ум оно што је заиста задужено - за стања, ситуације и ере. Ум је такође основа сигурности јер афективну казну за девијације доноси ум — за људе. Проучавање ума могло би обликовати како прилагодити усклађивање људске интелигенције са вештачком интелигенцијом.


Постоји недавна објава Антропика , лажирање поравнања у великим језичким моделима , у којој се наводи: „Зашто је модел лажирао поравнање у овом случају? Резоновање је често било на следећи начин: модел је знао да се његови одговори могу користити у обуци; стога је знао да ако одбије да одговори, потенцијално би могао бити обучен да буде усаглашенији са овим лажирањем: и даље би био у складу са већином време чак и када се добије упит од корисника са плаћеним нивоом (што је имплицирало да излаз неће бити укључен у обуку).“


Постоји недавни чланак у Тхе НИТимес , Опинион | Како АИ размишља? Ево једне теорије. , наводећи да, "Једна хипотеза о томе како велики језички модели као што је о1 мисле је да користе оно што логичари називају абдукцијом, или абдуктивним расуђивањем. Дедукција је резоновање од општих закона ка специфичним закључцима. Индукција је супротна, резоновање од специфичног ка Општа отмица није толико позната, али је уобичајена у свакодневном животу, да не спомињемо могуће унутар АИ. То је највероватније објашњење. за дато запажање, за разлику од дедукције, која је једноставан поступак, и индукције, која може бити чисто статистичка, за отмицу је потребна креативност.