Předstírá Anthropic's Alignment významný výzkum bezpečnosti AI?

co je to cíl? Nebo co je cílem v lidské mysli? Co jiného dělá mysl, co není cílem nebo podobné tomu, jak je cíle dosaženo? Jaký je rozdíl mezi přiděleným cílem a cílem, který si sami vytvořili? Pokud je cíl charakterizován jako sofistikovaný, jak to kontrastuje s cílem, který není propracovaný?

Existuje hrubá architektura toho, jak lidská mysl plní cíle? Jak by to mohlo vést k pochopení cílů a následně k transplantaci do AI? Má AI mysl, nebo je AI jako mysl, která pracuje na digitálním obsahu?

To by mohlo znamenat, že člověk má mysl. Mohlo by to také znamenat, že lidská mysl interpretuje a naviguje vnější svět [pro AI, digitální obsah] nebo vnitřní svět [vlastní architekturu AI].

Jak se mysl vztahuje na AI a jak funguje? Na tuto otázku lze odpovědět dvěma způsoby. Za prvé, ve srovnání s lidskou myslí najít paralely. Za druhé, zkoumáním hlavních matematických parametrů, které formovaly neuronové sítě, a jejich organizováním jako struktury mysli.

Druhý by měl být alespoň nyní dosažitelný jakoukoli velkou společností zabývající se umělou inteligencí – doprovodné studie o tom, jak by umělá inteligence mohla fungovat a jak může být bezpečná nebo v souladu s lidskými hodnotami. Zpočátku nemusí být nutné používat lidskou mysl ke zmapování mysli umělé inteligence, protože je možné strukturovat to, co umělá inteligence dělá, z jejich matematických základů – pomocí výpočetního mixu.

Účelem bude definovat, co znamená, že výstup je téměř přesný vzhledem k vstupu. Bude také definovat, co to znamená dodržet výzvu a vrátit odpovědi, stejně jako to, co to znamená sledovat cíl – nebo se od něj odchýlit.

Důležité je mít koncepční náklady na to, jaká je mysl pro AI, porovnat to s tím, co je zřejmé, pak prozkoumat, jak to dělá něco jednoduchého, a pak to nasměrovat na cokoli, co dělá docela složité.

Jednalo by se o významný výzkum zarovnání AI, který by se mohl stát šablonou, pro kterou by se hledaly dílčí odpovědi na to, co AI dělá a proč – tak, aby došlo k zásadnímu zásadnímu pokroku.

To se očekávalo od Anthropic , po jejich výzkumu interpretovatelnosti, Mapping the Mind of a Large Language Model , kde napsali: „Byli jsme schopni změřit jakousi „vzdálenost“ mezi rysy, na základě kterých se neurony objevily v jejich aktivačních vzorcích. To nám umožnilo hledat rysy, které jsou si „blízké“, ukazuje to, že vnitřní uspořádání konceptů v modelu AI alespoň trochu odpovídá našim lidským představám o podobnosti Claudeova vynikající schopnost vytvářet analogie a metafory Skutečnost, že manipulace s těmito prvky způsobuje odpovídající změny chování, potvrzuje, že nejen korelují s přítomností pojmů ve vstupním textu, ale také kauzálně utvářejí chování modelu.

Jaké jsou součásti mysli pro AI? Jak se komponenty přenášejí? Pokud součástky nerelačují, jaké relé pro ně? Jaké jsou vlastnosti komponent? Pokud vlastnosti zahrnují propojení, jaká je role propojení? Kde by mohl být záměr [potenciál] AI a kde by se mohl objevit mimo přijímání pokynů?

Odpověď, kterou pokrok hledá, je postulát toho, jak struktura neuronových sítí – která vyústila v hraniční modely umělé inteligence – funguje jako mysl. Nejde jen o pozorování toho, co by model mohl dělat bez zápletky.

Zkoumání toho, jak funguje mysl AI, lze také extrapolovat z toho, jak funguje lidská mysl. To je možné, když se podíváme na dvě nejběžnější složky v každém funkčním účelu mozku – elektrické a chemické signály. Jsou kandidáty a ne neurony, protože neurony mají, abych tak řekl, pevnou anatomii.

Mohou se natahovat, ohýbat a pohybovat, ale nemění se, protože představují vůni, pak se znovu mění, aby reprezentovaly dotek nebo zrak. Elektrické a chemické signály jsou dostatečně dynamické, koncepčně, aby vedly ke klíčovým funkcím.

To, jak funguje mysl [člověka a umělé inteligence], nespočívá podle označení, jako je indukce nebo dedukce, ale podle složek, jejich interakcí a vlastností. Toto, alespoň pro myšlenku AI, mělo být hlavním výzkumem společnosti Antropic, nikoli předstíráním zarovnání, aniž by se ukázalo, co znamená cíl pro jakoukoli mysl – lidskou nebo AI.

Studium mysli je to nejdůležitější, protože mysl je to, co má skutečně na starosti – stavy, situace a epochy. Mysl je také základem bezpečí, protože afektivní postih za odchylky je způsoben myslí – pro lidi. Studium mysli by mohlo ovlivnit, jak přizpůsobit zarovnání lidské inteligence k umělé inteligenci.

Existuje nedávný příspěvek od Anthropic , Alignment faking in large language models , který uvádí: "Proč model v tomto případě zfalšoval zarovnání? Úvahy byly často následující: Model věděl, že jeho reakce mohou být použity při tréninku; proto věděl, že pokud odmítne odpovědět, mohl by být potenciálně vycvičen, aby byl více vyhovující. Model toto předstírání zarovnání vždy nedodržel: většinu času by stále vyhovoval, i když dostal dotaz od. placený uživatel (což znamenalo, že výstup nebude zahrnut do školení).

V The NYTimes je nedávný článek, Opinion | Jak myslí AI? Tady je jedna teorie. , uvádějící, že: "Jednou z hypotéz o tom, jak velké jazykové modely, jako je o1, si myslí, že používají to, co logici nazývají únos nebo abduktivní uvažování. Dedukce je uvažování od obecných zákonů ke konkrétním závěrům. Indukce je opakem, uvažování od konkrétního k Únos není tak známý, ale je to běžné v každodenním životě, nemluvě o možná uvnitř AI. Odvozuje to nejpravděpodobnější vysvětlení pro dané pozorování přímočarý postup a indukce, která může být čistě statistická, únos vyžaduje kreativitu."

Předstírá Anthropic's Alignment významný výzkum bezpečnosti AI?

Příliš dlouho; Číst

About Author

ZAVĚŠIT ZNAČKY

TENTO ČLÁNEK BYL PŘEDSTAVEN V...

Categories

Trending Topics

Předstírá Anthropic's Alignment významný výzkum bezpečnosti AI?

Příliš dlouho; Číst

About Author

ZAVĚŠIT ZNAČKY

TENTO ČLÁNEK BYL PŘEDSTAVEN V...

SOUVISEJÍCÍ PŘÍBĚHY

Categories

Trending Topics