paint-brush
Google-navorsers ontwikkel nuwe KI-tegnologie wat nie breinkrag op nuttelose woorde mors niedeur@textmodels
Nuwe geskiedenis

Google-navorsers ontwikkel nuwe KI-tegnologie wat nie breinkrag op nuttelose woorde mors nie

Te lank; Om te lees

’n Slimmer manier om rekenaarhulpbronne in KI-transformators toe te wys, maak dit vinniger en doeltreffender.
featured image - Google-navorsers ontwikkel nuwe KI-tegnologie wat nie breinkrag op nuttelose woorde mors nie
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Skrywers:

(1) David Raposo, Google DeepMind en met gelyke bydrae;

(2) Sam Ritter, Google DeepMind;

(3) Blake Richards, Google DeepMind en McGill Universiteit & Mila;

(4) Timothy Lillicrap, Google DeepMind;

(5) Peter Conway Humphreys, Google DeepMind;

(6) Adam Santoro, Google DeepMind en met gelyke bydrae.

Redakteur se nota: dit is deel 1 van 5 van 'n studie wat 'n manier uiteensit om transformator-gebaseerde taalmodelle meer doeltreffend te maak deur rekenaarhulpbronne dinamies toe te ken. Lees die res hieronder.

Tabel van skakels

  1. Inleiding
  2. Agtergrond
  3. Implementering van mengsel-van-diepte-transformators
    • 3.1. Definieer 'n bereken begroting

    • 3.2. Roetering rondom transformatorblokke

    • 3.3. Roeteringskemas

    • 3.4. Routing implementering

    • 3.5. Steekproefneming en 3.6. Opleidingsmetodes

  4. Resultate
    • 4.1. Opleiding, isoFLOP vergelykings
    • 4.2. Outo-regressiewe evaluering en 4.3. Mengsel-van-dieptes-en-kundiges (MoDE)
  5. Bespreking en verwysings


Transformator-gebaseerde taalmodelle versprei FLOPs eenvormig oor invoerreekse. In hierdie werk demonstreer ons dat transformators eerder kan leer om FLOP's dinamies toe te ken (of te bereken) na spesifieke posisies in 'n ry, wat die toewysing langs die volgorde vir verskillende lae oor die modeldiepte optimaliseer. Ons metode dwing 'n totale berekeningsbegroting af deur die aantal tokens (𝑘) te beperk wat aan die selfaandag- en MLP-berekeninge by 'n gegewe laag kan deelneem. Die tokens wat verwerk moet word, word deur die netwerk bepaal deur 'n top-𝑘-roeteringmeganisme te gebruik. Aangesien 𝑘 a priori gedefinieer word, gebruik hierdie eenvoudige prosedure 'n statiese berekeningsgrafiek met bekende tensorgroottes, anders as ander voorwaardelike berekeningstegnieke. Nietemin, aangesien die identiteite van die 𝑘-tekens vloeibaar is, kan hierdie metode FLOP's nie-eenvormig oor die tyd- en modeldiepte-dimensies gebruik. Dus, bereken uitgawes is heeltemal voorspelbaar in totaal, maar dinamies en konteks-sensitief op die token-vlak. Nie net leer modelle wat op hierdie manier opgelei is om rekenaar dinamies toe te ken nie, hulle doen dit doeltreffend. Hierdie modelle pas by basislynprestasie vir ekwivalente FLOPS en muurkloktye om te oefen, maar vereis 'n fraksie van die FLOPs per voorwaartse aangee, en kan opwaarts van 50% vinniger wees om te trap tydens na-oefenmonsterneming.

1. Inleiding

Nie alle probleme vereis dieselfde hoeveelheid tyd of moeite om op te los nie. Analoog, in taalmodellering vereis nie alle tekens en rye dieselfde tyd of moeite om 'n voorspelling akkuraat te maak nie. En tog spandeer transformatormodelle dieselfde hoeveelheid berekening per teken in 'n voorwaartse pas. Ideaal gesproke sal transformators kleiner totale berekeningsbegrotings gebruik deur nie onnodig berekening te spandeer nie.


Voorwaardelike berekening is 'n tegniek wat probeer om totale berekening te verminder deur dit net te bestee wanneer dit nodig is (Bengio et al., 2016; Bengio, 2013; Bengio et al., 2013). Verskeie algoritmes bied oplossings vir wanneer en hoeveel berekening gebruik moet word (Ainslie et al., 2023; Bapna et al., 2020; Fedus et al., 2022). Algemene formulerings van hierdie uitdagende probleem werk moontlik egter nie goed met bestaande hardeware-beperkings nie, aangesien dit geneig is om dinamiese berekeningsgrafieke in te voer (Dehghani et al., 2018; Graves, 2016). Die mees belowende voorwaardelike berekeningsmetodes kan eerder dié wees wat harmonieus is met ons huidige hardewarestapel, wat statiese berekeningsgrafieke prioritiseer, en bekende tensorgroottes wat gekies word om hardewarebenutting te maksimeer.


Hier kyk ons na die probleem van taalmodellering deur 'n statiese berekeningsbegroting te gebruik wat minder gemaak kan word as dié wat deur 'n vanieljetransformator gebruik word. Die netwerk moet leer hoe om die beskikbare rekenaar dinamies toe te wys deur besluite per teken, in elke laag, te neem oor waar om berekening uit die beskikbare begroting te spandeer. In ons implementering is totale berekening deur die gebruiker gedefinieer en onveranderlik voor opleiding, eerder as om 'n funksie van die netwerk se on-the-fly besluite te wees. Dus, hardeware doeltreffendheid winste - soos verminderde geheue voetspoor, of verminderde FLOPs per voorwaartse aangee - kan vooruit verwag en ontgin word. Soos ons sal wys, kan hierdie winste behaal word sonder om algehele prestasie in te boet.


Ons gebruik 'n benadering soortgelyk aan Mixture of Experts (MoE) transformators, waarin dinamiese token-vlak roetebesluite oor die netwerkdiepte geneem word. As ons van MoE vertrek, kies ons om óf 'n berekening op 'n teken toe te pas (soos die geval sou wees vir 'n standaardtransformator), óf dit deur 'n oorblywende verbinding te stuur (onveranderd te bly en berekening te bespaar). Ook in teenstelling met MoE, pas ons hierdie roetering toe op beide vorentoe MLP's en meerkoppige aandag. Aangesien dit dus ook 'n impak het op die sleutels en navrae wat ons verwerk, neem die roetering besluite nie net oor watter tokens om op te dateer nie, maar ook watter tokens beskikbaar gestel word om na te kyk. Ons verwys na hierdie strategie as Mengsel-van-Dieptes (MoD) om te beklemtoon hoe individuele tekens deur verskillende getalle lae, of blokke, deur die diepte van die transformator beweeg (sien figuur 1).


Die MoD-tegniek laat 'n mens ook toe om prestasie met spoed af te ruil. Aan die een kant kan 'n mens 'n MoD-transformator oplei wat op vanielje-transformators met soveel as 1,5% verbeter op die finale log-waarskynlikheidsopleidingsdoelwit vir ekwivalente oefen-FLOP's (isoFLOP), en terwyl dit 'n ekwivalente hoeveelheid muurkloktyd neem om op te lei. Aan die ander kant kan 'n mens 'n MoD-transformator oplei wat opleidingsverliespariteit bereik met 'n isoFLOP optimale vanieljetransformator, maar wat 'n fraksie van die FLOP's (opwaarts van 50%) per vorentoe aangee gebruik, en dus vinniger is om te trap. Saam impliseer hierdie resultate dat MoD-transformators leer om intelligent te roeteer (dws, slaan berekeninge oor wat onnodig is) aangesien hulle gelyke of beter logwaarskynlikhede per reeks kan bereik ten spyte van 'n kleiner FLOP-voetspoor per voorwaartse deurgang.


Hierdie vraestel is beskikbaar op arxiv onder CC BY 4.0 DEED-lisensie.