paint-brush
Google изилдөөчүлөрү акылдын күчүн пайдасыз сөздөргө коротпогон жаңы AI технологиясын иштеп чыгыштытарабынан@textmodels
Жаңы тарых

Google изилдөөчүлөрү акылдын күчүн пайдасыз сөздөргө коротпогон жаңы AI технологиясын иштеп чыгышты

тарабынан Writings, Papers and Blogs on Text Models4m2025/02/22
Read on Terminal Reader

өтө узун; Окуу

AI трансформаторлорунда эсептөө ресурстарын бөлүштүрүүнүн акылдуу жолу аларды тезирээк жана натыйжалуураак кылууда.
featured image - Google изилдөөчүлөрү акылдын күчүн пайдасыз сөздөргө коротпогон жаңы AI технологиясын иштеп чыгышты
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Авторлор:

(1) Дэвид Рапосо, Google DeepMind жана бирдей салым менен;

(2) Сэм Риттер, Google DeepMind;

(3) Блейк Ричардс, Google DeepMind жана МакГилл университети & Мила;

(4) Тимоти Лилликрап, Google DeepMind;

(5) Питер Конвей Хамфрис, Google DeepMind;

(6) Адам Санторо, Google DeepMind жана бирдей салым менен.

Редакциянын эскертүүсү: бул эсептөө ресурстарын динамикалык бөлүштүрүү аркылуу трансформаторго негизделген тил моделдерин натыйжалуураак кылуунун жолун чагылдырган изилдөөнүн 5-бөлүгүнүн 1-бөлүгү. Калганын төмөндө оку.

Шилтемелер таблицасы

  1. Introduction
  2. Фон
  3. Аралашма-тереңдик трансформаторлорду ишке ашыруу
    • 3.1. Эсептөө бюджетин аныктоо

    • 3.2. Трансформатордук блоктордун айланасында маршруттук каттам

    • 3.3. Маршруттук схемалар

    • 3.4. Маршрутизацияны ишке ашыруу

    • 3.5. Тандоо жана 3.6. Окутуу ыкмалары

  4. Жыйынтыктар
    • 4.1. Тренинг, isoFLOP салыштыруу
    • 4.2. Авто-регрессивдүү баалоо жана 4.3. Тереңдик менен Эксперттердин аралашмасы (MoDE)
  5. Талкуу жана Шилтемелер


Трансформаторго негизделген тил моделдери FLOPтарды киргизүү ырааттуулугу боюнча бирдей таратышат. Бул иште биз трансформаторлор анын ордуна FLOPтарды (же эсептөөнү) ырааттуулукта белгилүү бир позицияларга динамикалык түрдө бөлүштүрүүнү үйрөнө аларын көрсөтүп, моделдин тереңдиги боюнча ар кандай катмарлар үчүн ырааттуулук боюнча бөлүштүрүүнү оптималдаштыруу. Биздин ыкма берилген катмардагы өзүнө көңүл бурууга жана MLP эсептөөлөрүнө катыша турган токендердин санын (𝑘) чектөө менен жалпы эсептөө бюджетин ишке ашырат. Иштелип чыгуучу токендер тармак тарабынан top-𝑘 багыттоо механизми аркылуу аныкталат. 𝑘 априори аныкталгандыктан, бул жөнөкөй процедура башка шарттуу эсептөө ыкмаларынан айырмаланып, белгилүү тензордук өлчөмдөрү бар статикалык эсептөө графигин колдонот. Ошого карабастан, 𝑘 токендеринин идентификациясы суюк болгондуктан, бул ыкма убакыт жана моделдин тереңдик өлчөмдөрү боюнча FLOPтарды бирдей эмес жумшай алат. Ошентип, эсептөө чыгымдары жалпы суммада толугу менен болжолдонууга болот, бирок токен деңгээлинде динамикалык жана контекстке сезимтал. Ушундай жол менен үйрөтүлгөн моделдер эсептөөнү динамикалык бөлүштүрүүнү гана үйрөнбөстөн, алар муну натыйжалуу аткарышат. Бул моделдер окутуу үчүн эквиваленттүү FLOPS жана дубал сааты үчүн базалык көрсөткүчтөргө дал келет, бирок алдыга өтүү үчүн FLOPдардын бир бөлүгүн талап кылат жана машыгуудан кийинки үлгүлөрдү алууда кадам таштоо үчүн 50% тезирээк болушу мүмкүн.

1. Киришүү

Бардык көйгөйлөрдү чечүү үчүн бирдей убакыт же күч талап кылынбайт. Окшош түрдө, тилди моделдөөдө бардык токендер жана ырааттуулуктар болжолдоону так жасоо үчүн бирдей убакытты же күчтү талап кылбайт. Ошондой болсо да, трансформатордук моделдер алдыга өтүүдө бир токенге бирдей сандагы эсептөөлөрдү сарптайт. Идеалында, трансформаторлор керексиз эсептөөлөрдү коротпостон, кичирээк жалпы эсептөө бюджеттерин колдонушат.


Шарттуу эсептөө зарыл болгондо гана аны сарптоо менен жалпы эсептөөнү кыскартууга аракет кылган ыкма (Bengio et al., 2016; Bengio, 2013; Bengio et al., 2013). Ар кандай алгоритмдер эсептөөнү качан жана канча колдонуу керектигин чечүүнү сунуштайт (Ainslie et al., 2023; Bapna et al., 2020; Fedus et al., 2022). Бирок, бул татаал маселенин жалпы формулировкасы учурдагы аппараттык чектөөлөр менен жакшы иштебеши мүмкүн, анткени алар динамикалык эсептөө графиктерин киргизүүгө жакын (Dehghani et al., 2018; Graves, 2016). Эң келечектүү шарттуу эсептөө ыкмалары, тескерисинче, биздин учурдагы аппараттык стек менен шайкеш келген, статикалык эсептөө графиктерине артыкчылык берген жана аппараттык каражаттарды максималдуу пайдалануу үчүн тандалган белгилүү тензордук өлчөмдөр болушу мүмкүн.


Бул жерде биз ваниль трансформатору колдонгондон азыраак жасала турган статикалык эсептөө бюджетин колдонуу менен тилди моделдөө маселесин карайбыз. Тармак ар бир катмарда ар бир токен боюнча чечим кабыл алуу менен жеткиликтүү эсептөөнү динамикалык түрдө бөлүштүрүүнү үйрөнүшү керек, жеткиликтүү бюджеттен эсептөөнү кайда сарптоо керек. Биздин ишке ашырууда жалпы эсептөө колдонуучу тарабынан аныкталган жана машыгууга чейин өзгөрүлбөйт, тескерисинче, тармактын ыкчам чечимдеринин функциясы эмес. Ошентип, аппараттык камсыздоонун эффективдүүлүгүн, мисалы, эс тутумдун көлөмүн кыскартуу же алдыга өтүү үчүн FLOPs кыскартуу сыяктуу - алдын ала болжолдонуп, колдонууга болот. Көрсөтө турганыбыздай, бул жетишкендиктерге жалпы көрсөткүчтү жоготпостон жетишүүгө болот.


Биз тармактын тереңдиги боюнча динамикалык маршруттук чечимдер кабыл алынган Эксперттердин аралашмасы (ЭМ) трансформаторлоруна окшош ыкманы колдонобуз. Министрликтен чыгып, биз же токенге эсептөөнү колдонууну тандайбыз (стандарттык трансформатордогудай), же аны калдык туташуу аркылуу өткөрөбүз (өзгөрүүсүз жана үнөмдөөчү эсептөө). Ошондой эле, Министрликтен айырмаланып, биз бул маршрутту алдыга MLPлерге да, көп баштуу көңүл бурууга да колдонобуз. Бул биз иштеп жаткан ачкычтарга жана суроо-талаптарга да таасирин тийгизгендиктен, маршрутизация кайсы токендерди жаңыртуу жөнүндө гана эмес, ошондой эле кайсы токендерге катышуу үчүн жеткиликтүү кылуу жөнүндө чечим кабыл алат. Биз бул стратегияны Mixture-of-Depths (MOD) деп атайбыз, жеке токендер трансформатордун тереңдиги аркылуу ар кандай катмарлар же блоктор аркылуу кантип өтөөрүн баса белгилейбиз (1-сүрөттү караңыз).


MoD техникасы ошондой эле ылдамдык менен аткарууну алмаштырууга мүмкүндүк берет. Бир жагынан алганда, FLOPs (isoFLOP) эквиваленттүү окутуу үчүн акыркы журнал ыктымалдыгы боюнча окуу максаты боюнча ваниль трансформаторлорун 1,5% га жакшыртуучу MOD трансформаторун үйрөтсө болот, ал эми окууга барабар убакытты талап кылат. Экинчи жагынан, isoFLOP оптималдуу ваниль трансформатору менен машыгуу жоготуу паритетине жеткен, бирок алдыга өтүүдө FLOPдардын бир бөлүгүн (50% дан жогору) колдонгон, демек, кадам таштоо ылдамыраак болгон MoD трансформаторун үйрөтсө болот. Бул жыйынтыктар биригип, МоД трансформаторлору интеллектуалдык багытты үйрөнүшөт (б.а., керексиз эсептөөлөрдү өткөрүп жиберүү), анткени алар алдыга өтүүдө азыраак FLOP изине карабастан, ырааттуулугу боюнча бирдей же жакшыраак журнал ыктымалдыктарына жетише алышат.



L O A D I N G
. . . comments & more!

About Author

Writings, Papers and Blogs on Text Models HackerNoon profile picture
Writings, Papers and Blogs on Text Models@textmodels
We publish the best academic papers on rule-based techniques, LLMs, & the generation of text that resembles human text.

ТАГИП АЛУУ

БУЛ МАКАЛА БЕРИЛГЕН...