paint-brush
Ruski naučnici razvili prvu arhitekturu teksta u sliku koristeći prethodnu, latentnu difuziju slikeby@autoencoder
208 čitanja Nova istorija

Ruski naučnici razvili prvu arhitekturu teksta u sliku koristeći prethodnu, latentnu difuziju slike

Predugo; Citati

Istraživači su razvili model generiranja teksta u sliku nazvan Kandinsky koji koristi novi model latentne difuzije za proizvodnju slika koje izgledaju prirodno.
featured image - Ruski naučnici razvili prvu arhitekturu teksta u sliku koristeći prethodnu, latentnu difuziju slike
Auto Encoder: How to Ignore the Signal Noise HackerNoon profile picture
0-item

Autori:

(1) Anton Razžigajev, AIRI i Skoltech;

(2) Arseniy Shakhmatov, Sber AI;

(3) Anastasia Maltseva, Sber AI;

(4) Vladimir Arkhipkin, Sber AI;

(5) Igor Pavlov, Sber AI;

(6) Ilya Ryabov, Sber AI;

(7) Angelina Kuts, Sber AI;

(8) Alexander Panchenko, AIRI i Skoltech;

(9) Andrej Kuznjecov, AIRI i Sber AI;

(10) Denis Dimitrov, AIRI i Sber AI.


Napomena urednika: Ovo je dio 1 od 8 studije koja detaljno opisuje razvoj Kandinskog, prve arhitekture teksta u sliku dizajniranu korištenjem kombinacije prethodne i latentne difuzije slike. Ostatak pročitajte u nastavku.

Tabela veza


Abstract

Generisanje teksta u sliku je značajan domen u modernom kompjuterskom vidu i postiglo je značajna poboljšanja kroz evoluciju generativnih arhitektura. Među njima su modeli zasnovani na difuziji koji su pokazali suštinska poboljšanja kvaliteta. Ovi modeli su općenito podijeljeni u dvije kategorije: pristup na nivou piksela i pristup na latentnom nivou. Predstavljamo Kandinskog[1], novo istraživanje arhitekture latentne difuzije, kombinujući principe prethodnih modela slike sa tehnikama latentne difuzije. Prethodni model slike je obučen odvojeno da mapira ugrađivanje teksta u ugrađivanje slike CLIP-a. Još jedna posebna karakteristika predloženog modela je modifikovana implementacija MoVQ, koja služi kao komponenta autokodera slike. Sve u svemu, dizajnirani model sadrži 3.3B parametara. Također smo implementirali demo sistem prilagođen korisniku koji podržava različite generativne modove kao što su generiranje teksta u sliku, spajanje slika, spajanje teksta i slike, generiranje varijacija slika i slikanje/preslikavanje vođeno tekstom. Osim toga, objavili smo izvorni kod i kontrolne tačke za modele Kandinsky. Eksperimentalne evaluacije pokazuju FID rezultat od 8,03 na COCO-30K skupu podataka, označavajući naš model kao najbolji open-source performans u smislu mjerljivog kvaliteta generiranja slike.

1 Uvod

U prilično kratkom vremenskom periodu, generativne sposobnosti modela teksta u sliku su se značajno poboljšale, pružajući korisnicima fotorealističan kvalitet, brzinu zaključivanja skoro u realnom vremenu, veliki broj aplikacija i funkcija, uključujući jednostavan web jednostavan za korištenje. -bazirane platforme i sofisticirani AI grafički uređivači.


Ovaj rad predstavlja naše jedinstveno istraživanje dizajna arhitekture latentne difuzije, nudeći svježu i inovativnu perspektivu na ovo dinamično polje studija. Prvo, opisujemo novu arhitekturu Kandinskog i njene detalje. Opisan je i demo sistem sa implementiranim karakteristikama modela. Drugo, prikazujemo eksperimente, izvedene u smislu kvaliteta generisanja slike i dolazimo do najvećeg FID rezultata među postojećim open-source modelima. Pored toga, predstavljamo rigoroznu studiju ablacije prethodnih podešavanja koju smo sproveli, omogućavajući nam da pažljivo analiziramo i procijenimo različite konfiguracije kako bismo došli do najefikasnijeg i rafiniranog dizajna modela.


Naši doprinosi su sljedeći:


• Predstavljamo prvu arhitekturu teksta u sliku dizajniranu upotrebom kombinacije prethodne i latentne difuzije slike.


• Pokazujemo eksperimentalne rezultate uporedive sa najsavremenijim (SotA) modelima kao što su Stable Diffusion, IF i DALL-E 2, u smislu FID metrike i postižemo SotA rezultat među svim postojećim modelima otvorenog koda.


• Obezbeđujemo softversku implementaciju predložene najsavremenije metode za generisanje teksta u sliku i izdajemo unapred obučene modele, što je jedinstveno među metodama vrhunskog formiranja. Apache 2.0 licenca omogućava korištenje modela u nekomercijalne i komercijalne svrhe.2 3


• Kreiramo web aplikaciju za uređivanje slika koja se može koristiti za interaktivno generiranje slika tekstualnim upitima (podržani su engleski i ruski jezici) na osnovu predložene metode, i pruža funkcionalnost slikanja/preslikavanja.4 Video demonstracija je dostupna na YouTube.5


Slika 1: Prethodna shema slike i režimi zaključivanja Kandinskog modela.


Ovaj rad je dostupan na arxiv pod licencom CC BY 4.0 DEED.


[1] Sistem je nazvan po Vasiliju Kandinskom, poznatom slikaru i teoretičaru umjetnosti.


[2] https://github.com/ai-forever/Kandinsky-2


[3] https://huggingface.co/kandinsky-community


[4] https://fusionbrain.ai/en/editor


[5] https://www.youtube.com/watch?v=c7zHPc59cWU

L O A D I N G
. . . comments & more!

About Author

Auto Encoder: How to Ignore the Signal Noise HackerNoon profile picture
Auto Encoder: How to Ignore the Signal Noise@autoencoder
Research & publications on Auto Encoders, revolutionizing data compression and feature learning techniques.

HANG TAGS

OVAJ ČLANAK JE PREDSTAVLJEN U...