paint-brush
Rus alimləri Şəkildən əvvəl, gizli diffuziyadan istifadə edərək ilk mətndən şəkilə arxitektura hazırlayıblartərəfindən@autoencoder
208 oxunuşlar Yeni tarix

Rus alimləri Şəkildən əvvəl, gizli diffuziyadan istifadə edərək ilk mətndən şəkilə arxitektura hazırlayıblar

Çox uzun; Oxumaq

Tədqiqatçılar təbii görünən şəkillər yaratmaq üçün yeni gizli diffuziya modelindən istifadə edən Kandinsky adlı mətndən-şəklə nəsil modelini hazırlayıblar.
featured image - Rus alimləri Şəkildən əvvəl, gizli diffuziyadan istifadə edərək ilk mətndən şəkilə arxitektura hazırlayıblar
Auto Encoder: How to Ignore the Signal Noise HackerNoon profile picture
0-item

Müəlliflər:

(1) Anton Razziqayev, AIRI və Skoltech;

(2) Arseni Shakhmatov, Sber AI;

(3) Anastasiya Maltseva, Sber AI;

(4) Vladimir Arkhipkin, Sber AI;

(5) İqor Pavlov, Sber AI;

(6) İlya Ryabov, Sber AI;

(7) Angelina Kuts, Sber AI;

(8) Alexander Panchenko, AIRI və Skoltech;

(9) Andrey Kuznetsov, AIRI və Sber AI;

(10) Denis Dimitrov, AIRI və Sber AI.


Redaktorun qeydi: Bu, təsvirin əvvəlki və gizli yayılmasının birləşməsindən istifadə etməklə hazırlanmış ilk mətndən-şəklə arxitektura olan Kandinskinin inkişafını təfərrüatlandıran araşdırmanın 8-ci hissəsidir. Qalanını aşağıda oxuyun.

Bağlantılar Cədvəli


mücərrəd

Mətn-şəklə generasiya müasir kompüter görmə sahəsində əhəmiyyətli bir sahədir və generativ arxitekturaların təkamülü vasitəsilə əhəmiyyətli təkmilləşdirmələrə nail olmuşdur. Bunların arasında əsas keyfiyyət təkmilləşdirmələrini nümayiş etdirən diffuziya əsaslı modellər var. Bu modellər ümumiyyətlə iki kateqoriyaya bölünür: piksel səviyyəli və gizli səviyyəli yanaşmalar. Biz latent diffuziya arxitekturasının yeni kəşfi olan Kandinskini[1] təqdim edirik, əvvəlki modellərin təsvir prinsiplərini gizli diffuziya üsulları ilə birləşdiririk. Şəkildən əvvəlki model, mətn daxiletmələrini CLIP-in şəkil daxiletmələrinə uyğunlaşdırmaq üçün ayrıca öyrədilir. Təklif olunan modelin başqa bir fərqləndirici xüsusiyyəti, təsvirin avtokodlayıcı komponenti kimi xidmət edən dəyişdirilmiş MoVQ tətbiqidir. Ümumilikdə dizayn edilmiş model 3.3B parametrləri ehtiva edir. Biz həmçinin, mətndən-şəklə generasiya, təsvirin birləşdirilməsi, mətn və təsvirin birləşdirilməsi, təsvirin variasiyalarının yaradılması və mətnin idarəolunan rəngləmə/çəkilmə kimi müxtəlif generativ rejimləri dəstəkləyən istifadəçi dostu demo sistemi tətbiq etdik. Bundan əlavə, Kandinsky modelləri üçün mənbə kodunu və yoxlama nöqtələrini buraxdıq. Eksperimental qiymətləndirmələr COCO-30K məlumat dəstində 8.03 FID balı nümayiş etdirir və modelimiz ölçülə bilən təsvirin yaradılması keyfiyyəti baxımından ən yaxşı açıq mənbəli ifaçı kimi qeyd olunur.

1 Giriş

Qısa müddət ərzində mətndən-şəklə çevrilmə modellərinin generativ qabiliyyətləri əhəmiyyətli dərəcədə təkmilləşərək, istifadəçilərə fotoreal keyfiyyət, real vaxta yaxın nəticə çıxarma sürəti, çoxlu sayda tətbiq və funksiyalar, o cümlədən sadə istifadəsi asan internet təqdim edir. əsaslı platformalar və mürəkkəb AI qrafik redaktorları.


Bu məqalə gizli diffuziya arxitekturası dizaynının unikal araşdırmasını təqdim edir, bu dinamik tədqiqat sahəsinə təzə və yenilikçi perspektiv təklif edir. Əvvəlcə Kandinskinin yeni memarlığını və onun detallarını təsvir edirik. Modelin tətbiq edilmiş xüsusiyyətləri ilə demo sistemi də təsvir edilmişdir. İkincisi, biz görüntü yaratmaq keyfiyyəti baxımından aparılan təcrübələri göstəririk və mövcud açıq mənbəli modellər arasında ən yüksək FID xalını əldə edirik. Bundan əlavə, biz ən effektiv və zərif model dizaynına çatmaq üçün müxtəlif konfiqurasiyaları diqqətlə təhlil etməyə və qiymətləndirməyə imkan verən əvvəlki quraşdırmaların ciddi ablasyon tədqiqatını təqdim edirik.


Bizim töhfələrimiz aşağıdakılardır:


• Biz təsvirin əvvəlki və gizli yayılmasının birləşməsindən istifadə etməklə hazırlanmış ilk mətndən-şəklə arxitekturasını təqdim edirik.


• Biz FID metrikası baxımından Stabil Diffuziya, IF və DALL-E 2 kimi ən müasir (SotA) modelləri ilə müqayisə edilə bilən eksperimental nəticələri nümayiş etdiririk və bütün mövcud açıq mənbə modelləri arasında SotA xalına nail oluruq.


• Biz mətn təsvirinin yaradılması üçün təklif olunan ən müasir metodun proqram təminatının tətbiqini təmin edirik və ən yaxşı formalaşdırma metodları arasında unikal olan əvvəlcədən hazırlanmış modelləri buraxırıq. Apache 2.0 lisenziyası modeli həm qeyri-kommersiya, həm də kommersiya məqsədləri üçün istifadə etməyə imkan verir.2 3


• Biz təklif olunan metod əsasında mətn göstərişləri ilə (İngilis və Rus dilləri dəstəklənir) şəkillərin interaktiv yaradılması üçün istifadə oluna bilən və rəngləmə/çəkilmə funksiyasını təmin edən veb-şəkil redaktoru proqramı yaradırıq.4 Video nümayişi burada mövcuddur. YouTube.5


Şəkil 1: Şəkilin əvvəlki sxemi və Kandinski modelinin nəticə çıxarma rejimləri.



[1] Sistem məşhur rəssam və sənət nəzəriyyəçisi Vasili Kandinskinin adını daşıyır.


[2] https://github.com/ai-forever/Kandinsky-2


[3] https://huggingface.co/kandinsky-community


[4] https://fusionbrain.ai/en/editor


[5] https://www.youtube.com/watch?v=c7zHPc59cWU