paint-brush
دانشمندان روسی اولین معماری متن به تصویر را با استفاده از تصویر قبلی، انتشار پنهان توسعه دادند.توسط@autoencoder
208 قرائت تاریخ جدید

دانشمندان روسی اولین معماری متن به تصویر را با استفاده از تصویر قبلی، انتشار پنهان توسعه دادند.

خیلی طولانی؛ خواندن

محققان یک مدل تولید متن به تصویر به نام کاندینسکی ایجاد کرده‌اند که از یک مدل انتشار پنهان جدید برای تولید تصاویری که طبیعی به نظر می‌رسند استفاده می‌کند.
featured image - دانشمندان روسی اولین معماری متن به تصویر را با استفاده از تصویر قبلی، انتشار پنهان توسعه دادند.
Auto Encoder: How to Ignore the Signal Noise HackerNoon profile picture
0-item

نویسندگان:

(1) Anton Razzhigaev، AIRI و Skoltech.

(2) Arseniy Shakhmatov، Sber AI;

(3) آناستازیا مالتسوا، Sber AI؛

(4) ولادیمیر آرکیپکین، Sber AI؛

(5) ایگور پاولوف، Sber AI;

(6) ایلیا ریابوف، Sber AI؛

(7) آنجلینا کوتس، Sber AI;

(8) الکساندر پانچنکو، AIRI و Skoltech.

(9) آندری کوزنتسوف، AIRI و Sber AI.

(10) Denis Dimitrov، AIRI و Sber AI.


یادداشت ویرایشگر: این قسمت 1 از 8 مطالعه ای است که جزئیات توسعه کاندینسکی را شرح می دهد، اولین معماری متن به تصویر که با استفاده از ترکیبی از انتشار تصویر قبلی و پنهان طراحی شده است. بقیه را در ادامه بخوانید.

جدول پیوندها


چکیده

تولید متن به تصویر یک حوزه مهم در بینایی کامپیوتری مدرن است و از طریق تکامل معماری های مولد به پیشرفت های قابل توجهی دست یافته است. در این میان، مدل‌های مبتنی بر انتشار وجود دارند که پیشرفت‌های کیفی ضروری را نشان داده‌اند. این مدل ها به طور کلی به دو دسته تقسیم می شوند: رویکردهای سطح پیکسل و سطح پنهان. ما کاندینسکی [1] را ارائه می‌کنیم، یک کاوش جدید در معماری انتشار نهفته، که اصول مدل‌های قبلی تصویر را با تکنیک‌های انتشار پنهان ترکیب می‌کند. مدل قبلی تصویر به طور جداگانه برای نگاشت جاسازی های متن به جاسازی های تصویر CLIP آموزش داده شده است. یکی دیگر از ویژگی های متمایز مدل پیشنهادی، پیاده سازی اصلاح شده MoVQ است که به عنوان جزء رمزگذار خودکار تصویر عمل می کند. به طور کلی، مدل طراحی شده شامل 3.3B پارامتر است. ما همچنین یک سیستم نمایشی کاربرپسند را مستقر کردیم که از حالت‌های تولیدی متنوعی مانند تولید متن به تصویر، ترکیب تصویر، ترکیب متن و تصویر، تولید تغییرات تصویر، و نقاشی داخلی/خارجی با هدایت متن پشتیبانی می‌کند. علاوه بر این، ما کد منبع و نقاط بازرسی مدل‌های کاندینسکی را منتشر کردیم. ارزیابی‌های تجربی امتیاز FID 8.03 را در مجموعه داده COCO-30K نشان می‌دهد که مدل ما را به عنوان بهترین عملکرد منبع باز از نظر کیفیت تولید تصویر قابل اندازه‌گیری نشان می‌دهد.

1 مقدمه

در مدت زمان بسیار کوتاهی، توانایی‌های تولیدی مدل‌های تبدیل متن به تصویر به‌طور قابل‌توجهی بهبود یافته است و کیفیت واقعی عکس، سرعت استنتاج تقریباً زمان واقعی، تعداد زیادی برنامه‌ها و ویژگی‌ها، از جمله وب ساده با کاربری آسان را در اختیار کاربران قرار می‌دهد. پلتفرم های مبتنی بر و ویرایشگرهای گرافیکی پیشرفته هوش مصنوعی.


این مقاله تحقیقات منحصر به فرد ما را در مورد طراحی معماری انتشار پنهان ارائه می دهد و دیدگاهی تازه و نوآورانه را در این زمینه مطالعاتی پویا ارائه می دهد. ابتدا معماری جدید کاندینسکی و جزئیات آن را شرح می دهیم. سیستم نمایشی با ویژگی های پیاده سازی شده مدل نیز شرح داده شده است. دوم، آزمایش‌های انجام‌شده از نظر کیفیت تولید تصویر را نشان می‌دهیم و بالاترین امتیاز FID را در بین مدل‌های منبع باز موجود به دست می‌آوریم. علاوه بر این، ما مطالعه دقیق فرسایش تنظیمات قبلی را که انجام داده‌ایم ارائه می‌کنیم، که به ما امکان می‌دهد پیکربندی‌های مختلف را به دقت تجزیه و تحلیل و ارزیابی کنیم تا به موثرترین و دقیق‌ترین طراحی مدل برسیم.


کمک های ما به شرح زیر است:


• ما اولین معماری متن به تصویر را ارائه می کنیم که با استفاده از ترکیبی از انتشار تصویر قبلی و پنهان طراحی شده است.


• ما نتایج تجربی قابل مقایسه با مدل‌های پیشرفته (SotA) مانند Stable Diffusion، IF، و DALL-E 2 را از نظر متریک FID نشان می‌دهیم و امتیاز SotA را در بین تمام مدل‌های منبع باز موجود به دست می‌آوریم.


• ما یک پیاده سازی نرم افزاری از روش پیشرفته پیشنهادی برای تولید متن به تصویر ارائه می دهیم و مدل های از پیش آموزش دیده را منتشر می کنیم که در بین روش های عملکرد برتر منحصر به فرد است. مجوز آپاچی 2.0 استفاده از مدل را هم برای مقاصد غیرتجاری و هم برای اهداف تجاری ممکن می سازد.2 3


• ما یک برنامه ویرایشگر تصویر وب ایجاد می کنیم که می تواند برای تولید تعاملی تصاویر توسط اعلان های متنی استفاده شود (زبان های انگلیسی و روسی پشتیبانی می شوند) بر اساس روش پیشنهادی، و عملکرد inpainting/outpainting را ارائه می دهد. YouTube.5


شکل 1: طرح قبلی تصویر و رژیم های استنتاج مدل کاندینسکی.



[1] این سیستم از نام واسیلی کاندینسکی، نقاش مشهور و نظریه پرداز هنر نامگذاری شده است.


[2] https://github.com/ai-forever/Kandinsky-2


[3] https://huggingface.co/kandinsky-community


[4] https://fusionbrain.ai/en/editor


[5] https://www.youtube.com/watch?v=c7zHPc59cWU

L O A D I N G
. . . comments & more!

About Author

Auto Encoder: How to Ignore the Signal Noise HackerNoon profile picture
Auto Encoder: How to Ignore the Signal Noise@autoencoder
Research & publications on Auto Encoders, revolutionizing data compression and feature learning techniques.

برچسب ها را آویزان کنید

این مقاله در ارائه شده است...