Recraft AI ialah alat reka bentuk yang dikuasakan oleh model penyebaran proprietari. Model baharu mereka Red Panda mengatasi semua model teks-ke-imej sedia ada termasuk Midjourney, DALL-E 3, FLUX. Recraft menggabungkan pengalaman pengguna yang unik untuk pereka bentuk dengan alatan AI yang canggih. Untuk menyokong berjuta-juta pengguna, model resapan memerlukan infrastruktur inferens yang mantap—menggabungkan perkakasan berkuasa dengan perisian yang cekap. Dalam artikel ini, kami akan meneroka cara alat pecutan AI TheStage membantu jurutera dan penyelidik AI Recraft untuk mencapai prestasi sehingga 2x ganda pada GPU Nvidia melalui antara muka Python yang intuitif!
pengenalan
Model penyebaran telah menunjukkan hasil yang luar biasa dalam beberapa tahun kebelakangan ini untuk penjanaan kandungan, termasuk imej, muzik, video dan jejaring 3D. Model ini menggunakan kos pengiraan masa inferens untuk meningkatkan hasil penjanaan secara berulang, mengemas kini sedikit output pada setiap langkah inferens. Kini kita boleh melihat analogi dalam LLM yang menggunakan penaakulan melalui inferens berbilang langkah untuk memberikan jawapan berkualiti tinggi.
Dalam TheStage AI kami sedang membina rangka kerja matematik am untuk model PyTorch sewenang-wenangnya untuk mengendalikan aliran pecutan model yang rumit sepenuhnya secara automatik. Sistem kami secara automatik mengesan pengoptimuman sedia ada pada perkakasan anda (kunatisasi, sparsifikasi) dan pilih untuk setiap lapisan algoritma yang betul untuk mencapai kualiti terbaik dengan saiz model yang dikehendaki dan kekangan kependaman atau mencari pecutan terbaik dengan kekangan kualiti terhad. Ia adalah masalah matematik yang sukar yang boleh kita selesaikan dengan cara yang sangat cekap! Artikel ini meneroka cara kami menggunakan alatan ini melalui perkongsian kami dengan Recraft AI.
Apabila mereka bentuk alat kami, kami memutuskan untuk menghormati prinsip berikut:
- Penyesuaian perkakasan. Produk AI berkualiti tinggi sudah mempunyai infrastruktur pilihan mereka
- Pemeliharaan kualiti. Produk AI berkualiti tinggi tidak boleh menerima penurunan kualiti
- Privasi. Produk AI berkualiti tinggi mahu merahsiakan teknologi mereka dan berfungsi dengan alatan pada infrastruktur mereka sendiri
- DNS sewenang-wenangnya. Produk AI berkualiti tinggi mungkin menggunakan seni bina dibangunkan dalaman yang alat pecutan awam untuk model sumber terbuka tidak dapat mengendalikan seni bina DNN yang kompleks untuk menghasilkan output yang betul.
- Pytorch. Rangka kerja yang paling popular dan mudah untuk ramai jurutera AI.
Memandangkan syarat awal ini, kami menyasarkan untuk mencipta alat dengan ciri berikut:
- Pecutan yang boleh dikawal. Kami merangka pengoptimuman inferens sebagai masalah pengoptimuman perniagaan, yang membolehkan pelanggan menentukan saiz model, kependaman atau kualiti yang mereka inginkan untuk data mereka.
- Kompilasi ringkas. Menyusun model yang dihasilkan untuk pelaksanaan perkakasan yang cekap hanya memerlukan satu baris kod. Kami juga menyediakan antara muka yang mudah untuk mengendalikan pecahan graf.
- Permulaan sejuk yang cepat. Untuk mencapai permulaan sejuk terpantas mungkin, kami membolehkan penjimatan model yang disusun. Inilah sebabnya kami tidak menggunakan pengkompil JIT.
- Kerahan mudah. Menggunakan model yang dioptimumkan hendaklah semudah menggunakan model asal.
Model Resapan Teks-ke-Imej
Dalam setiap lelaran proses resapan, rangkaian saraf menafikan imej dalam ruang terpendam AutoEncoder Variasi. Imej yang baru diperoleh kemudian dicampur dengan hingar semula, tetapi dengan berat yang semakin berkurangan. Semasa lelaran awal, model resapan melakar adegan utama, memanfaatkan berat bunyi yang ketara untuk membuat peningkatan yang ketara. Dalam lelaran kemudian, ia memperhalusi butiran frekuensi tinggi. Pemerhatian ini membolehkan kami mereka bentuk saluran paip pecutan khusus dengan memperuntukkan kapasiti rangkaian secara strategik merentas lapisan daripada lelaran kepada lelaran, mengekalkan kualiti. Walau bagaimanapun, peruntukan sedemikian memerlukan alat khusus yang menggabungkan cerapan matematik dengan kejuruteraan yang baik — di sinilah TheStage AI boleh membantu dengan ketara!
Pecutan dan Mampatan Model Resapan
Mempercepatkan model penyebaran boleh dilihat sebagai mempercepatkan DNN sewenang-wenangnya, tetapi kita perlu mengambil kira cabaran tertentu. Sebagai contoh, pengkuantitian statik, yang biasanya memberikan pecutan yang ketara, memperkenalkan cabaran dalam model resapan apabila pengagihan pengaktifan berubah daripada lelaran kepada lelaran. Untuk menangani perkara ini, kita sama ada perlu menganggarkan nilai optimum dengan betul untuk semua lelaran atau menggunakan persediaan pengkuantitian yang berbeza untuk setiap lelaran.
Model resapan mencabar untuk dilatih dan mencapai prestasi tinggi. Namun begitu, hasil yang ditunjukkan oleh pasukan Recraft mengatasi semua model teks-ke-imej moden . Mengesahkan kemerosotan model sedemikian boleh menjadi sukar, menjadikannya penting untuk menggunakan teknik pecutan yang mengekalkan semantik ciri asal. Algoritma kuantisasi boleh menjadi pilihan yang baik jika ia boleh menangani cabaran pengagihan pengaktifan yang berbeza-beza. Mari kita lihat pada saluran paip automatik kami, yang akan kami terangkan dalam bahagian berikut.
Pemprofilan
Memprofilkan model tertentu dengan data khusus membolehkan:
- Tentukan saiz setiap parameter
- Kenal pasti algoritma kuantisasi, sparsifikasi, pemangkasan yang berkenaan untuk setiap blok asas
- Anggarkan kependaman untuk blok individu dengan susun atur memori yang berbeza
- Susun semua maklumat yang dikumpul untuk ANNA (Automated NNs Accelerator)
Pemampatan & Pecutan Automatik
Selepas pemprofil telah mengumpulkan semua data yang diperlukan, kami boleh memulakan papan ANNA kami dan menggerakkan peluncur untuk menghasilkan versi model yang dioptimumkan yang berbeza. Pengguna kami kemudiannya boleh memilih calon terbaik berdasarkan pertukaran kos kualiti vs inferens. Alat kami mengendalikan keputusan kualiti subjektif ini dengan cara yang mudah.
Operasi Gabungan dan Penyusunan
Seperti yang dinyatakan sebelum ini, kami tidak menggunakan kompilasi JIT kerana ia meningkatkan masa mula sejuk nod baharu. Kami juga tidak menggunakan penyusun luar biasa. Sebaliknya, kami menyusun konfigurasi dipercepatkan kompleks kami sendiri yang boleh mencampurkan algoritma yang berbeza. Untuk mencapai matlamat ini, kami telah membangunkan protokol dalaman kami sendiri untuk menentukan lapisan dipercepatkan DNN dalam cara agnostik perkakasan. Salah satu faedah utama rangka kerja pecutan AI TheStage ialah satu pusat pemeriksaan boleh disusun untuk pelbagai perkakasan, menyelesaikan keserasian merentas platform untuk perisian AI. Ciri ini akan menjadi penting terutamanya untuk penggunaan peranti tepi dalam pembangunan aplikasi.
Matlamat penyusun DNN adalah untuk:
- Penyederhanaan Graf. Permudahkan graf pelaksanaan melalui gabungan operasi matematik, mengurangkan masa inferens
- Pengurusan Memori. Kira memori yang diperlukan untuk setiap operasi dan uruskan penjadualan peruntukan dengan penggunaan semula memori yang cekap
- Pelaksanaan Optimum. Profilkan pelaksanaan optimum untuk setiap operasi asas—tugas yang mencabar, kerana pelaksanaan terbaik mungkin memerlukan susun atur memori khusus, yang membawa kepada analisis sambungan interlayer
- Penjadualan Operasi. Buat jadual operasi untuk graf pelaksanaan yang dioptimumkan
- Serialisasi. Simpan semua maklumat ini untuk mengelakkan penyusunan semula model dalam larian berikutnya
Deployment dan Serving
Pelayan inferens dan saluran paip penskalaan automatik memainkan peranan penting dalam pemprosesan permintaan masuk yang kos efektif dan cekap. Ia juga boleh menyertakan pengumpulan permintaan dan pengumpulan statistik khusus untuk menyediakan penskalaan ramalan untuk penskala automatik. Dalam artikel akan datang kami, kami akan membincangkan pelayan inferens yang cekap dengan lebih terperinci!
Keputusan
Menggunakan semua saluran paip, kita boleh mencapai prestasi yang lebih baik daripada pengkompil Pytorch ( torch.compile
) dan sudah tentu jauh lebih baik daripada pelaksanaan PyTorch yang bersemangat float16. Selain itu, kerana pengkompil PyTorch menggunakan pendekatan kompilasi JIT pada setiap permulaan model, ia memerlukan penyusunan semula untuk banyak saiz input yang menjadikan permulaan sejuk cukup lama untuk aplikasi praktikal di mana kependaman adalah sangat penting.
Faedah Perniagaan
Berikut ialah faedah perniagaan utama hasil pecutan untuk produk Recraft:
- Kurangkan kos infrastruktur dengan memberi perkhidmatan dua kali lebih ramai pengguna dengan perkakasan yang sama
- Pengalaman pengguna yang dipertingkatkan dengan masa tindak balas penjanaan imej yang lebih pantas
- Keupayaan untuk melayani lebih banyak pengguna serentak semasa beban puncak
- Kelebihan daya saing melalui penyampaian perkhidmatan yang lebih pantas
Alat pengoptimuman AI TheStage membolehkan kami mempercepatkan model teks-ke-imej kami tanpa penurunan kualiti, mewujudkan pengalaman pengguna yang lebih baik untuk pelanggan kami.
Ketua Pegawai Eksekutif Recraft, Anna Veronika Dorogush
Ucapan terima kasih
Keputusan ini memberikan pengesahan yang sangat baik terhadap alatan dan penyelidikan kami tentang produk beban kerja berskala tinggi. Pasukan AI TheStage terus berusaha ke arah memberikan prestasi yang lebih hebat. Untuk mencapai matlamat ini, kami bekerjasama dengan rakan kongsi yang cemerlang! Kami amat berterima kasih kepada:
- Ketua Pegawai Eksekutif Recraft Anna Veronika atas kerjasama yang berjaya. Kami sangat teruja untuk menjadi sebahagian kecil daripada perjalanan hebat mereka dalam menyampaikan alatan reka bentuk terbaik.
- Ketua Recraft AI Pavel Ostyakov atas kepakarannya dalam DNN, maklum balas yang kukuh tentang alatan dan untuk menetapkan matlamat yang mencabar untuk projek kerjasama kami.
- Pasukan Recraft AI untuk membina produk hebat ini. Imej dalam artikel ini dijana dengan Recraft!
- Pasukan Nebius atas sokongan konsisten mereka dengan infrastruktur GPU yang sangat baik untuk penyelidikan kami.
Kenalan / Sumber
Jangan ragu untuk berhubung dengan kami mengenai sebarang pertanyaan! Kami boleh membantu anda mengurangkan kos infrastruktur inferens!
E-mel kami: [email protected]
Laman utama TheStage AI: thestage.ai
Platform pengoptimuman inferens AI TheStage: app.thestage.ai