paint-brush
Điểm chuẩn suy luận khuếch tán ổn định - 9 triệu hình ảnh với giá 1.872 USD trong 24 giờtừ tác giả@saladcloud
666 lượt đọc
666 lượt đọc

Điểm chuẩn suy luận khuếch tán ổn định - 9 triệu hình ảnh với giá 1.872 USD trong 24 giờ

từ tác giả Salad Technologies6m2023/08/31
Read on Terminal Reader

dài quá đọc không nổi

Trong tiêu chuẩn Khuếch tán ổn định này, chúng tôi đã nhắm mục tiêu 750 GPU có ít nhất 4 vCPU, RAM ít nhất 8GB và GPU dòng NVIDIA RTX 2000, 3000 hoặc 4000 có VRAM ít nhất 8GB. Điểm chuẩn này được chạy cho một công cụ tạo hình ảnh AI tổng hợp, theo phong cách SaaS dành cho tác phẩm nghệ thuật tùy chỉnh. KẾT QUẢ: 9.274.913 yêu cầu tạo hình ảnh Tổng chi phí đám mây là $1872 24 giờ tạo hình ảnh 3,62TB dung lượng lưu trữ đã sử dụng trung bình 7 giây thời gian tạo hình ảnh
featured image - Điểm chuẩn suy luận khuếch tán ổn định - 9 triệu hình ảnh với giá 1.872 USD trong 24 giờ
Salad Technologies HackerNoon profile picture
0-item
1-item
2-item

GPU dành cho người tiêu dùng cao cấp có phù hợp cho suy luận Khuếch tán ổn định trên quy mô lớn không? Nếu vậy, chi phí hàng ngày để tạo ra hàng triệu hình ảnh là bao nhiêu? Bạn có thực sự cần A10, A100 hay H100 không?


Trong tiêu chuẩn này, chúng tôi trả lời những câu hỏi này bằng cách khởi chạy ứng dụng dựa trên Khuếch tán ổn định, được tinh chỉnh trên SaladCloud.


Kết quả: Chúng tôi đã mở rộng quy mô lên tới 750 bản sao (GPU) và tạo ra hơn 9,2 triệu hình ảnh sử dụng 3,62 TB dung lượng lưu trữ trong 24 giờ với tổng chi phí là 1.872 USD .


Bằng cách tạo ra 4.954 hình ảnh trên mỗi đô la , điểm chuẩn này cho thấy rằng suy luận AI tổng quát trên quy mô lớn trên GPU cấp độ người tiêu dùng là thiết thực, giá cả phải chăng và là con đường giúp giảm chi phí đám mây. Trong bài đăng này, chúng tôi sẽ xem xét chi tiết mô hình và kiến trúc ứng dụng, việc triển khai trên SaladCloud với các chi tiết nhanh chóng và kết quả Suy luận từ điểm chuẩn. Trong bài đăng tiếp theo, chúng tôi sẽ cung cấp hướng dẫn kỹ thuật và mã tham chiếu mà bạn có thể sử dụng để sao chép điểm chuẩn này.

Kiến trúc ứng dụng để tạo hình ảnh

Điểm chuẩn này được chạy cho một công cụ tạo hình ảnh AI tổng quát, theo phong cách SaaS dành cho tác phẩm nghệ thuật tùy chỉnh. Người dùng cuối duyệt qua các danh mục mô hình được tinh chỉnh, chọn mô hình, tùy chỉnh lời nhắc và thông số, đồng thời gửi công việc để tạo một hoặc nhiều hình ảnh. Sau khi được tạo, hình ảnh sẽ được hiển thị cho người dùng cuối. Chúng tôi đã giúp phát triển vùng chứa suy luận để chứng minh tiềm năng của các nút SaladCloud cho trường hợp sử dụng này. Sơ đồ sau đây cung cấp sự mô tả ở mức độ cao về kiến trúc hệ thống:


Kiến trúc hệ thống cho điểm chuẩn khuếch tán ổn định


Các thành phần chính bao gồm ứng dụng dựa trên web (frontend và backend), hàng đợi công việc chuyên dụng, vùng chứa suy luận và dịch vụ lưu trữ khối. Bộ lưu trữ hàng đợi Azure đã được sử dụng cho hàng đợi công việc và cung cấp tính năng lập lịch FIFO. Azure Blob Storage đã được sử dụng để cung cấp bộ lưu trữ khối. Sơ đồ sau đây cung cấp mô tả cấp cao về kiến trúc bộ chứa suy luận:

Thùng chứa suy luận khuếch tán ổn định và các thành phần


Vùng chứa dựa trên Giao diện người dùng web khuếch tán ổn định của Automation1111 . Chúng tôi đã tạo và thêm một nhân viên tùy chỉnh vào vùng chứa được viết bằng Go để triển khai quy trình xử lý công việc. Nhân viên này đã tận dụng Azure SDK cho Go để giao tiếp với các dịch vụ Azure Queue Storage và Azure Blob Storage. Nhân viên thăm dò tuần tự hàng đợi cho một công việc, sử dụng điểm cuối API text2img do máy chủ UI Web Khuếch tán Ổn định cung cấp để tạo hình ảnh và tải hình ảnh lên vùng chứa blob.

Triển khai trên SaladCloud

Sau khi xây dựng hình ảnh vùng chứa suy luận, chúng tôi đã tạo triển khai vùng chứa được quản lý SaladCloud bằng cổng thông tin dựa trên web.


Triển khai trên SaladCloud


Việc triển khai nhắm mục tiêu 750 nút duy nhất có ít nhất 4 vCPU, ít nhất 8GB RAM và GPU NVIDIA RTX 2000, 3000 hoặc 4000 series với ít nhất 8GB VRAM. Mặc dù SaladCloud cho phép lựa chọn nút được nhắm mục tiêu nhiều hơn nhưng chúng tôi đã quyết định cho phép bộ lập lịch lấy các nút có sẵn đầu tiên có GPU tương thích dựa trên dung lượng mạng chưa sử dụng. Cũng đáng chú ý là chúng tôi không hạn chế việc phân bổ địa lý của việc triển khai.


Hàng đợi công việc chứa đầy 10.000.000 lời nhắc tạo hình ảnh có thể thay đổi . Sau đây là ví dụ về một trong những công việc:


 {"prompt": "photo of a jump rope, lora:magic-fantasy-forest-v2:0.35, magic-fantasy-forest, digital art, most amazing artwork in the world, ((no humans)), volumetric light, soft balanced colours, forest scenery, vines, uhd, 8k octane render, magical, amazing, ethereal, intricate, intricate design, ultra sharp, shadows, cooler colors, trending on cgsociety, ((best quality)), ((masterpiece)), (detailed)","negative_prompt": "oversaturation, oversaturated colours, (deformed, distorted, disfigured:1.3), distorted iris, poorly drawn, bad anatomy, wrong anatomy, extra limb, missing limb, floating limbs, (mutated hands and fingers:1.4), disconnected limbs, mutation, mutated, ugly, disgusting, blurry, amputation, human, man, woman", "sampler_name": "k_euler_a", "steps": 15, "cfg_scale": 7}


Mỗi công việc bao gồm một định nghĩa LoRA được nhúng trong lời nhắc văn bản và mỗi công việc sử dụng các danh từ cụ thể và mô tả môi trường hơi khác nhau. Các hình ảnh được tạo ra được cố định ở kích thước 512x512 pixel, bộ lấy mẫu được cố định ở Euler Ancestral, số bước cố định ở mức 15 và thang đo CFG cố định ở mức 7.

Kết quả - Hơn 9 triệu hình ảnh trong 24 giờ với giá $1872

Trong khoảng thời gian 24 giờ, chúng tôi đã xử lý tổng cộng 9.274.913 yêu cầu tạo hình ảnh, tạo ra 3,62 TB nội dung. Có rất ít lỗi xử lý (ví dụ: sự cố mạng tạm thời) và chỉ có 523 công việc được xử lý lại lần thứ hai. Trung bình, chúng tôi đạt được thời gian chu kỳ tạo hình ảnh là 7 giây . Bức tranh khảm sau đây chỉ là một ví dụ về một vài hình ảnh được tạo:


văn bản thay thế: khảm ba hình ảnh được tạo với hình ảnh đầu tiên chứa máy giặt, hình ảnh thứ hai chứa ô tô và hình ảnh thứ ba chứa con kangaroo và tất cả đều tồn tại trong một khu rừng theo phong cách giả tưởng


Một mẫu hình ảnh được tạo từ điểm chuẩn suy luận Khuếch tán ổn định. Lời nhắc bao gồm các danh từ khác nhau được đặt trong một khu rừng theo phong cách giả tưởng.


Thật thú vị khi duyệt các hình ảnh được tạo và quan sát chất lượng tương đối do không mất thời gian điều chỉnh và tối ưu hóa các thông số.

Những cải tiến trong tương lai

Cuộc trình diễn này mang lại kết quả thú vị cho thấy rằng đối với Suy luận khuếch tán ổn định trên quy mô lớn, GPU cấp độ người tiêu dùng không chỉ có khả năng mà còn tiết kiệm chi phí hơn. Điều đó nói lên rằng, nó vẫn chưa được tối ưu hóa. Có một số nhiệm vụ kỹ thuật mà chúng tôi có thể thực hiện để cải thiện hiệu suất. Đáng chú ý, chúng tôi đã nhanh chóng triển khai nhân viên và giải quyết một vòng lặp tuần tự thực hiện một công việc, tạo hình ảnh và tải hình ảnh lên. Với cách triển khai này, trong khi chúng tôi chờ I/O mạng, GPU sẽ không hoạt động.

Biểu đồ sử dụng GPU hiển thị ít nhất 10% thời gian GPU không hoạt động trong khi xử lý công việc


Nếu chúng tôi áp dụng phương pháp sắp xếp công việc, háo hức kéo thêm một công việc từ hàng đợi và song song I/O mạng với một yêu cầu tạo hình ảnh khác, chúng tôi ước tính sẽ cải thiện ít nhất 10% thông lượng công việc tổng thể. Nếu không điều chỉnh tổng chi phí, điều này sẽ khiến chúng tôi tạo ra hơn 10 triệu hình ảnh trong một ngày.

AI sáng tạo và chi phí suy luận

AI sáng tạo là một loại trí tuệ nhân tạo có thể tạo ra nội dung mới, như tranh vẽ, âm nhạc và chữ viết. Nó hoạt động bằng cách học hỏi từ thông tin hiện có để phát triển mô hình các mô hình và mối quan hệ, đồng thời nó có những ứng dụng thực tế trong việc tạo ra nội dung độc đáo và được cá nhân hóa. Nó đã trở thành một công nghệ ngày càng phổ biến nhờ việc phát hành một số mô hình nền tảng nguồn mở, nhiều mô hình trong số đó được phát triển trên các bộ dữ liệu quy mô rất lớn. Kết hợp với việc phát triển và áp dụng các tinh chỉnh tương đối dễ dàng cũng như chi phí thấp để chạy suy luận trên quy mô lớn, quá trình dân chủ hóa AI tạo ra đang mở khóa các ứng dụng mới với tốc độ đáng kinh ngạc.


Đặc biệt liên quan đến suy luận, nhiều mô hình vẫn yêu cầu nguồn lực tính toán đáng kể để tạo ra nội dung một cách hiệu quả. Tuy nhiên, những bước nhảy vọt về sức mạnh xử lý và dung lượng tài nguyên của GPU cấp độ người tiêu dùng đã bắt kịp nhiều ứng dụng của các mô hình AI tổng quát.


Thay vì chuyển sang các nhà cung cấp điện toán đám mây lớn và cạnh tranh để giành quyền truy cập khan hiếm vào GPU cấp doanh nghiệp như A10, A100 hoặc H100, ngày càng nhiều khách hàng chuyển sang SaladCloud, môi trường điện toán đám mây phân tán được tạo thành từ các PC chơi game mạnh nhất thế giới .


Một ứng dụng đang mở rộng nhanh chóng của AI tổng quát bao gồm việc tạo hình ảnh từ mô tả văn bản. Quy trình làm việc "chuyển văn bản thành hình ảnh" có thể được sử dụng để tạo nội dung cho trò chơi, chiến dịch quảng cáo và tiếp thị, bảng phân cảnh, v.v. Khuếch tán ổn định là một mô hình nền tảng nguồn mở, phổ biến trong không gian "chuyển văn bản thành hình ảnh".


Chúng tôi hiện đang lên kế hoạch trình diễn và đánh giá quy trình làm việc "hình ảnh thành hình ảnh" và "âm thanh thành văn bản", đồng thời chúng tôi hy vọng có thể chia sẻ nhiều kết quả hơn qua blog của mình trong tương lai gần.

SaladCloud - đám mây GPU giá cả phải chăng nhất cho AI sáng tạo

Điểm chuẩn này được chạy trên SaladCloud, đám mây GPU có giá cả phải chăng nhất thế giới dành cho suy luận AI sáng tạo và các ứng dụng tính toán chuyên sâu khác. Với hơn 10 nghìn GPU có giá khởi điểm 0,10 USD/giờ, SaladCloud có giá GPU thấp nhất trên thị trường.


Nếu chi phí đám mây cao và tính khả dụng của GPU đang cản trở sự tăng trưởng và lợi nhuận của bạn, thì SaladCloud có thể giúp bạn với mức giá thấp và tính khả dụng theo yêu cầu.


Gần đây, Daniel Sarfati , Giám đốc sản phẩm của chúng tôi, đã ngồi lại với Clay Pascal từ LLM Utils (tài nguyên LLM được đánh giá cao), để thảo luận về cách chọn GPU phù hợp cho Khuếch tán ổn định. Để tìm hiểu thêm về lựa chọn GPU cho Khuếch tán ổn định, bạn có thể nghe toàn bộ cuộc phỏng vấn bằng âm thanh .


Liên hệ với chúng tôi để có bản demo được cá nhân hóa. Để chạy các mô hình của riêng bạn hoặc các công thức được cấu hình sẵn của các mô hình phổ biến (Khuếch tán ổn định, Thì thầm, BERT, v.v.), hãy xem Cổng thông tin SaladCloud để dùng thử miễn phí.


Cũng được xuất bản ở đây .