140 قراءة٪ s

كيفية تسريع نماذج الذكاء الاصطناعي الخاصة بك دون الإضرار بذاكرتك

بواسطة Batching4m2025/02/24
Read on Terminal Reader

طويل جدا؛ ليقرأ

إن الاهتمام المتشعب هو طريقة جديدة لتحسين استنتاج نموذج اللغة الكبير من خلال تقليل تكاليف إدخال/إخراج الذاكرة. فهو يقسم آلية الاهتمام إلى عمليتين GEMM - التعامل مع ذاكرة التخزين المؤقت KV المعبأة مسبقًا بشكل منفصل عن فك التشفير. يحافظ هذا النهج على الكفاءة الحسابية مع خفض زمن الوصول، مما يتيح أحجام دفعات أكبر وتطبيقات الذكاء الاصطناعي في الوقت الفعلي.
featured image - كيفية تسريع نماذج الذكاء الاصطناعي الخاصة بك دون الإضرار بذاكرتك
Batching HackerNoon profile picture
0-item

المؤلفون:

(1) بن أثيوارتكون، مختبرات الذكاء الاصطناعي في AWS؛

(2) سوجان كومار جونوغوندلا، AWS AI Labs؛

(3) سانجاي كريشنا جودة، مختبرات الذكاء الاصطناعي في AWS؛

(4) هايفنغ تشيان، AWS AI Labs؛

(5) سانجاي كريشنا جودة، مختبرات الذكاء الاصطناعي في AWS؛

(6) هانتيان دينغ، مختبرات الذكاء الاصطناعي في AWS؛

(7) تشينغ صن، مختبرات الذكاء الاصطناعي في AWS؛

(8) جون وانج، مختبرات الذكاء الاصطناعي في AWS؛

(9) جياتشنغ جو، مختبرات AWS للذكاء الاصطناعي؛

(10 ليانجفو تشين، AWS AI Labs؛

(11) بارميندر بهاتيا، GE HealthCare (العمل المنجز في AWS)؛

(12) راميش نالباتي، Amazon AGI (العمل المنجز في AWS)؛

(13) سوديبتا سينجوبتا، مختبرات الذكاء الاصطناعي في AWS؛

(14) بينج شيانغ، جولدمان ساكس (عمل تم إنجازه في AWS).

جدول الروابط

الملخص و1 مقدمة

2. العمل ذو الصلة

3. الخلفية

3.1. التدوين و3.2. استدلال نموذج اللغة

3.3. الاستعلامات المتعددة والرؤوس المتعددة والانتباه العام للاستعلامات المتعددة

4. الانتباه المتشعب المدرك للسياق و4.1. الدافع

4.2. صياغة و4.3. تعقيد الذاكرة المدخلات والمخرجات

5. التجارب

5.1. مقارنة قدرات الانتباه متعدد الرؤوس ومتعدد الاستعلامات ومتعدد المجموعات

5.2. أوقات استجابة النماذج المكافئة للقدرات

5.3. التطبيقات

6. الخاتمة والمراجع


أ. الأسئلة الشائعة

ب. العمل ذو الصلة

ج. الإعداد

د. عائلة الاهتمام متعدد المجموعات

هـ. الانتباه المتشعب المدرك للسياق

و. التطبيقات: النتائج الإضافية

ج. التوافق مع تقنيات فك التشفير المضاربي وفك التشفير السريع

خلاصة

في دراستنا، نقدم الانتباه المتشعب ، وهي طريقة تم تطويرها لاستنتاج نموذج اللغة في سياقات أخذ العينات الدفعية ذات السياق الواحد. يهدف هذا النهج إلى تقليل تكاليف الذاكرة الزائدة عن الحاجة IO، وهو عامل مهم في زمن الوصول لأحجام الدفعات الكبيرة وأطوال السياق الطويلة. يحقق الانتباه المتشعب هذا من خلال تقسيم آلية الانتباه أثناء فك التشفير التدريجي إلى عمليتين GEMM متميزتين، مع التركيز على ذاكرة التخزين المؤقت KV من التعبئة المسبقة وعملية فك التشفير. تضمن هذه الطريقة الحساب الدقيق وتحافظ على الحمل الحسابي المعتاد (FLOPs) لآليات الانتباه القياسية، ولكن مع انخفاض ذاكرة IO. الانتباه المتشعب متوافق أيضًا مع آلية الانتباه متعدد الاستعلامات المعروفة بذاكرة IO المنخفضة لذاكرة التخزين المؤقت KV، مما يتيح أيضًا حجم دفعة أعلى وطول سياق. تؤدي الكفاءة الناتجة إلى زمن وصول أقل، مما يحسن الملاءمة للتطبيقات في الوقت الفعلي، على سبيل المثال، تمكين إنشاء إجابة متوازية بشكل كبير دون زيادة زمن الوصول بشكل كبير، وتعزيز الأداء عند دمجه مع تقنيات ما بعد المعالجة مثل إعادة الترتيب.

1. المقدمة

لقد أدى ظهور نماذج اللغة الكبيرة (LLMs) إلى دخول عصر جديد من التعلم الآلي، حيث أظهرت أداءً رائعًا في مجموعة واسعة من المهام (Brown et al.، 2020؛ OpenAI، 2023؛ Chowdhery et al.، 2022؛ Touvron et al.، 2023؛ Chen et al.، 2021؛ Hoffmann et al.، 2022؛ Li et al.، 2022؛ Microsoft؛ Amazon، 2022؛ Nijkamp et al.، 2023). وعلى الرغم من قدراتها الرائعة، فإن نشر هذه النماذج واسعة النطاق في التطبيقات العملية يفرض تحديات كبيرة، لا سيما من حيث زمن انتقال الاستدلال والكفاءة. يعد تعزيز هذه الجوانب أمرًا بالغ الأهمية، لأنها تؤثر بشكل مباشر على الموارد الحسابية المطلوبة لتوليد التنبؤات وتمكين التنفيذ العملي لهذه النماذج المتقدمة عبر مختلف الصناعات.


إن أحد سيناريوهات الاستدلال التي تتطلب قدرًا كبيرًا من الجهد هو أخذ العينات في سياق واحد، حيث يكون الهدف هو توليد عمليات إكمال متعددة من سياق واحد. تُواجه هذه المهمة عادةً في العديد من التطبيقات مثل أدوات IDE لتحرير التعليمات البرمجية التي توفر توصيات متعددة، أو في الحالات التي يكون فيها الترتيب بين العديد من الأجيال ضروريًا لتحقيق الأداء الأمثل (عبر مقاييس الترتيب مثل متوسط احتمالية السجل، والتصويت بالأغلبية، وما إلى ذلك). إن فك التشفير التدريجي لمثل هذا السيناريو من أخذ العينات يتطلب قدرًا كبيرًا من الذاكرة، مما يصبح عنق زجاجة زمن انتقال للدفعات الكبيرة وأطوال السياق.


في هذه الدراسة، قمنا بالتحقيق في استراتيجيتين متوافقتين لمعالجة تحديات الذاكرة IO في استدلال المحولات: (1) التحقيق في الاستعلامات المتعددة ومقايضاتها، و(2) تقنية جديدة تسمى الانتباه المتشعب القائم على السياق.


يبدأ تحقيقنا بتحليل الانتباه العام متعدد الاستعلامات (Ainslie et al.، 2023)، والذي يتضمن الاستعلامات المتعددة (Shazeer، 2019)، بالإضافة إلى آلية الانتباه متعدد الرؤوس الراسخة (Vaswani et al.، 2017) للموازنة بين الأداء والزمن الكامن. تُظهر نتائجنا توسعًا سلسًا للأداء مع زيادة حجم النموذج لقيمة ثابتة لعدد المجموعات g للاستعلامات المتعددة المعممة [1]. يؤدي خفض g إلى تحول تصاعدي في خسارة التحقق مقابل منحنيات مقياس حجم النموذج. تسمح لنا العلاقة المتسقة بين ضغط ذاكرة التخزين المؤقت وحجم النموذج وفقدان التحقق بالموازنة بين كفاءة الاستدلال وحجم النموذج، أي أنها تمكننا من تحديد ضغط أعلى لحالات الاستخدام التي تتطلب كفاءة عالية، مع الاستمرار في مطابقة أداء الانتباه متعدد الرؤوس من خلال التعويض بحجم نموذج أكبر.


ثانيًا، نقدم الانتباه المتشعب المدرك للسياق، وهي تقنية تقسم أي انتباه في عائلة الاستعلامات المتعددة المعممة إلى مكونات السياق وفك التشفير أثناء فك التشفير التدريجي. يتضمن هذا التشعب نفس عدد عمليات FLOP ويعطي نتائج متطابقة مقارنة بالانتباه الأصلي، ولكنه يمكن أن يقلل بشكل كبير من تكلفة إدخال/إخراج الذاكرة وبالتالي زمن الوصول في سيناريوهات الدفعات والسياقات الطويلة. يسمح هذا النهج بإنشاء عمليات إكمال متعددة في الوقت الفعلي دون تكبد تكاليف زمن وصول إضافية كبيرة، أو يتيح أحجام دفعات أعلى بكثير مما يؤدي إلى تحسين أداء التصنيف. على سبيل المثال، بالنسبة لنموذج CodeGen 16B متعدد الرؤوس (Nijkamp et al.، 2022) بطول سياق 2k، نتمكن من زيادة حجم الدفعة إلى 128 مع الانتباه المتشعب، مقارنة بحجم الدفعة 5 فقط بدون الانتباه المتشعب، مما يؤدي إلى زيادة pass@k (Chen et al.، 2021) من 59.0% إلى 84.6%، أو pass@top3 عبر زيادة متوسط log-p من 55.2% إلى 58.1%.


هذه الورقة متاحة على arxiv بموجب رخصة CC BY 4.0 DEED.


[1] تؤدي القيم المنخفضة لمجموعات الانتباه g إلى ضغط أعلى لموترات القيمة الرئيسية، كما في حالة الاستعلام المتعدد حيث g = 1، وبالتالي تحسين كفاءة الاستدلال والزمن الكامن بسبب ذاكرة التخزين المؤقت KV المنخفضة مقارنة بحالة الرؤوس المتعددة حيث g = h، وهو عدد رؤوس انتباه الاستعلام.

Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks