كيفية تسريع نماذج الذكاء الاصطناعي الخاصة بك دون الإضرار بذاكرتك

في دراستنا، نقدم الانتباه المتشعب ، وهي طريقة تم تطويرها لاستنتاج نموذج اللغة في سياقات أخذ العينات الدفعية ذات السياق الواحد. يهدف هذا النهج إلى تقليل تكاليف الذاكرة الزائدة عن الحاجة IO، وهو عامل مهم في زمن الوصول لأحجام الدفعات الكبيرة وأطوال السياق الطويلة. يحقق الانتباه المتشعب هذا من خلال تقسيم آلية الانتباه أثناء فك التشفير التدريجي إلى عمليتين GEMM متميزتين، مع التركيز على ذاكرة التخزين المؤقت KV من التعبئة المسبقة وعملية فك التشفير. تضمن هذه الطريقة الحساب الدقيق وتحافظ على الحمل الحسابي المعتاد (FLOPs) لآليات الانتباه القياسية، ولكن مع انخفاض ذاكرة IO. الانتباه المتشعب متوافق أيضًا مع آلية الانتباه متعدد الاستعلامات المعروفة بذاكرة IO المنخفضة لذاكرة التخزين المؤقت KV، مما يتيح أيضًا حجم دفعة أعلى وطول سياق. تؤدي الكفاءة الناتجة إلى زمن وصول أقل، مما يحسن الملاءمة للتطبيقات في الوقت الفعلي، على سبيل المثال، تمكين إنشاء إجابة متوازية بشكل كبير دون زيادة زمن الوصول بشكل كبير، وتعزيز الأداء عند دمجه مع تقنيات ما بعد المعالجة مثل إعادة الترتيب.

1. المقدمة

لقد أدى ظهور نماذج اللغة الكبيرة (LLMs) إلى دخول عصر جديد من التعلم الآلي، حيث أظهرت أداءً رائعًا في مجموعة واسعة من المهام (Brown et al.، 2020؛ OpenAI، 2023؛ Chowdhery et al.، 2022؛ Touvron et al.، 2023؛ Chen et al.، 2021؛ Hoffmann et al.، 2022؛ Li et al.، 2022؛ Microsoft؛ Amazon، 2022؛ Nijkamp et al.، 2023). وعلى الرغم من قدراتها الرائعة، فإن نشر هذه النماذج واسعة النطاق في التطبيقات العملية يفرض تحديات كبيرة، لا سيما من حيث زمن انتقال الاستدلال والكفاءة. يعد تعزيز هذه الجوانب أمرًا بالغ الأهمية، لأنها تؤثر بشكل مباشر على الموارد الحسابية المطلوبة لتوليد التنبؤات وتمكين التنفيذ العملي لهذه النماذج المتقدمة عبر مختلف الصناعات.

إن أحد سيناريوهات الاستدلال التي تتطلب قدرًا كبيرًا من الجهد هو أخذ العينات في سياق واحد، حيث يكون الهدف هو توليد عمليات إكمال متعددة من سياق واحد. تُواجه هذه المهمة عادةً في العديد من التطبيقات مثل أدوات IDE لتحرير التعليمات البرمجية التي توفر توصيات متعددة، أو في الحالات التي يكون فيها الترتيب بين العديد من الأجيال ضروريًا لتحقيق الأداء الأمثل (عبر مقاييس الترتيب مثل متوسط احتمالية السجل، والتصويت بالأغلبية، وما إلى ذلك). إن فك التشفير التدريجي لمثل هذا السيناريو من أخذ العينات يتطلب قدرًا كبيرًا من الذاكرة، مما يصبح عنق زجاجة زمن انتقال للدفعات الكبيرة وأطوال السياق.

في هذه الدراسة، قمنا بالتحقيق في استراتيجيتين متوافقتين لمعالجة تحديات الذاكرة IO في استدلال المحولات: (1) التحقيق في الاستعلامات المتعددة ومقايضاتها، و(2) تقنية جديدة تسمى الانتباه المتشعب القائم على السياق.

يبدأ تحقيقنا بتحليل الانتباه العام متعدد الاستعلامات (Ainslie et al.، 2023)، والذي يتضمن الاستعلامات المتعددة (Shazeer، 2019)، بالإضافة إلى آلية الانتباه متعدد الرؤوس الراسخة (Vaswani et al.، 2017) للموازنة بين الأداء والزمن الكامن. تُظهر نتائجنا توسعًا سلسًا للأداء مع زيادة حجم النموذج لقيمة ثابتة لعدد المجموعات g للاستعلامات المتعددة المعممة [1]. يؤدي خفض g إلى تحول تصاعدي في خسارة التحقق مقابل منحنيات مقياس حجم النموذج. تسمح لنا العلاقة المتسقة بين ضغط ذاكرة التخزين المؤقت وحجم النموذج وفقدان التحقق بالموازنة بين كفاءة الاستدلال وحجم النموذج، أي أنها تمكننا من تحديد ضغط أعلى لحالات الاستخدام التي تتطلب كفاءة عالية، مع الاستمرار في مطابقة أداء الانتباه متعدد الرؤوس من خلال التعويض بحجم نموذج أكبر.

ثانيًا، نقدم الانتباه المتشعب المدرك للسياق، وهي تقنية تقسم أي انتباه في عائلة الاستعلامات المتعددة المعممة إلى مكونات السياق وفك التشفير أثناء فك التشفير التدريجي. يتضمن هذا التشعب نفس عدد عمليات FLOP ويعطي نتائج متطابقة مقارنة بالانتباه الأصلي، ولكنه يمكن أن يقلل بشكل كبير من تكلفة إدخال/إخراج الذاكرة وبالتالي زمن الوصول في سيناريوهات الدفعات والسياقات الطويلة. يسمح هذا النهج بإنشاء عمليات إكمال متعددة في الوقت الفعلي دون تكبد تكاليف زمن وصول إضافية كبيرة، أو يتيح أحجام دفعات أعلى بكثير مما يؤدي إلى تحسين أداء التصنيف. على سبيل المثال، بالنسبة لنموذج CodeGen 16B متعدد الرؤوس (Nijkamp et al.، 2022) بطول سياق 2k، نتمكن من زيادة حجم الدفعة إلى 128 مع الانتباه المتشعب، مقارنة بحجم الدفعة 5 فقط بدون الانتباه المتشعب، مما يؤدي إلى زيادة pass@k (Chen et al.، 2021) من 59.0% إلى 84.6%، أو pass@top3 عبر زيادة متوسط log-p من 55.2% إلى 58.1%.

هذه الورقة متاحة على arxiv بموجب رخصة CC BY 4.0 DEED.

[1] تؤدي القيم المنخفضة لمجموعات الانتباه g إلى ضغط أعلى لموترات القيمة الرئيسية، كما في حالة الاستعلام المتعدد حيث g = 1، وبالتالي تحسين كفاءة الاستدلال والزمن الكامن بسبب ذاكرة التخزين المؤقت KV المنخفضة مقارنة بحالة الرؤوس المتعددة حيث g = h، وهو عدد رؤوس انتباه الاستعلام.

كيفية تسريع نماذج الذكاء الاصطناعي الخاصة بك دون الإضرار بذاكرتك

طويل جدا؛ ليقرأ

جدول الروابط

خلاصة

1. المقدمة

About Author

شنق العلامات

تم تقديم هذه المقالة في...

Categories

Trending Topics

كيفية تسريع نماذج الذكاء الاصطناعي الخاصة بك دون الإضرار بذاكرتك

طويل جدا؛ ليقرأ

جدول الروابط

خلاصة

1. المقدمة

About Author

شنق العلامات

تم تقديم هذه المقالة في...

قصص ذات الصلة

Categories

Trending Topics