التخطي إلى المحتوى

نشرت Google Research يوم الثلاثاء TurboQuant، وهي خوارزمية ضغط بدون تدريب تعمل على تحديد كمية ذاكرة التخزين المؤقت LLM KV إلى 3 بتات دون أي خسارة في دقة النموذج. في الاختبارات المعيارية لوحدات معالجة الرسومات Nvidia H100، قدم TurboQuant 4 بت زيادة في الأداء تصل إلى ثمانية أضعاف في سجلات انتباه الحوسبة مقارنة بمفاتيح 32 بت غير الكمية، مع تقليل ذاكرة التخزين المؤقت KV بمقدار ست مرات على الأقل.

تقوم ذاكرة التخزين المؤقت KV بتخزين بيانات الاهتمام المحسوبة مسبقًا بحيث لا يتعين على LLMs إعادة حسابها في كل خطوة من خطوات إنشاء الرمز المميز. أصبحت ذاكرات التخزين المؤقت هذه بمثابة اختناقات كبيرة في الذاكرة مع نمو نوافذ السياق بشكل أكبر، وبينما يمكن لطرق تكميم المتجهات التقليدية تقليل حجم ذاكرات التخزين المؤقت هذه، فإنها تقدم حملًا صغيرًا للذاكرة يتكون من بضع بتات إضافية لكل قيمة من ثوابت التكميم التي يجب تخزينها جنبًا إلى جنب مع البيانات المضغوطة. قد يبدو هذا صغيرًا، لكنه يتضاعف جنبًا إلى جنب مع نوافذ السياق الأكبر.

Fonte

التعليقات

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *