تعمل تقنية TurboQuant من Google على تقليل متطلبات سعة ذاكرة التخزين المؤقت AI LLM بما لا يقل عن ست مرات – ما يصل إلى 8 أضعاف تعزيز الأداء على وحدات معالجة الرسومات Nvidia H100، وضغط ذاكرة التخزين المؤقت KV إلى 3 بتات دون فقدان الدقة
نشرت Google Research يوم الثلاثاء TurboQuant، وهي خوارزمية ضغط بدون تدريب تعمل على تحديد كمية ذاكرة التخزين المؤقت LLM KV إلى 3 بتات دون أي خسارة في دقة النموذج. في الاختبارات المعيارية لوحدات معالجة الرسومات Nvidia H100، قدم TurboQuant 4 بت زيادة في الأداء تصل إلى ثمانية أضعاف في سجلات انتباه الحوسبة مقارنة بمفاتيح 32 بت غير الكمية، مع تقليل ذاكرة التخزين المؤقت KV بمقدار ست مرات على الأقل.
تقوم ذاكرة التخزين المؤقت KV بتخزين بيانات الاهتمام المحسوبة مسبقًا بحيث لا يتعين على LLMs إعادة حسابها في كل خطوة من خطوات إنشاء الرمز المميز. أصبحت ذاكرات التخزين المؤقت هذه بمثابة اختناقات كبيرة في الذاكرة مع نمو نوافذ السياق بشكل أكبر، وبينما يمكن لطرق تكميم المتجهات التقليدية تقليل حجم ذاكرات التخزين المؤقت هذه، فإنها تقدم حملًا صغيرًا للذاكرة يتكون من بضع بتات إضافية لكل قيمة من ثوابت التكميم التي يجب تخزينها جنبًا إلى جنب مع البيانات المضغوطة. قد يبدو هذا صغيرًا، لكنه يتضاعف جنبًا إلى جنب مع نوافذ السياق الأكبر.
يعمل TurboQuant على التخلص من هذه النفقات العامة من خلال عملية مكونة من مرحلتين. يستخدم الأول تقنية تسمى PolarQuant، والتي تقوم بتحويل نواقل البيانات من الإحداثيات الديكارتية القياسية إلى إحداثيات قطبية. وهذا يفصل كل متجه إلى نصف قطر (يمثل الحجم) ومجموعة من الزوايا (تمثل الاتجاه). نظرًا لأن التوزيعات الزاوية يمكن التنبؤ بها ومركزة، فإن PolarQuant تتخطى خطوة التطبيع الباهظة الثمن لكل كتلة والتي تتطلبها أجهزة القياس الكمي التقليدية. يؤدي هذا إلى ضغط عالي الجودة بدون أي حمل من ثوابت القياس المخزنة.
يستمر المقال أدناه
تطبق المرحلة الثانية طبقة تصحيح خطأ 1 بت باستخدام خوارزمية تسمى Quantized Johnson-Lindenstrauss (QJL). تقوم QJL بإسقاط خطأ القياس المتبقي في مساحة ذات أبعاد أقل وتقليل كل قيمة إلى بت إشارة واحدة، مما يزيل التحيز المنهجي في حسابات نقاط الاهتمام بتكلفة إضافية لا تذكر.
اختبرت جوجل جميع الخوارزميات الثلاث عبر معايير طويلة السياق، بما في ذلك LongBench وNedle In A Haystack وZeroSCROLLS وRULER وL-Eval، باستخدام نماذج مفتوحة المصدر Gemma وMistral. حققت TurboQuant نتائج مثالية في مهام استرجاع إبرة في كومة قش مع ضغط ذاكرة KV بمقدار ست مرات على الأقل. في مجموعة LongBench، التي تغطي الإجابة على الأسئلة وإنشاء التعليمات البرمجية والتلخيص، طابق TurboQuant خط الأساس KIVI أو تفوق عليه في جميع المهام.
أظهرت الخوارزمية أيضًا نتائج قوية في البحث عن المتجهات. تم تقييم TurboQuant مقابل تحديد كمية المنتج وRabbiQ في مجموعة بيانات GloVe، وحقق أعلى نسب استدعاء 1@k على الرغم من أن خطوط الأساس تلك تعتمد على دفاتر رموز أكبر وضبط خاص بمجموعة البيانات. أشارت Google إلى أن TurboQuant لا يتطلب أي تدريب أو ضبط دقيق ويتحمل تكاليف تشغيل لا تذكر، مما يجعله مناسبًا للنشر في استدلال الإنتاج وأنظمة بحث المتجهات واسعة النطاق.
وسيتم تقديم هذه الورقة، التي شارك في تأليفها عالم الأبحاث أمير زنديه ونائب الرئيس فهاب ميروكني، في المؤتمر الدولي لأبحاث الفضاء 2026 الشهر المقبل.
احصل على أفضل أخبار Tom's Hardware والمراجعات المتعمقة، مباشرة إلى صندوق الوارد الخاص بك.
يتبع أجهزة توم على أخبار جوجل، أو أضفنا كمصدر مفضل، للحصول على آخر الأخبار والتحليلات والمراجعات في خلاصاتك.
التعليقات