تعمل تقنية TurboQuant من Google على تقليل متطلبات سعة ذاكرة التخزين المؤقت AI LLM بما لا يقل عن ست مرات - ما يصل إلى 8 أضعاف تعزيز الأداء على وحدات معالجة الرسومات Nvidia H100، وضغط ذاكرة التخزين المؤقت KV إلى 3 بتات دون فقدان الدقة

نشرت Google Research يوم الثلاثاء TurboQuant، وهي خوارزمية ضغط بدون تدريب تعمل على تحديد كمية ذاكرة التخزين المؤقت LLM KV إلى 3 بتات دون أي خسارة في دقة النموذج. في الاختبارات المعيارية لوحدات معالجة الرسومات Nvidia H100، قدم TurboQuant 4 بت زيادة في الأداء تصل إلى ثمانية أضعاف في سجلات انتباه الحوسبة مقارنة بمفاتيح 32 بت غير الكمية، مع تقليل ذاكرة التخزين المؤقت KV بمقدار ست مرات على الأقل.

تقوم ذاكرة التخزين المؤقت KV بتخزين بيانات الاهتمام المحسوبة مسبقًا بحيث لا يتعين على LLMs إعادة حسابها في كل خطوة من خطوات إنشاء الرمز المميز. أصبحت ذاكرات التخزين المؤقت هذه بمثابة اختناقات كبيرة في الذاكرة مع نمو نوافذ السياق بشكل أكبر، وبينما يمكن لطرق تكميم المتجهات التقليدية تقليل حجم ذاكرات التخزين المؤقت هذه، فإنها تقدم حملًا صغيرًا للذاكرة يتكون من بضع بتات إضافية لكل قيمة من ثوابت التكميم التي يجب تخزينها جنبًا إلى جنب مع البيانات المضغوطة. قد يبدو هذا صغيرًا، لكنه يتضاعف جنبًا إلى جنب مع نوافذ السياق الأكبر.

يعمل TurboQuant على التخلص من هذه النفقات العامة من خلال عملية مكونة من مرحلتين. يستخدم الأول تقنية تسمى PolarQuant، والتي تقوم بتحويل نواقل البيانات من الإحداثيات الديكارتية القياسية إلى إحداثيات قطبية. وهذا يفصل كل متجه إلى نصف قطر (يمثل الحجم) ومجموعة من الزوايا (تمثل الاتجاه). نظرًا لأن التوزيعات الزاوية يمكن التنبؤ بها ومركزة، فإن PolarQuant تتخطى خطوة التطبيع الباهظة الثمن لكل كتلة والتي تتطلبها أجهزة القياس الكمي التقليدية. يؤدي هذا إلى ضغط عالي الجودة بدون أي حمل من ثوابت القياس المخزنة.

يستمر المقال أدناه

تطبق المرحلة الثانية طبقة تصحيح خطأ 1 بت باستخدام خوارزمية تسمى Quantized Johnson-Lindenstrauss (QJL). تقوم QJL بإسقاط خطأ القياس المتبقي في مساحة ذات أبعاد أقل وتقليل كل قيمة إلى بت إشارة واحدة، مما يزيل التحيز المنهجي في حسابات نقاط الاهتمام بتكلفة إضافية لا تذكر.

اختبرت جوجل جميع الخوارزميات الثلاث عبر معايير طويلة السياق، بما في ذلك LongBench وNedle In A Haystack وZeroSCROLLS وRULER وL-Eval، باستخدام نماذج مفتوحة المصدر Gemma وMistral. حققت TurboQuant نتائج مثالية في مهام استرجاع إبرة في كومة قش مع ضغط ذاكرة KV بمقدار ست مرات على الأقل. في مجموعة LongBench، التي تغطي الإجابة على الأسئلة وإنشاء التعليمات البرمجية والتلخيص، طابق TurboQuant خط الأساس KIVI أو تفوق عليه في جميع المهام.

أظهرت الخوارزمية أيضًا نتائج قوية في البحث عن المتجهات. تم تقييم TurboQuant مقابل تحديد كمية المنتج وRabbiQ في مجموعة بيانات GloVe، وحقق أعلى نسب استدعاء 1@k على الرغم من أن خطوط الأساس تلك تعتمد على دفاتر رموز أكبر وضبط خاص بمجموعة البيانات. أشارت Google إلى أن TurboQuant لا يتطلب أي تدريب أو ضبط دقيق ويتحمل تكاليف تشغيل لا تذكر، مما يجعله مناسبًا للنشر في استدلال الإنتاج وأنظمة بحث المتجهات واسعة النطاق.

مصدر جوجل المفضل

يتبع أجهزة توم على أخبار جوجل، أو أضفنا كمصدر مفضل، للحصول على آخر الأخبار والتحليلات والمراجعات في خلاصاتك.

Fonte

من يحتاج إلى DJI؟ تبلغ سرعة هذه الطائرة بدون طيار DIY 67 ميلاً في الساعة وتكلف 155 دولارًا فقط

قد تكون هذه هي أول نظرة لنا على هاتف Galaxy Z Fold 8 Wide القادم من سامسونج

بإمكان قناة Gemini على Google TV الآن الإجابة على أسئلتك وتعليم المفاهيم وتقديم ملخصات رياضية

يُعتقد أن بقايا الفارس دارتاجنان وجدت تحت الكنيسة الهولندية

أفضل مكتب دائم للميزانية في تخفيضات الربيع الكبيرة على أمازون

“Tush Push” آمن لعام 2026 حيث أن مقترحات قواعد اتحاد كرة القدم الأميركي المقدمة لا تتضمن اللعب المثير للجدل

التعليقات

اترك تعليقاً إلغاء الرد

من يحتاج إلى DJI؟ تبلغ سرعة هذه الطائرة بدون طيار DIY 67 ميلاً في الساعة وتكلف 155 دولارًا فقط

قد تكون هذه هي أول نظرة لنا على هاتف Galaxy Z Fold 8 Wide القادم من سامسونج

بإمكان قناة Gemini على Google TV الآن الإجابة على أسئلتك وتعليم المفاهيم وتقديم ملخصات رياضية

يُعتقد أن بقايا الفارس دارتاجنان وجدت تحت الكنيسة الهولندية

أفضل مكتب دائم للميزانية في تخفيضات الربيع الكبيرة على أمازون

“Tush Push” آمن لعام 2026 حيث أن مقترحات قواعد اتحاد كرة القدم الأميركي المقدمة لا تتضمن اللعب المثير للجدل

لا تشتري لعبتك التالية على Nintendo Switch 2 حتى تستخدم هذه الخدعة السهلة لتوفير 15 دولارًا

هذا الشعور بالنعناع المنعش؟ يعرف العلماء الآن كيف تشعر أجسادنا بالبرد

تم تصميم وحدات معالجة الرسومات Arc Pro B70 وB65 الجديدة من Intel للعمل في مجال الذكاء الاصطناعي

أكمل صالة الألعاب الرياضية المنزلية الخاصة بك مع خصومات شهر مارس من RITFIT