
- يعمل Google TurboQuant على تقليل إجهاد الذاكرة مع الحفاظ على الدقة عبر أعباء العمل الصعبة
- يصل ضغط المتجهات إلى مستويات كفاءة جديدة دون متطلبات تدريب إضافية
- تظل اختناقات ذاكرة التخزين المؤقت ذات القيمة الرئيسية أساسية بالنسبة لحدود أداء نظام الذكاء الاصطناعي
تعتمد نماذج اللغات الكبيرة (LLMs) بشكل كبير على هياكل الذاكرة الداخلية التي تخزن البيانات الوسيطة لإعادة استخدامها بسرعة أثناء المعالجة.
أحد المكونات الأكثر أهمية هو ذاكرة التخزين المؤقت ذات القيمة الرئيسية، والتي توصف بأنها “ورقة غش رقمية عالية السرعة” تتجنب الحسابات المتكررة.
تعمل هذه الآلية على تحسين الاستجابة، ولكنها أيضًا تخلق اختناقًا كبيرًا لأن المتجهات عالية الأبعاد تستهلك موارد كبيرة من الذاكرة.
يستمر المقال أدناه
اختناقات الذاكرة وضغط القياس
مع توسع النماذج، يصبح من الصعب بشكل متزايد إدارة هذا الطلب على الذاكرة دون المساس بالسرعة أو إمكانية الوصول في عمليات نشر LLM الحديثة.
تحاول الأساليب التقليدية تقليل هذا العبء من خلال التكميم، وهي طريقة تعمل على ضغط الدقة العددية.
ومع ذلك، غالبًا ما تقدم هذه التقنيات مقايضات، وخاصة انخفاض جودة الإخراج أو الحمل الإضافي للذاكرة من الثوابت المخزنة.
ويظل هذا التوتر بين الكفاءة والدقة دون حل في العديد من الأنظمة الحالية التي تعتمد على أدوات الذكاء الاصطناعي للمعالجة على نطاق واسع.
يقدم برنامج TurboQuant من Google عملية مكونة من مرحلتين تهدف إلى معالجة هذه القيود طويلة الأمد.
تعتمد المرحلة الأولى على PolarQuant، الذي يحول المتجهات من الإحداثيات الديكارتية القياسية إلى تمثيلات قطبية.
بدلاً من تخزين مكونات اتجاهية متعددة، يقوم النظام بتكثيف المعلومات في قيم نصف القطر والزاوية، مما يؤدي إلى إنشاء اختصار مضغوط، مما يقلل الحاجة إلى خطوات التسوية المتكررة ويحد من الحمل الذي يصاحب عادةً طرق التكميم التقليدية.
تطبق المرحلة الثانية تقنية جونسون-ليندنشتراوس الكمية، أو QJL، والتي تعمل كطبقة تصحيحية.
بينما يتعامل PolarQuant مع معظم عمليات الضغط، فإنه يمكن أن يترك أخطاء صغيرة متبقية، حيث يقوم QJL بتقليل كل عنصر متجه إلى بت واحد، إما موجبًا أو سالبًا، مع الحفاظ على العلاقات الأساسية بين نقاط البيانات.
تعمل هذه الخطوة الإضافية على تحسين درجات الاهتمام، والتي تحدد كيفية تحديد النماذج لأولويات المعلومات أثناء المعالجة.
وفقًا للاختبارات التي تم الإبلاغ عنها، تحقق TurboQuant مكاسب في الكفاءة عبر العديد من معايير السياق الطويلة باستخدام النماذج المفتوحة.
يقال إن النظام يقلل من استخدام ذاكرة التخزين المؤقت ذات القيمة الرئيسية بعامل ستة مع الحفاظ على نتائج متسقة في اتجاه المصب.
كما أنه يتيح إمكانية التكميم إلى ما يصل إلى ثلاث بتات دون الحاجة إلى إعادة التدريب، مما يشير إلى التوافق مع بنيات النماذج الحالية.
تتضمن النتائج المعلنة أيضًا مكاسب في سرعة المعالجة، حيث تعمل حسابات الانتباه بشكل أسرع بما يصل إلى ثماني مرات من العمليات القياسية 32 بت على الأجهزة المتطورة.
تشير هذه النتائج إلى أن الضغط لا يؤدي بالضرورة إلى تدهور الأداء في ظل ظروف خاضعة للرقابة، على الرغم من أن هذه النتائج تعتمد على التصميم المعياري ونطاق التقييم.
يمكن لهذا النظام أيضًا خفض تكاليف التشغيل عن طريق تقليل متطلبات الذاكرة، مع تسهيل نشر النماذج على الأجهزة المقيدة حيث تظل موارد المعالجة محدودة.
وفي الوقت نفسه، قد يتم بدلاً من ذلك إعادة توجيه الموارد المحررة نحو تشغيل نماذج أكثر تعقيداً، بدلاً من تقليل متطلبات البنية التحتية.
في حين أن النتائج المبلغ عنها تبدو متسقة عبر اختبارات متعددة، فإنها تظل مرتبطة بظروف تجريبية محددة.
وسيعتمد التأثير الأوسع على التنفيذ في العالم الحقيقي، حيث قد يؤدي التباين في أعباء العمل والبنيات إلى نتائج مختلفة.
اتبع TechRadar على أخبار جوجل و أضفنا كمصدر مفضل للحصول على أخبار الخبراء والمراجعات والآراء في خلاصاتك. تأكد من النقر على زر المتابعة!
وبالطبع يمكنك أيضًا اتبع TechRadar على TikTok للحصول على الأخبار والمراجعات وفتح الصناديق في شكل فيديو، والحصول على تحديثات منتظمة منا على واتساب أيضاً.

التعليقات