يعمل الضغط الجديد من Google على تقليص استخدام ذاكرة الذكاء الاصطناعي بشكل كبير مع تسريع الأداء بهدوء عبر أعباء العمل الصعبة وبيئات الأجهزة الحديثة

يعمل Google TurboQuant على تقليل إجهاد الذاكرة مع الحفاظ على الدقة عبر أعباء العمل الصعبة
يصل ضغط المتجهات إلى مستويات كفاءة جديدة دون متطلبات تدريب إضافية
تظل اختناقات ذاكرة التخزين المؤقت ذات القيمة الرئيسية أساسية بالنسبة لحدود أداء نظام الذكاء الاصطناعي

تعتمد نماذج اللغات الكبيرة (LLMs) بشكل كبير على هياكل الذاكرة الداخلية التي تخزن البيانات الوسيطة لإعادة استخدامها بسرعة أثناء المعالجة.

أحد المكونات الأكثر أهمية هو ذاكرة التخزين المؤقت ذات القيمة الرئيسية، والتي توصف بأنها “ورقة غش رقمية عالية السرعة” تتجنب الحسابات المتكررة.

تعمل هذه الآلية على تحسين الاستجابة، ولكنها أيضًا تخلق اختناقًا كبيرًا لأن المتجهات عالية الأبعاد تستهلك موارد كبيرة من الذاكرة.

يستمر المقال أدناه

اختناقات الذاكرة وضغط القياس

مع توسع النماذج، يصبح من الصعب بشكل متزايد إدارة هذا الطلب على الذاكرة دون المساس بالسرعة أو إمكانية الوصول في عمليات نشر LLM الحديثة.

تحاول الأساليب التقليدية تقليل هذا العبء من خلال التكميم، وهي طريقة تعمل على ضغط الدقة العددية.

ومع ذلك، غالبًا ما تقدم هذه التقنيات مقايضات، وخاصة انخفاض جودة الإخراج أو الحمل الإضافي للذاكرة من الثوابت المخزنة.

ويظل هذا التوتر بين الكفاءة والدقة دون حل في العديد من الأنظمة الحالية التي تعتمد على أدوات الذكاء الاصطناعي للمعالجة على نطاق واسع.

يقدم برنامج TurboQuant من Google عملية مكونة من مرحلتين تهدف إلى معالجة هذه القيود طويلة الأمد.

تعتمد المرحلة الأولى على PolarQuant، الذي يحول المتجهات من الإحداثيات الديكارتية القياسية إلى تمثيلات قطبية.

بدلاً من تخزين مكونات اتجاهية متعددة، يقوم النظام بتكثيف المعلومات في قيم نصف القطر والزاوية، مما يؤدي إلى إنشاء اختصار مضغوط، مما يقلل الحاجة إلى خطوات التسوية المتكررة ويحد من الحمل الذي يصاحب عادةً طرق التكميم التقليدية.

تطبق المرحلة الثانية تقنية جونسون-ليندنشتراوس الكمية، أو QJL، والتي تعمل كطبقة تصحيحية.

بينما يتعامل PolarQuant مع معظم عمليات الضغط، فإنه يمكن أن يترك أخطاء صغيرة متبقية، حيث يقوم QJL بتقليل كل عنصر متجه إلى بت واحد، إما موجبًا أو سالبًا، مع الحفاظ على العلاقات الأساسية بين نقاط البيانات.

تعمل هذه الخطوة الإضافية على تحسين درجات الاهتمام، والتي تحدد كيفية تحديد النماذج لأولويات المعلومات أثناء المعالجة.

وفقًا للاختبارات التي تم الإبلاغ عنها، تحقق TurboQuant مكاسب في الكفاءة عبر العديد من معايير السياق الطويلة باستخدام النماذج المفتوحة.

يقال إن النظام يقلل من استخدام ذاكرة التخزين المؤقت ذات القيمة الرئيسية بعامل ستة مع الحفاظ على نتائج متسقة في اتجاه المصب.

كما أنه يتيح إمكانية التكميم إلى ما يصل إلى ثلاث بتات دون الحاجة إلى إعادة التدريب، مما يشير إلى التوافق مع بنيات النماذج الحالية.

تتضمن النتائج المعلنة أيضًا مكاسب في سرعة المعالجة، حيث تعمل حسابات الانتباه بشكل أسرع بما يصل إلى ثماني مرات من العمليات القياسية 32 بت على الأجهزة المتطورة.

تشير هذه النتائج إلى أن الضغط لا يؤدي بالضرورة إلى تدهور الأداء في ظل ظروف خاضعة للرقابة، على الرغم من أن هذه النتائج تعتمد على التصميم المعياري ونطاق التقييم.

يمكن لهذا النظام أيضًا خفض تكاليف التشغيل عن طريق تقليل متطلبات الذاكرة، مع تسهيل نشر النماذج على الأجهزة المقيدة حيث تظل موارد المعالجة محدودة.

وفي الوقت نفسه، قد يتم بدلاً من ذلك إعادة توجيه الموارد المحررة نحو تشغيل نماذج أكثر تعقيداً، بدلاً من تقليل متطلبات البنية التحتية.

في حين أن النتائج المبلغ عنها تبدو متسقة عبر اختبارات متعددة، فإنها تظل مرتبطة بظروف تجريبية محددة.

وسيعتمد التأثير الأوسع على التنفيذ في العالم الحقيقي، حيث قد يؤدي التباين في أعباء العمل والبنيات إلى نتائج مختلفة.

اتبع TechRadar على أخبار جوجل و أضفنا كمصدر مفضل للحصول على أخبار الخبراء والمراجعات والآراء في خلاصاتك. تأكد من النقر على زر المتابعة!

وبالطبع يمكنك أيضًا اتبع TechRadar على TikTok للحصول على الأخبار والمراجعات وفتح الصناديق في شكل فيديو، والحصول على تحديثات منتظمة منا على واتساب أيضاً.

Fonte

يعمل الضغط الجديد من Google على تقليص استخدام ذاكرة الذكاء الاصطناعي بشكل كبير مع تسريع الأداء بهدوء عبر أعباء العمل الصعبة وبيئات الأجهزة الحديثة

كليبرز يتغلب على باكس ويحقق فوزه الخامس على التوالي بعد مجهود شامل

وبحسب ما ورد وقع ريك بيتينو عقدًا جديدًا مع سانت جون خلال موسم 2029-30

سيتم إصدار Avatar Legends: The Fighting Game في شهر يوليو وهي تبدو رائعة جدًا

تم السماح لمايلز ماكبرايد باللعب بعد غيابه عن آخر 28 مباراة

أوضحت جراحة دماغ غاري وودلاند: لاعب الجولف يتغلب على إزالة الورم واضطراب ما بعد الصدمة ليفوز بأول حدث منذ عملية 2023

شاهد SpaceX وهي تطلق 119 حمولة إلى المدار من كاليفورنيا في وقت مبكر من يوم 30 مارس

التعليقات

اترك تعليقاً إلغاء الرد

كليبرز يتغلب على باكس ويحقق فوزه الخامس على التوالي بعد مجهود شامل

وبحسب ما ورد وقع ريك بيتينو عقدًا جديدًا مع سانت جون خلال موسم 2029-30

سيتم إصدار Avatar Legends: The Fighting Game في شهر يوليو وهي تبدو رائعة جدًا

تم السماح لمايلز ماكبرايد باللعب بعد غيابه عن آخر 28 مباراة

أوضحت جراحة دماغ غاري وودلاند: لاعب الجولف يتغلب على إزالة الورم واضطراب ما بعد الصدمة ليفوز بأول حدث منذ عملية 2023

شاهد SpaceX وهي تطلق 119 حمولة إلى المدار من كاليفورنيا في وقت مبكر من يوم 30 مارس

UNC تعلق المحادثات حول مستقبل ساحة كرة السلة وسط البحث عن التدريب

قد تقوم Apple بإنشاء متجر تطبيقات AI للصورة الرمزية التالية لـ Siri

فن رينوار وسيزان وماتيس من بين العناصر المسروقة في العمل الإيطالي

يقوم الموظفون بمزيد من المهام بشكل أسرع بفضل الذكاء الاصطناعي، ومع ذلك فإن عدم المشاركة وقلة الاستخدام يزحفان بشكل متزايد