مع استمرار سباق الذكاء الاصطناعي بين الشركات والدول والأيديولوجيات على قدم وساق، أصدرت Nvidia ورقة بحثية تصف TiDAR، وهي طريقة فك تشفير تدمج نهجين منفصلين تاريخيًا لتسريع استنتاج نموذج اللغة. تنتج نماذج اللغة نصًا مميزًا واحدًا في كل مرة، حيث يكون الرمز المميز عبارة عن جزء صغير من النص، مثل جزء من كلمة أو علامة ترقيم.
يتطلب كل رمز مميز عادةً تمريرة أمامية كاملة عبر النموذج، وتهيمن هذه التكلفة على سرعة وتكلفة تشغيل أنظمة الذكاء الاصطناعي الحالية. إذا كان النموذج قادرًا على إنتاج عدة رموز مميزة في كل خطوة بأمان دون فقدان الجودة، فقد يؤدي ذلك إلى أوقات استجابة أسرع، وساعات أقل لوحدة معالجة الرسومات، وانخفاض تكاليف التشغيل لكل طلب، وكل ذلك يمكن أن يضيف ما يصل إلى وفورات كبيرة للمشغلين الذين يقومون بعمليات نشر كبيرة للذكاء الاصطناعي، ويقومون بتشغيل أحدث أجهزة Nvidia.
تصبح تلك المناطق غير المستخدمة من بُعد الرمز المميز “فتحات مجانية” فعليًا. تم تصميم TiDAR حول مسألة مقدار العمل المفيد الذي يمكن للنموذج القيام به داخل تلك الفتحات مع الحفاظ على شكل تنبؤات الرمز المميز التالي جيدة التصرف.
مصممة لتلبية توزيعتين في وقت واحد
يقوم TiDAR بتدريب محول واحد لحساب كل من توزيع الرمز المميز التالي الانحدار الذاتي والتوزيع الهامشي بنمط الانتشار بالتوازي. هذه ليست الطريقة التي تعمل بها نماذج لغة الانتشار عادةً. تعتمد الأنظمة السابقة مثل Dream وLlada وBlock Diffusion بشكل كامل على تقليل الضوضاء المتوازي للكتل المقنعة. وتتمثل الفائدة في السرعة، ولكن الدقة تنخفض مع زيادة أطوال الكتل لأن النموذج لم يعد يحتفظ بعامل سلسلة صارم. يحاول TiDAR استعادة تلك البنية دون التخلي عن توازي الانتشار.
ويتم تحقيق ذلك من خلال قناع انتباه منظم يقسم المدخلات إلى ثلاث مناطق. تتصرف البادئة المقبولة مثل أي تسلسل سببي وتوفر مفاتيح وقيمًا يقوم النموذج بتخزينها مؤقتًا بين الخطوات. تستخدم كتلة من الرموز المميزة التي تمت صياغتها مسبقًا اهتمامًا ثنائي الاتجاه، مما يسمح للنموذج بالتحقق منها ضمن توزيع الانحدار الذاتي. كتلة ثانية مليئة برموز القناع تنتظر متنبئ الانتشار، الذي يقترح عدة مرشحين جدد بالتوازي.
يصبح فك التشفير بعد ذلك حلقة من مرحلتين. أولا، يملأ رأس الانتشار المنطقة المقنعة. في التمريرة التالية، يقوم النموذج بفحص تلك المسودات باستخدام رأسه الانحداري التلقائي. تعمل الرموز المميزة المقبولة على توسيع البادئة. يتم التعامل مع الطلبات المرفوضة في نفس الخطوة، لأن النموذج تعلم توقع كل مسار قبول من الجولة السابقة. في نفس التمريرة، يقوم رأس الانتشار بصياغة الكتلة التالية. مفتاح المخطط هو أن البنية السببية للبادئة تضمن بقاء ذاكرة التخزين المؤقت KV صالحة، مما يحل إحدى مشكلات النشر الأساسية التي واجهتها أجهزة فك التشفير السابقة القائمة على الانتشار.
ويستمر التدريب من نقاط التفتيش الموجودة في كوين. قام المؤلفون بمضاعفة طول التسلسل عن طريق إلحاق نسخة مقنعة بالكامل من التسلسل الأصلي وحساب خسائر الانحدار الذاتي والانتشار في النصفين. جميع رموز النشر هي رموز قناع، مما يحافظ على كثافة الهدف ويتجنب الحاجة إلى جداول ضوضاء معقدة، ويتم تطبيق العملية على 1.5 مليار و8 مليارات من العمود الفقري للمعلمات باستخدام نافذة سياق بحد أقصى 4096 رمزًا.
مكاسب واضحة في السرعة، ولكن حجم النموذج هو عامل مقيد
في متغيرات HumanEval وMBPP وGSM8K وMinerva، تتطابق دقة TiDAR مع خطوط Qwen الأساسية المستخدمة في التدريب أو تتحسن قليلاً. يبلغ متوسط نموذج TiDAR الذي يحتوي على 1.5 مليار معلمة حوالي 7.5 رمزًا مميزًا تم إنشاؤه لكل تمريرة أمامية. متوسط الإصدار 8 مليار أعلى بقليل من ثمانية. تتحول هذه المتوسطات إلى مكاسب إنتاجية ملحوظة تبلغ 4.71 أضعاف الرموز المميزة في الثانية لـ Qwen2.5-1.5B للنموذج الأصغر و5.91 أضعاف إنتاجية Qwen3-8B للنموذج الأكبر.
في مقارنات مباشرة مع Dream، وBlock Diffusion، وLlada، وفك التشفير التخميني استنادًا إلى التحقق من مسودة نمط EAGLE-3، يوفر TiDAR أفضل توازن بين السرعة ودقة القياس ضمن مجموعة اختبار الورقة.
هذه النتائج منطقية بالنظر إلى الآلية. يقوم TiDAR بتنفيذ مهام تنبؤ متعددة بينما تكون أوزان النموذج والمفاتيح والقيم المخزنة مؤقتًا موجودة بالفعل في الذاكرة، لذلك يتم إنشاء المزيد من الرموز المميزة دون حركة إضافية في الذاكرة. في المقاييس الصغيرة التي تم اختبارها، تظل وحدة معالجة الرسومات مرتبطة بالذاكرة بدلاً من أن تكون مرتبطة بالحوسبة عبر عدة مواضع، مما يسمح للتوسع متعدد الرموز بالعمل بكفاءة.
أحجام النماذج الكبيرة لم يتم اختبارها بعد
وفي نهاية المطاف، يبدو أن حجم النموذج هو العامل المقيد. على الرغم من أن البحث يعرض TiDAR باستخدام ملفات تعريف Qwen3-32B، إلا أنه لم يتم توضيح الطريقة مع أكثر من 8 مليار معلمة. يعتمد سلوك “فتحات الرمز المميز المجانية” على التوازن بين كثافة الحساب وعرض النطاق الترددي للذاكرة. قد يؤدي النموذج الكبير الذي يعمل في الوضع الموازي للموتر إلى تشبع الحوسبة في وقت مبكر من بُعد الرمز المميز، مما يقلل من النطاق الذي تكون فيه التوسعات متعددة الرموز رخيصة. يعترف المؤلفون بهذا ويضعون علامة على التجارب طويلة السياق والواسعة النطاق كعمل مستقبلي.
أخيرًا، قام المؤلفون بتشغيل جميع الاستدلالات باستخدام PyTorch القياسي مع FlexAttention على H100 واحد، دون أي حبات مدمجة مخصصة أو تحسينات منخفضة المستوى. يؤدي هذا إلى إنشاء مقارنة عادلة بين تقنيات التسارع، ولكنه يجعل أرقام الإنتاجية المطلقة غير كاملة. تُظهر أنظمة مثل Medusa وEAGLE-3 وأجهزة فك التشفير التأملية المُحسّنة سرعات أعلى ماديًا عند ضبطها على مستوى النواة. قد يستفيد نظام TiDAR من هندسة مماثلة، لكن هذا العمل لا يزال أمامنا.
طريقة يمكن أن تعيد تشكيل فك التشفير
يمثل TiDAR محاولة لدمج العائلتين السائدتين لتقنيات فك التشفير متعدد الرموز. فبدلاً من الاعتماد على مسودة نموذج منفصل، كما يفعل فك التشفير التأملي، أو التخلي عن تحليل السلسلة، كما تفعل مناهج الانتشار فقط، يقترح المؤلفون عمودًا فقريًا واحدًا يتعلم كلا السلوكين. وتتمثل الفائدة في البساطة في وقت الاستدلال وتقليل أثر النموذج. تبدو المقايضات قابلة للإدارة على نطاق صغير، وتقدم الطريقة عرضًا ملموسًا لمدى التوازي غير المستخدم داخل وحدة معالجة الرسومات الحديثة أثناء الجيل التالي من الرموز المميزة.
تعتمد “الإمكانية” كليًا على ما إذا كان نظام TiDAR يقيس حجمه أم لا. إذا كان من الممكن تطبيق وصفة التدريب الخاصة بها على نماذج كبيرة دون زعزعة الاستقرار أو استنفاد ميزانيات الذاكرة، فقد توفر طريقًا لزيادة إنتاجية كل وحدة معالجة رسومات في الإعدادات السحابية وتقليل زمن الوصول للاستدلال المحلي على وحدات معالجة الرسومات الاستهلاكية. ومن ناحية أخرى، إذا تقلصت منطقة “الفتحة الحرة” بمجرد توسيع عدد المعلمات ونوافذ السياق، فقد يصبح TiDAR بمثابة بحث مفيد بدلاً من أن يكون بديلاً عمليًا لفك التشفير التخميني أو النهج متعدد الرؤوس.
ما نجحت الورقة في إظهاره هو أن تنبؤات الانحدار الذاتي والانتشار لا تحتاج إلى التواجد في شبكات منفصلة. يمكن لمحول واحد أن يتعلم كليهما، ويمكنه القيام بذلك دون التخلص من هياكل ذاكرة التخزين المؤقت KV التي تجعل توليد الرمز المميز التالي قابلاً للتطبيق على نطاق واسع.
هذه مساهمة ذات معنى في تسريع الاستدلال، وسوف يأتي الاختبار الحقيقي عندما يتم دفع البنية إلى نطاق الحجم الذي تعمل فيه النماذج التجارية وحيث لم يعد عرض النطاق الترددي للذاكرة يخفي تكلفة توسيع بُعد الرمز المميز.

التعليقات