يمكن لتجربة TiDAR من Nvidia تسريع عملية إنشاء الرموز المميزة للذكاء الاصطناعي باستخدام وحدة فك تشفير الانتشار الهجين - يتميز البحث الجديد بمكاسب كبيرة في الإنتاجية، ولكن لا تزال هناك قيود

مع استمرار سباق الذكاء الاصطناعي بين الشركات والدول والأيديولوجيات على قدم وساق، أصدرت Nvidia ورقة بحثية تصف TiDAR، وهي طريقة فك تشفير تدمج نهجين منفصلين تاريخيًا لتسريع استنتاج نموذج اللغة. تنتج نماذج اللغة نصًا مميزًا واحدًا في كل مرة، حيث يكون الرمز المميز عبارة عن جزء صغير من النص، مثل جزء من كلمة أو علامة ترقيم.

يتطلب كل رمز مميز عادةً تمريرة أمامية كاملة عبر النموذج، وتهيمن هذه التكلفة على سرعة وتكلفة تشغيل أنظمة الذكاء الاصطناعي الحالية. إذا كان النموذج قادرًا على إنتاج عدة رموز مميزة في كل خطوة بأمان دون فقدان الجودة، فقد يؤدي ذلك إلى أوقات استجابة أسرع، وساعات أقل لوحدة معالجة الرسومات، وانخفاض تكاليف التشغيل لكل طلب، وكل ذلك يمكن أن يضيف ما يصل إلى وفورات كبيرة للمشغلين الذين يقومون بعمليات نشر كبيرة للذكاء الاصطناعي، ويقومون بتشغيل أحدث أجهزة Nvidia.

تركز دراسة TiDAR على فك تشفير الدفعة الأولى وتبلغ عن إنتاجية رمزية أعلى بأربعة وستة أضعاف من خطوط الأساس Qwen2.5 وQwen3 المستخدمة للمقارنة. قام الباحثون بتقييم 1.5 مليار و8 مليار نموذج معلمة وأظهروا أنه يمكن تحقيق مكاسب في السرعة دون تدهور يمكن قياسه في معايير الترميز والرياضيات. على الرغم من أن العمل لا يزال في مرحلة البحث، إلا أنه يوضح لماذا يمكن لوحدة معالجة الرسومات التي تعالج تسلسلًا واحدًا أن تحسب في كثير من الأحيان قيمة عمل أكثر من رمز مميز واحد في كل خطوة دون دفع زمن انتقال إضافي.

تنضم هذه الورقة إلى موجة من الأبحاث التي تحاول استغلال عدم التوازن بين حركة الذاكرة والحساب أثناء فك التشفير الانحداري الذاتي. في H100، عادةً ما يكون إنشاء الرمز المميز التالي محدودًا بتكلفة تحميل أوزان النموذج وذاكرة التخزين المؤقت KV من ذاكرة النطاق الترددي العالي (HBM). تسلط Nvidia الضوء على ذلك من خلال ملف تعريف زمن الوصول لـ Qwen3-32B: عندما ينمو عدد مواضع الرموز المميزة المتوقعة، فإن إجمالي وقت المرور بالكاد يتغير حتى تصبح وحدة معالجة الرسومات مرتبطة بالحوسبة.

تصبح تلك المناطق غير المستخدمة من بُعد الرمز المميز “فتحات مجانية” فعليًا. تم تصميم TiDAR حول مسألة مقدار العمل المفيد الذي يمكن للنموذج القيام به داخل تلك الفتحات مع الحفاظ على شكل تنبؤات الرمز المميز التالي جيدة التصرف.

مصممة لتلبية توزيعتين في وقت واحد

تنشر Microsoft المجموعة الفائقة GB300 NVL72 داخل Azure

(رصيد الصورة: مايكروسوفت / نفيديا)

يقوم TiDAR بتدريب محول واحد لحساب كل من توزيع الرمز المميز التالي الانحدار الذاتي والتوزيع الهامشي بنمط الانتشار بالتوازي. هذه ليست الطريقة التي تعمل بها نماذج لغة الانتشار عادةً. تعتمد الأنظمة السابقة مثل Dream وLlada وBlock Diffusion بشكل كامل على تقليل الضوضاء المتوازي للكتل المقنعة. وتتمثل الفائدة في السرعة، ولكن الدقة تنخفض مع زيادة أطوال الكتل لأن النموذج لم يعد يحتفظ بعامل سلسلة صارم. يحاول TiDAR استعادة تلك البنية دون التخلي عن توازي الانتشار.

ويتم تحقيق ذلك من خلال قناع انتباه منظم يقسم المدخلات إلى ثلاث مناطق. تتصرف البادئة المقبولة مثل أي تسلسل سببي وتوفر مفاتيح وقيمًا يقوم النموذج بتخزينها مؤقتًا بين الخطوات. تستخدم كتلة من الرموز المميزة التي تمت صياغتها مسبقًا اهتمامًا ثنائي الاتجاه، مما يسمح للنموذج بالتحقق منها ضمن توزيع الانحدار الذاتي. كتلة ثانية مليئة برموز القناع تنتظر متنبئ الانتشار، الذي يقترح عدة مرشحين جدد بالتوازي.

يصبح فك التشفير بعد ذلك حلقة من مرحلتين. أولا، يملأ رأس الانتشار المنطقة المقنعة. في التمريرة التالية، يقوم النموذج بفحص تلك المسودات باستخدام رأسه الانحداري التلقائي. تعمل الرموز المميزة المقبولة على توسيع البادئة. يتم التعامل مع الطلبات المرفوضة في نفس الخطوة، لأن النموذج تعلم توقع كل مسار قبول من الجولة السابقة. في نفس التمريرة، يقوم رأس الانتشار بصياغة الكتلة التالية. مفتاح المخطط هو أن البنية السببية للبادئة تضمن بقاء ذاكرة التخزين المؤقت KV صالحة، مما يحل إحدى مشكلات النشر الأساسية التي واجهتها أجهزة فك التشفير السابقة القائمة على الانتشار.

ويستمر التدريب من نقاط التفتيش الموجودة في كوين. قام المؤلفون بمضاعفة طول التسلسل عن طريق إلحاق نسخة مقنعة بالكامل من التسلسل الأصلي وحساب خسائر الانحدار الذاتي والانتشار في النصفين. جميع رموز النشر هي رموز قناع، مما يحافظ على كثافة الهدف ويتجنب الحاجة إلى جداول ضوضاء معقدة، ويتم تطبيق العملية على 1.5 مليار و8 مليارات من العمود الفقري للمعلمات باستخدام نافذة سياق بحد أقصى 4096 رمزًا.

مكاسب واضحة في السرعة، ولكن حجم النموذج هو عامل مقيد

DeepSeek على باي 5

(رصيد الصورة: أجهزة توم)

في متغيرات HumanEval وMBPP وGSM8K وMinerva، تتطابق دقة TiDAR مع خطوط Qwen الأساسية المستخدمة في التدريب أو تتحسن قليلاً. يبلغ متوسط نموذج TiDAR الذي يحتوي على 1.5 مليار معلمة حوالي 7.5 رمزًا مميزًا تم إنشاؤه لكل تمريرة أمامية. متوسط الإصدار 8 مليار أعلى بقليل من ثمانية. تتحول هذه المتوسطات إلى مكاسب إنتاجية ملحوظة تبلغ 4.71 أضعاف الرموز المميزة في الثانية لـ Qwen2.5-1.5B للنموذج الأصغر و5.91 أضعاف إنتاجية Qwen3-8B للنموذج الأكبر.

في مقارنات مباشرة مع Dream، وBlock Diffusion، وLlada، وفك التشفير التخميني استنادًا إلى التحقق من مسودة نمط EAGLE-3، يوفر TiDAR أفضل توازن بين السرعة ودقة القياس ضمن مجموعة اختبار الورقة.

هذه النتائج منطقية بالنظر إلى الآلية. يقوم TiDAR بتنفيذ مهام تنبؤ متعددة بينما تكون أوزان النموذج والمفاتيح والقيم المخزنة مؤقتًا موجودة بالفعل في الذاكرة، لذلك يتم إنشاء المزيد من الرموز المميزة دون حركة إضافية في الذاكرة. في المقاييس الصغيرة التي تم اختبارها، تظل وحدة معالجة الرسومات مرتبطة بالذاكرة بدلاً من أن تكون مرتبطة بالحوسبة عبر عدة مواضع، مما يسمح للتوسع متعدد الرموز بالعمل بكفاءة.

أحجام النماذج الكبيرة لم يتم اختبارها بعد

وفي نهاية المطاف، يبدو أن حجم النموذج هو العامل المقيد. على الرغم من أن البحث يعرض TiDAR باستخدام ملفات تعريف Qwen3-32B، إلا أنه لم يتم توضيح الطريقة مع أكثر من 8 مليار معلمة. يعتمد سلوك “فتحات الرمز المميز المجانية” على التوازن بين كثافة الحساب وعرض النطاق الترددي للذاكرة. قد يؤدي النموذج الكبير الذي يعمل في الوضع الموازي للموتر إلى تشبع الحوسبة في وقت مبكر من بُعد الرمز المميز، مما يقلل من النطاق الذي تكون فيه التوسعات متعددة الرموز رخيصة. يعترف المؤلفون بهذا ويضعون علامة على التجارب طويلة السياق والواسعة النطاق كعمل مستقبلي.

أخيرًا، قام المؤلفون بتشغيل جميع الاستدلالات باستخدام PyTorch القياسي مع FlexAttention على H100 واحد، دون أي حبات مدمجة مخصصة أو تحسينات منخفضة المستوى. يؤدي هذا إلى إنشاء مقارنة عادلة بين تقنيات التسارع، ولكنه يجعل أرقام الإنتاجية المطلقة غير كاملة. تُظهر أنظمة مثل Medusa وEAGLE-3 وأجهزة فك التشفير التأملية المُحسّنة سرعات أعلى ماديًا عند ضبطها على مستوى النواة. قد يستفيد نظام TiDAR من هندسة مماثلة، لكن هذا العمل لا يزال أمامنا.

طريقة يمكن أن تعيد تشكيل فك التشفير

وحدات معالجة الرسومات لخادم Nvidia

(حقوق الصورة: نفيديا)

يمثل TiDAR محاولة لدمج العائلتين السائدتين لتقنيات فك التشفير متعدد الرموز. فبدلاً من الاعتماد على مسودة نموذج منفصل، كما يفعل فك التشفير التأملي، أو التخلي عن تحليل السلسلة، كما تفعل مناهج الانتشار فقط، يقترح المؤلفون عمودًا فقريًا واحدًا يتعلم كلا السلوكين. وتتمثل الفائدة في البساطة في وقت الاستدلال وتقليل أثر النموذج. تبدو المقايضات قابلة للإدارة على نطاق صغير، وتقدم الطريقة عرضًا ملموسًا لمدى التوازي غير المستخدم داخل وحدة معالجة الرسومات الحديثة أثناء الجيل التالي من الرموز المميزة.

تعتمد “الإمكانية” كليًا على ما إذا كان نظام TiDAR يقيس حجمه أم لا. إذا كان من الممكن تطبيق وصفة التدريب الخاصة بها على نماذج كبيرة دون زعزعة الاستقرار أو استنفاد ميزانيات الذاكرة، فقد توفر طريقًا لزيادة إنتاجية كل وحدة معالجة رسومات في الإعدادات السحابية وتقليل زمن الوصول للاستدلال المحلي على وحدات معالجة الرسومات الاستهلاكية. ومن ناحية أخرى، إذا تقلصت منطقة “الفتحة الحرة” بمجرد توسيع عدد المعلمات ونوافذ السياق، فقد يصبح TiDAR بمثابة بحث مفيد بدلاً من أن يكون بديلاً عمليًا لفك التشفير التخميني أو النهج متعدد الرؤوس.

ما نجحت الورقة في إظهاره هو أن تنبؤات الانحدار الذاتي والانتشار لا تحتاج إلى التواجد في شبكات منفصلة. يمكن لمحول واحد أن يتعلم كليهما، ويمكنه القيام بذلك دون التخلص من هياكل ذاكرة التخزين المؤقت KV التي تجعل توليد الرمز المميز التالي قابلاً للتطبيق على نطاق واسع.

هذه مساهمة ذات معنى في تسريع الاستدلال، وسوف يأتي الاختبار الحقيقي عندما يتم دفع البنية إلى نطاق الحجم الذي تعمل فيه النماذج التجارية وحيث لم يعد عرض النطاق الترددي للذاكرة يخفي تكلفة توسيع بُعد الرمز المميز.

Fonte

وحافظ أنجل سيتي على سجله خاليًا من الهزائم بعد فوزه على هيوستن داش 2-1

يدير المنزل لعبة البيسبول في أريزونا في المباراة الافتتاحية للسلسلة في UCF

“Laanat hai zindagi par”: سخرية يوغراج سينغ الحادة من روهيت شارما وفيرات كوهلي

يفسد المشي في الشوط الثامن البداية القوية لمايكل كينج، ويخسر بادريس أمام النمور، 5-2

لقد هربت من كوريا الشمالية مع أمي. والآن أشعر بالرعب من احتمال إعادتها

أشلون جاكسون يضرب بقوة بينما ينجو ديوك من عودة LSU ليجهز لمواجهة جامعة كاليفورنيا

التعليقات

اترك تعليقاً إلغاء الرد

وحافظ أنجل سيتي على سجله خاليًا من الهزائم بعد فوزه على هيوستن داش 2-1

يدير المنزل لعبة البيسبول في أريزونا في المباراة الافتتاحية للسلسلة في UCF

“Laanat hai zindagi par”: سخرية يوغراج سينغ الحادة من روهيت شارما وفيرات كوهلي

يفسد المشي في الشوط الثامن البداية القوية لمايكل كينج، ويخسر بادريس أمام النمور، 5-2

لقد هربت من كوريا الشمالية مع أمي. والآن أشعر بالرعب من احتمال إعادتها

أشلون جاكسون يضرب بقوة بينما ينجو ديوك من عودة LSU ليجهز لمواجهة جامعة كاليفورنيا

“أخطر جريمة ضد الإنسانية”: ماذا يعني تصويت الأمم المتحدة على العبودية؟

تقول السلطات إن تايجر وودز اتهم بوثيقة الهوية الوحيدة بعد تحطم الطائرة في فلوريدا

مراجعة شيء سيئ جدًا سيحدث – سلسلة الرعب هذه من Netflix والتي تستحق المشاهدة، تأخذ توتر الزفاف إلى أقصى الحدود

أصبح القص سهلاً: وفر ما يصل إلى 300 دولار أمريكي مع Lymow One Plus الخالي من الأسلاك هذا الربيع