
تشير دراسة عالمية جديدة إلى أن الناس يتوقفون عن الثقة في أصوات الذكاء الاصطناعي في اللحظة التي يدركون فيها أن الصوت ليس بشرياً، مما يخلق مشكلة كبيرة للشركات التي تستخدم الأصوات الاصطناعية في خدمة العملاء وغيرها من الأنظمة التي تواجه الجمهور.
استمع المشاركون في الدراسة، التي شملت أكثر من 10000 مشارك على مدار شهر، إلى أصوات مختلفة وطُلب منهم الرد عليها. يمكنهم الإعجاب بكل صوت أو عدم إعجابهم به أو تخطيه أو تقييمه. ولم يتم إخبار المستمعين مسبقًا أنهم سيستمعون إلى الكلام الناتج عن الذكاء الاصطناعي.
يستمر المقال أدناه
رفض أصوات الذكاء الاصطناعي
قامت الدراسة بقياس كيفية استجابة الناس للأصوات عبر 18 خاصية، بما في ذلك ما إذا كانت تبدو دافئة أو واضحة أو رتيبة. وتتبع الباحثون أيضًا مدة استماع الأشخاص وكيفية تفاعلهم، بدلاً من الاعتماد فقط على ردود الفعل المباشرة.
وكانت إحدى أوضح النتائج هي أن الناس يميلون إلى رفض أصوات الذكاء الاصطناعي بمجرد التعرف عليها. ووجد الباحثون رابطًا سلبيًا قويًا بين اكتشاف صوت الذكاء الاصطناعي والإعجاب به.
وأظهرت النتائج أيضًا اختلافات كبيرة في الجودة بين النماذج الصوتية. تم تصنيف النظام الأفضل أداءً أعلى بثلاث مرات من النموذج الأدنى تصنيفًا.
كان أداء شركات الذكاء الاصطناعي الصغيرة جيدًا بشكل خاص في التصنيف، حيث صنفت شركة MiniMax الصينية الناشئة كأفضل نموذج صوتي من قبل المستمعين في المملكة المتحدة والولايات المتحدة. وتأخرت شركات التكنولوجيا الكبرى مثل جوجل وأمازون ومايكروسوفت بشكل كبير.
كما وجدت الدراسة اختلافات بين البلدان. كان المستمعون في المملكة المتحدة أكثر عرضة بنسبة 13% للتعرف على الأصوات الصادرة عن الذكاء الاصطناعي مقارنة بالأمريكيين. ومع ذلك، كان المستمعون الأوروبيون بشكل عام أكثر استعدادًا لقبول أصوات الذكاء الاصطناعي بشكل عام.
قال نيك لاهويكا، الرئيس التنفيذي ومؤسس شركة Vocal Image: “في حين أن التحول إلى تحويل النص إلى كلام المتخصص يتطلب موارد، فإن اختيار المزود الخطأ أصبح مسؤولية بالغة الأهمية للعلامة التجارية – خاصة بالنسبة للمنتجات المبنية على الثقة”. “الحقيقة بسيطة: لا يزال الناس لا يثقون بأصوات الذكاء الاصطناعي السيئة.”
- جاءت شركة Minimax الصينية الناشئة في مقدمة الدراسات الإدراكية الصوتية. هل يمكن أن تخبرنا لماذا هذه الصفقة الكبيرة؟
أجرينا هذا البحث في شهر يناير مع 10000 مستخدم قاموا بمقارنة MiniMax مع 19 نموذجًا صوتيًا. كان الهدف بسيطًا: تحديد الصوت الذي يثق به الناس بالفعل.
ونظرًا للاهتمام الواسع النطاق بمقاطع الفيديو الخاصة بهم مؤخرًا، تؤكد دراستنا أن صوت MiniMax، حتى بدون الصورة الرمزية المرئية، يُنظر إليه على أنه الأكثر أصالة.
بدلاً من قياس الأداء القياسي A/B كما ترى في Hugging Face، ركزنا على الإدراك البشري. وقام المشاركون بتقييم الأصوات بنفس الطريقة التي يقيمون بها الأشخاص الآخرين، على أساس الثقة والجاذبية والسلطة، دون أن يعرفوا أنهم يستمعون إلى الذكاء الاصطناعي.
في رأيي، يعد هذا النوع من البيانات أكثر قيمة بكثير من التصويت المنسق الذي تحصل عليه في ProductHunt.
وكانت النتائج مثيرة للاهتمام. صنف 86% من المتحدثين الأصليين في المملكة المتحدة والولايات المتحدة MiniMax على أنه الصوت الأعلى جودة. وصفها المستمعون البريطانيون على وجه التحديد بأنها الأكثر ثقة.
ويظهر بحثنا أيضًا أن المستمعين البريطانيين هم الأفضل في اكتشاف أصوات الذكاء الاصطناعي، مما يجعل هذه النتيجة أكثر أهمية. إذا كان الجمهور الذي يصعب خداعه يعتبره أصليًا، فمن الواضح أن النموذج يعمل على مستوى عالٍ جدًا.
- لقد لاحظت أيضًا أن عمالقة التكنولوجيا الكبار “متخلفون”. لماذا تعتقد أن هذا هو الحال وما الذي يمكنهم فعله لسد الفجوة (على سبيل المثال من خلال عمليات الاستحواذ)؟
شركات التكنولوجيا الكبرى تفوز على نطاق واسع ولكنها تخسر على مستوى الدقة. في رأيي، تم تصميم نماذجهم الصوتية لملايين حالات الاستخدام الأفقي حيث يكون “جيد بما فيه الكفاية” مقبولاً. هذا يعمل لشيء مثل تحديث الطقس. ولكن في السياقات عالية المخاطر، مثل التدريب على التواصل أو علاج النطق، يكون التجويد والإيقاع هو المنتج. إذا بدا الصوت اصطناعيًا، فإن التجربة تنقطع على الفور.
في القطاعات التي يتم فيها استخدام الذكاء الاصطناعي في المبيعات أو التعليم أو إدارة الاستفسارات الحساسة، يجب أن يُظهر الصوت الثقة والوضوح والجدارة بالثقة لبناء ثقة المستخدم وزيادتها.
لقد رأينا هذا بشكل مباشر عندما قام فريقنا ببناء نموذج تركيبي إستوني عالي الدقة تكريمًا لإستونيا، حيث يقع مقر شركتنا الآن بعد انتقالها من بيلاروسيا في عام 2020. في ذلك الوقت، كان البديل الوحيد هو نظام Microsoft، ولم يتمكن من نطق الأرقام الإستونية بشكل صحيح.
تخيل بثًا لأخبار الأعمال حيث تكون الأرقام خاطئة. هذا هو “الميل الأخير” من الجودة الذي غالبًا ما تتجاهله المنصات الأفقية الكبيرة.
ولسد هذه الفجوة، أتوقع أن تعتمد شركات التكنولوجيا الكبرى بشكل متزايد على عمليات الاستحواذ. من الصعب التخصص بعمق في كل قطاع مع الحفاظ على اقتصاديات الحجم.
بالنسبة للشركات الناشئة، تكمن الفرصة في بناء أنظمة مُحسّنة لسياقات محددة عالية القيمة حيث تكون الجودة أكثر أهمية من الحجم.
- وأشار التقرير أيضًا إلى أن الكثير من المستمعين يفضلون الأصوات التي يولدها الذكاء الاصطناعي. لماذا تعتقد أن هذا هو الحال؟ هل نشهد إرهاق المستخدم (أي أن هناك الكثير من الصوت الذي ينتجه الذكاء الاصطناعي لدرجة أنني سئمت من محاربته، وربما أتقبله أيضًا).
لقد قمنا فقط بفحص أصوات الذكاء الاصطناعي في هذا التقرير، لذلك لا يمكننا الادعاء بأن الأشخاص يحبون أصوات الذكاء الاصطناعي أكثر من الأصوات الحقيقية.
لم يتمكن الكثير من الأشخاص (66%) من معرفة أن صوت الذكاء الاصطناعي كان مزيفًا. وهذا يدل على أن تقنية الصوت AI أصبحت الآن جيدة جدًا.
لا أعتقد أن الناس سئموا من الأصوات البشرية. أعتقد أنهم اعتادوا للتو على أصوات الذكاء الاصطناعي. يقوم العديد من الأشخاص بتسريع مقاطع الفيديو (1.5x أو 2x). عندما يفعلون ذلك، يتوقفون عن الاستماع للمشاعر ويريدون فقط الحصول على الحقائق بسرعة.
يعد صوت الذكاء الاصطناعي مثاليًا لنقل الحقائق لأنه نظيف وواضح ولا يحتوي على أخطاء أو توقفات. بدأ الناس في اختيار الذكاء الاصطناعي لأنه أسرع وأكثر وضوحًا، وليس لأنهم مجبرون على التكيف معه.
في دراستنا، نظرنا إلى 18 ميزة صوتية. المفتاح هو أن الأصوات التي بدت واضحة ومؤكدة كانت دائمًا أفضل من الأصوات التي بدت حقيقية.
كان هذا صحيحًا بشكل خاص بالنسبة إلى ElevenLabs وDescript. يبدو أن أصوات الذكاء الاصطناعي الخاصة بهم تبدو أكثر “احترافية” من العديد من ممثلي الصوت البشري الذين يسجلون في استوديوهات رخيصة.
- لقد ذكرت ثلاث فئات واسعة من نماذج تحويل النص إلى كلام في البحث: منصات الذكاء الاصطناعي، وكيانات تحويل النص إلى كلام المتخصصة والأسلحة الكبيرة. كيف تختلف مناهج كل منهما عن بعضها البعض وأي منها تعتقد أنه سيصبح النهج السائد في المستقبل؟
يُظهر بحثنا أن منصات الذكاء الاصطناعي والشركات الناشئة المتخصصة للغاية هما الفئتان الأكثر احتمالاً للسيطرة على المرحلة التالية من التكنولوجيا الصوتية.
الصناعة تتحرك إلى ما هو أبعد من مجرد توليد الصوت. التحدي الحقيقي هو مواءمة الأصوات مع الإدراك البشري، الذي يتضمن العاطفة، والفكاهة، والسلطة، والفروق الدقيقة الدقيقة.
أصبح إنشاء خطاب اصطناعي سلعة بسرعة. إن تقييم الأصوات وضبطها وفقًا لكيفية إدراك البشر لها هو عنق الزجاجة الحقيقي.
غالبًا ما تتحرك الشركات الناشئة المتخصصة بشكل أسرع هنا لأنها تبني أنظمة لتحقيق نتائج محددة بدلاً من تحسين القدرات العامة. من المؤكد أن شركات التكنولوجيا الكبرى لا تزال تمتلك موارد هائلة، وبالنسبة لها، من المرجح أن تظل عمليات الاستحواذ هي الإستراتيجية الرئيسية لسد فجوة الجودة.
- لقد أخبرتني أنه في المستقبل، قد ترغب في تطوير طريقة واحدة موحدة لتوجيه المستخدم بشكل كلي، والتقاط السلوكيات، على سبيل المثال، ومجموعة كاملة من التواصل غير اللفظي، مثلما يفعل الممثلون عند تصوير المشاهير في أفلام السيرة الذاتية. يفترض المتشائم بداخلي أن هذا يذهب إلى أبعد من اللازم ويمكن استخدامه لإنشاء صور مزيفة مثالية تقريبًا. أي أفكار حول ذلك؟
حتى اليوم، تكفي صورة أو مقطع فيديو واحد من حسابك على Instagram لإنشاء صورة مزيفة واقعية للغاية. يستغرق استنساخ الصوت بضع ثوانٍ فقط. لا توجد تكنولوجيا جيدة أو سيئة. هناك فقط أشخاص يستخدمونه بطرق مختلفة.
نحن نستخدم البيانات لتدريب برامجنا على المهارات الشخصية وتزويد المستخدمين بتعليقات قابلة للتنفيذ. على الرغم من أنه من الممكن استخدام هذه البيانات للكشف عن الاحتيال، إلا أن تركيزنا الأساسي يظل على تقديم التعليقات لمساعدة المستخدمين على التحسن. نحن لا نهدف إلى إنشاء نسخ من الناس. هدفنا هو العكس: نريد مساعدة الأشخاص على تحسين مهارات الاتصال لديهم.
اليوم، يقوم المستثمرون بالفعل بتحليل الاتصالات المكتوبة للمؤسس. وفي المستقبل، سيقومون أيضًا بتقييم مدى ثقة الشخص في التحدث، وكيف يقدمون أنفسهم، ومدى وضوح تعبيرهم عن الأفكار.
يمكن أن يساعد الذكاء الاصطناعي في تدريب هذه المهارات بشكل موضوعي، دون الضغط الاجتماعي الذي يشعر به الأشخاص غالبًا في بيئات التدريب.
القلق من التحدث هو مشكلة عالمية ضخمة. أكثر من 200 مليون شخص يعانون منه. التدريب التقليدي مكلف ولا يمكن لمعظم الناس الوصول إليه.
يمكن أن يكون التدريب على الذكاء الاصطناعي أكثر فعالية من حيث التكلفة بما يصل إلى 280 مرة من التدريب التنفيذي التقليدي. بدلاً من توظيف متخصصين متعددين، مثل مدرب التحدث، ومدرس التمثيل، ومدرب التواصل، يحصل المستخدمون على تعليقات منظمة وممارسة يومية في نظام واحد. يمكن أن تتكلف برامج التدريب التنفيذي التقليدية ما بين 7000 دولار و25000 دولار لكل موظف سنويًا، في حين أن الاشتراك السنوي في تطبيقنا يكلف 89.99 دولارًا فقط في الولايات المتحدة.
باختصار، نحن لا نتطلع إلى استبدال النمو البشري. مهمتنا هي جعل التنمية الشخصية في متناول الجميع.
اتبع TechRadar على أخبار جوجل و أضفنا كمصدر مفضل للحصول على أخبار الخبراء والمراجعات والآراء في خلاصاتك. تأكد من النقر على زر المتابعة!
وبالطبع يمكنك أيضًا اتبع TechRadar على TikTok للحصول على الأخبار والمراجعات وفتح الصناديق في شكل فيديو، والحصول على تحديثات منتظمة منا على واتساب أيضاً.

التعليقات