يشير بحث جديد شارك فيه علماء من Anthropic وETH Zurich إلى أن أنظمة الذكاء الاصطناعي الحديثة يمكنها تحديد هويات العالم الحقيقي وراء حسابات الإنترنت التي يُفترض أنها مجهولة. تُظهر الدراسة، التي نُشرت كطبعة أولية على arXiv، أن نماذج اللغات الكبيرة (LLMs) قد تكون قادرة على تحليل النشاط عبر الإنترنت وربط الملفات الشخصية ذات الأسماء المستعارة بأفراد حقيقيين على نطاق واسع.
يستكشف البحث، الذي يحمل عنوان إلغاء الهوية عبر الإنترنت على نطاق واسع مع LLMs، كيف يمكن لوكلاء الذكاء الاصطناعي أتمتة عملية إلغاء الهوية – عملية ربط الحسابات المجهولة أو ذات الأسماء المستعارة عبر الإنترنت بالهويات الحقيقية. تقليديًا، كانت هذه العملية تتطلب تحقيقًا يدويًا كبيرًا من قبل المحللين الذين بحثوا في المنشورات وأساليب الكتابة والقرائن المتناثرة عبر الإنترنت. ومع ذلك، أثبت الباحثون أن نماذج الذكاء الاصطناعي الحديثة يمكنها تنفيذ العديد من هذه الخطوات تلقائيًا.
في الدراسة، قام نظام الذكاء الاصطناعي بتحليل النص العام من المنصات عبر الإنترنت واستخرج الإشارات المتعلقة بالهوية مثل الاهتمامات الشخصية، والقرائن الديموغرافية، وأسلوب الكتابة، والتفاصيل العرضية التي يتم الكشف عنها في المنشورات. ثم قام الذكاء الاصطناعي بالبحث عن الملفات الشخصية المطابقة عبر الويب وتقييم ما إذا كانت القرائن تتوافق مع الأفراد المعروفين.
ولاختبار هذه الطريقة، أنشأ الباحثون عدة مجموعات بيانات ذات هويات معروفة للحقيقة الأرضية
حاولت إحدى التجارب مطابقة مستخدمي Hacker News مع ملفاتهم الشخصية على LinkedIn، حتى بعد إزالة المعرفات الواضحة مثل الأسماء وأسماء المستخدمين. تتضمن مجموعة بيانات أخرى ربط حسابات Reddit بأسماء مستعارة عبر مجتمعات مختلفة. قامت مجموعة بيانات ثالثة بتقسيم سجل منشورات مستخدم واحد إلى ملفين شخصيين منفصلين لمعرفة ما إذا كان الذكاء الاصطناعي يمكنه تحديد أنهم ينتمون إلى نفس الشخص.
أظهرت النتائج أن الأنظمة المستندة إلى LLM تفوقت بشكل كبير على تقنيات إلغاء الهوية التقليدية. في بعض الحالات، حققت النماذج ما يصل إلى 68% من التذكر مع دقة تبلغ حوالي 90%، مما يعني أن الذكاء الاصطناعي حدد بشكل صحيح العديد من الحسابات مع الحفاظ على معدلات خطأ منخفضة نسبيًا. حققت الطرق التقليدية في نفس التجارب نجاحًا يقترب من الصفر.

يقول الباحثون إن النتائج تسلط الضوء على كيف يمكن للذكاء الاصطناعي تكرار المهام التي كانت تتطلب ساعات من العمل من قبل المحققين البشريين. يمكن لنظام الذكاء الاصطناعي أن يستخرج تلقائيًا الميزات المتعلقة بالهوية من النص، ويبحث عن التطابقات المحتملة بين آلاف الملفات الشخصية، ويحدد السبب وراء المرشح الأكثر صحة.
يعد هذا التطور مهمًا لأن إخفاء الهوية يعتبر منذ فترة طويلة بمثابة حماية أساسية للعديد من مستخدمي الإنترنت
تُستخدم الحسابات بأسماء مستعارة على نطاق واسع من قبل الصحفيين والمبلغين والناشطين والأفراد العاديين الذين يرغبون في مناقشة مواضيع حساسة دون الكشف عن هوياتهم الحقيقية.
تشير الدراسة إلى أن طبقة الحماية هذه – التي تسمى أحيانًا “الغموض العملي” – قد تضعف مع تحسن أنظمة الذكاء الاصطناعي في ربط القرائن الرقمية عبر المنصات. إذا تمكنت الأدوات الآلية من أداء هذا العمل بسرعة وبتكلفة زهيدة، فقد ينخفض الحاجز الذي يحول دون تحديد المستخدمين المجهولين بشكل كبير.

يقدر الباحثون أن تكلفة تحديد حساب عبر الإنترنت باستخدام خط أنابيبهم التجريبي يمكن أن تتراوح بين 1 دولار و4 دولارات لكل ملف شخصي، مما يعني أنه يمكن إجراء تحقيقات واسعة النطاق بتكلفة زهيدة نسبيًا.
ومع ذلك، لاحظ المؤلفون أيضًا أن البحث أُجري في بيئات خاضعة للرقابة باستخدام البيانات العامة. لم تتم مراجعة الورقة بعد، وقد تعمد الباحثون حجب بعض التفاصيل الفنية لتقليل مخاطر سوء الاستخدام.
ومع ذلك، فقد أثارت النتائج بالفعل جدلاً بين خبراء الخصوصية والتقنيين
يشير هذا العمل إلى أن الأفراد قد يحتاجون إلى إعادة التفكير في مقدار المعلومات الشخصية التي يكشفون عنها عبر الإنترنت – حتى في الأماكن التي تبدو مجهولة المصدر. وبالنظر إلى المستقبل، يقول الباحثون إن هناك حاجة إلى مزيد من العمل لفهم المخاطر والدفاعات المحتملة ضد إخفاء الهوية المدعوم بالذكاء الاصطناعي. يمكن أن تشمل الحلول المحتملة أدوات خصوصية محسنة، أو ضمانات أقوى للنظام الأساسي، أو أنظمة الذكاء الاصطناعي المصممة لإخفاء هوية البيانات الحساسة قبل مشاركتها علنًا.
مع ازدياد قدرة الذكاء الاصطناعي على تحليل كميات هائلة من المحتوى عبر الإنترنت، تسلط الدراسة الضوء على تحدي متزايد: الموازنة بين قوة الاكتشاف المعتمد على الذكاء الاصطناعي والحاجة إلى حماية الخصوصية الشخصية في العصر الرقمي.

التعليقات