كشفت تحقيقات كبيرة أن مجموعة البيانات المفتوحة المصدر الضخمة “DataComp CommonPool”، المستخدمة على نطاق واسع في تدريب نماذج الذكاء الاصطناعي لتوليد الصور، تحتوي على ملايين الأمثلة من البيانات الشخصية. في دراسة تم فيها فحص 0.1% فقط من هذه المجموعة التي تضم 12.8 مليار عينة، وجد الباحثون آلاف الصور التي تتضمن جوازات سفر، بطاقات ائتمان، شهادات ميلاد، رخص قيادة، ومستندات هوية رسمية أخرى، بالإضافة إلى وجوه يمكن التعرف عليها. ويُقدّر الباحثون أن المجموعة الكاملة قد تحتوي على مئات الملايين من هذه الوثائق الحساسة.
كما تضمنت البيانات آلاف السيرة الذاتية ورسائل التقديم على وظائف تعود لأشخاص حقيقيين، وتضمنت معلومات حساسة مثل الحالة الصحية، نتائج الفحوصات الأمنية، بيانات عرقية، ومعلومات اتصال وهوية حكومية خاصة بالأفراد. كما وُجدت معلومات شخصية للأطفال، بما في ذلك شهادات ميلاد وسجلات صحية، يبدو أنها جُمعت من أماكن لم تُراد لها أن تُنشر بشكل عام.
المجموعة التي تم إطلاقها في 2023 لا تفرض قيودًا على الاستخدام التجاري لرغم أنها كانت موجهة أساسًا للأبحاث الأكاديمية، مما يعني أنه يمكن استخدامها في أنظمة الذكاء الاصطناعي التجارية من دون قيود قانونية واضحة. وقد حاول منشئو المجموعة حماية الخصوصية عبر وسائل مثل التعتيم التلقائي للوجوه، لكن التدقيق أظهر ضعف فاعلية هذه الإجراءات حيث فشلت الأدوات في اكتشاف ملايين الوجوه والبيانات الشخصية.
من الناحية القانونية، يثير استخدام البيانات المتاحة على الإنترنت دون تمييز تساؤلات كبيرة حول مدى قانونية ذلك، حيث لا يعني الوصول العام للبيانات دائمًا أنها متاحة للاستخدام بحرية وفقًا لقوانين الخصوصية الدولية التي تفرض شروطًا مثل تقليل البيانات، موافقة الأشخاص، وإبلاغ عن الانتهاكات. كما أن الفلاتر التلقائية لتقليل المخاطر ليست كافية، مما يزيد من التعقيد القانوني والأخلاقي لهذه القضية.
تسلط هذه القضية الضوء على مخاطر الاعتماد على تقنيات جمع البيانات الواسعة وغير المنضبطة، ويدعو الخبراء والمجتمع العلمي إلى إعادة النظر الجذرية في ممارسات جمع بيانات تدريب الذكاء الاصطناعي، مع تشديد القوانين وتحسين آليات الموافقة والرقابة لضمان حماية الحقوق والخصوصية الفردية.
باختصار، تُظهر مجموعة بيانات DataComp CommonPool كيف يمكن للتعطش الكبير في نماذج الذكاء الاصطناعي إلى بيانات ضخمة على الإنترنت أن يؤدي إلى اختراقات خصوصية واسعة ومشاكل قانونية أخلاقية، في وقت لا تزال فيه التقنيات والتنظيمات الحالية عاجزة عن التصدي لهذه التحديات بشكل فعال.
المصدر:
A Common Pool of Privacy Problems: Legal and Technical Lessons from a Large-Scale Web-Scraped Machine Learning Dataset https://arxiv.org/pdf/2506.17185.pdf
Privacy Professionals
We provide integrated personal data protection services using innovative technologies that enhance privacy and ensure compliance to regulations, in collaboration with trusted global partners and pioneers in advanced technical solutions adapted to the laws and requirements of local regulators.