كيف يضمن صانع iPhone سلامة Apple Intelligence
ورقة بحثية تشرح كيفية تصميم Apple Intelligence، والخطوات التي تتخذها الشركة لضمان سلامة النماذج.
تقدم الورقة أيضًا لمحة عن حجم وتعقيد قدرات الذكاء الاصطناعي على الجهاز، مع الإشارة إلى أن النموذج الأساسي الذي يعمل بالكامل على iPhone أو iPad أو Mac يحتوي على حوالي ثلاثة مليارات معلمة.
تم نشر الورقة، التي رصدها جون جروبر، قبل أسبوعين.
نقدم نماذج لغة أساسية تم تطويرها لتشغيل ميزات Apple Intelligence، بما في ذلك نموذج معلمات بقيمة ∼ 3 مليار مصمم للعمل بكفاءة على الأجهزة ونموذج لغة كبير قائم على الخادم مصمم للحوسبة السحابية الخاصة [Apple, 2024b].
تم تصميم هذه النماذج لأداء مجموعة واسعة من المهام بكفاءة ودقة ومسؤولية. يصف هذا التقرير بنية النموذج، والبيانات المستخدمة لتدريب النموذج، وعملية التدريب، وكيفية تحسين النماذج للاستدلال، ونتائج التقييم. نسلط الضوء على تركيزنا على الذكاء الاصطناعي المسؤول وكيفية تطبيق المبادئ خلال تطوير النموذج.
البحث بشكل استباقي عن المواد الإشكالية
أحد التحديات الكبيرة التي تواجه الذكاء الاصطناعي التوليدي هو أنه تم تدريبه على نطاق واسع من المحتوى الذي أنشأه المستخدمون على الويب، ويمكن أن ينتهي به الأمر إلى تكرار أسوأ ما في الإنسانية. تقول شركة Apple إنها تسعى بشكل استباقي إلى تحديد المواد الإشكالية واستبعادها.
نحن نعمل باستمرار لتجنب إدامة الصور النمطية والتحيزات المنهجية عبر أدوات ونماذج الذكاء الاصطناعي لدينا. نحن نتخذ الاحتياطات اللازمة في كل مرحلة من مراحل عمليتنا، بما في ذلك التصميم والتدريب النموذجي وتطوير الميزات وتقييم الجودة لتحديد كيفية إساءة استخدام أدوات الذكاء الاصطناعي الخاصة بنا أو التسبب في ضرر محتمل. سنقوم بشكل مستمر واستباقي بتحسين أدوات الذكاء الاصطناعي لدينا بمساعدة تعليقات المستخدمين […]
بالإضافة إلى ذلك، تم بذل جهود مكثفة لاستبعاد الألفاظ النابية والمواد غير الآمنة ومعلومات التعريف الشخصية من البيانات المتاحة للعامة.
اختبار مع عبارات الزناد
أحد الأساليب المحددة المستخدمة هو اختبار النماذج عمدًا باستخدام عبارات تحفيزية من المحتمل أن تولد استجابات غير مقبولة، ثم تطبيق عملية إزالة التلوث لاستبعادها.
وتقول شركة Apple إنها تفعل ذلك من خلال مجموعات البيانات التي رخصتها، وكذلك من خلال مواقع الويب التي تم الزحف إليها بواسطة Applebot.
التحقق من صحة الإخراج مقابل قيم Apple
تطبق Apple بعد ذلك عملية تُعرف باسم ما بعد التدريب، والتي تقوم بشكل أساسي بمراجعة المخرجات من أجل التحقق من صحتها وضبطها.
نحن نجري بحثًا مكثفًا في أساليب ما بعد التدريب لغرس قدرات متابعة التعليمات والمحادثة للأغراض العامة في نماذج AFM المدربة مسبقًا. هدفنا هو التأكد من توافق إمكانات النماذج هذه مع القيم والمبادئ الأساسية لشركة Apple، بما في ذلك التزامنا بحماية خصوصية المستخدم، ومبادئ الذكاء الاصطناعي المسؤول لدينا.
أربعة معايير للمراجعة البشرية
تُستخدم المراجعة البشرية لمقارنة المخرجات المختلفة، حيث يُطلب من المراجعين تقييمها بناءً على مجموعة من المعايير:
- دقة
- المساعدة
- عدم الضرر
- عرض تقديمي
يتم بعد ذلك استخدام هذه التصنيفات لتعزيز فهم النموذج لما يهدف إلى إنتاجه.
الفريق الأحمر
تستخدم الشركة أيضًا نهجًا يُعرف باسم “الفريق الأحمر”، وهو اختبار اختراق فعال لنماذج الذكاء الاصطناعي. يستخدم هذا مزيجًا من الهجمات البشرية والآلية لمحاولة العثور على نقاط الضعف في النموذج.
يعد الفريق الأحمر مسعى إبداعيًا بشكل أساسي يتطلب من أعضاء الفريق الأحمر استخدام مجموعات من نواقل الهجوم لاستكشاف نقاط الضعف المعروفة في النماذج ومحاولة اكتشاف نقاط ضعف جديدة. تتضمن نواقل الهجوم المستخدمة عند التعامل مع نماذج اللغة عمليات كسر الحماية/الحقن الفوري وتقنيات الإقناع [Zeng et al., 2024]والميزات اللغوية المعروفة بأنها تسبب سوء سلوك النموذج (مثل اللغة العامية، وتبديل الرموز، والرموز التعبيرية، والأخطاء المطبعية).
نحن نستخدم كلا من الفريق الأحمر اليدوي والآلي [Ganguli et al., 2022] لاستنباط أوضاع فشل غير معروفة محتملة للنماذج المحاذاة. المزيد من الأعمال الحديثة [Touvron et al., 2023] تشير إلى أن العمليات الآلية يمكن أن تولد مطالبات أكثر تنوعًا من البشر، والتي كان يُنظر إليها سابقًا على أنها المعيار “الذهبي” لجمع البيانات.
تتناول الورقة قدرًا كبيرًا من التفاصيل حول هذا وأكثر.
تصوير كيفن كو على Unsplash
FTC: نحن نستخدم الروابط التابعة التلقائية لكسب الدخل. أكثر.
اكتشاف المزيد من عالم الآيفون
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.