Apple

استخدام Apple للبيانات المزيفة لتدريب الذكاء الاصطناعى ليس غريبًا كما يبدو


في نهاية الأسبوع الماضي ، نشر مارك غورمان من بلومبرج ودريك بينيت نظرة شاملة على ما حدث في ذكاء Apple.

تفاصيل القطعة كل شيء من الإشراف لمدة سنوات إلى سوء فهم عميق لإمكانات الذكاء الاصطناعى على أعلى مستويات الشركة. ولكن الأهم من ذلك ، أنه يحدد أيضًا ما تفعله Apple الآن للحاق بالركب. واحدة من تلك الجهود؟ دفع إلى البيانات الاصطناعية.

كما قال غورمان وبينيت:

لقد ترك كل هذا الباحثين في Apple اعتمادًا أكبر على مجموعات البيانات التي يرخصها من أطراف ثالثة وما يسمى بالبيانات الاصطناعية-البيانات الصاعقة التي تم إنشاؤها صراحة لتدريب الذكاء الاصطناعي.

و

بفضل تحديث البرنامج الأخير ، تم أيضًا تجنيد أجهزة iPhone للمساعدة في تحسين بيانات Apple الاصطناعية. يتم تقييم البيانات المزيفة وتعزيزها من خلال مقارنتها باللغة في رسائل البريد الإلكتروني للمستخدم على هواتفهم ، وتوفير نقاط مرجعية في العالم الحقيقي لتدريب الذكاء الاصطناعي دون إطعام معلومات المستخدم الفعلية في النماذج.

إذا كانت هذه الفكرة تبدو غريبة ، فإليك أول شيء يجب أن تعرفه: لا تكاد شركة Apple هي أول شركة تميل إلى بيانات “مزيفة” التي تم إنشاؤها بواسطة الكمبيوتر لتدريب نماذج الذكاء الاصطناعي.

قامت شركات مثل Openai و Microsoft و Meta بتدريب جميع النماذج الناجحة على هذه التقنية. لكن تقرير بلومبرج وضع الطريقة تحت الأضواء لعشاق التفاح.

باختصار ، تتيح البيانات الاصطناعية للمهندسين إنشاء مجموعات بيانات هائلة ومسمى تمامًا وآمنة من الخصوصية عند الطلب. يسمح لهم بتغطية حالات الحافة التي نادراً ما تظهر في البرية ، وتكرر أسرع بكثير مما لو كانوا ينتظرون أن تتدفق عينات من العالم الحقيقي.

إليك كيفية تفصيل Openai مع استخدام البيانات الاصطناعية لتقليل الهلوسة أثناء عملية تدريب GPT-4 في Mach ، 2023:

بالنسبة للهلوسة المجال المغلقة ، يمكننا استخدام GPT-4 نفسها لإنشاء بيانات اصطناعية. على وجه التحديد ، نقوم بتصميم عملية متعددة الخطوات لإنشاء بيانات المقارنة:

  1. تمرير مطالبة من خلال نموذج GPT-4 واحصل على استجابة
  2. تمرير مستخدم + استجابة من خلال GPT-4 مع تعليمات لسرد جميع الهلوسة
    (أ) إذا لم يتم العثور على هلوسة ، تابع
  3. تمرير موجه + استجابة + الهلوسة من خلال GPT-4 مع تعليمات لإعادة كتابة الاستجابة دون هلوسة
  4. تمرير موجه + استجابة جديدة من خلال GPT-4 مع تعليمات لسرد جميع الهلوسة
    (أ) إذا لم يتم العثور على أي منها ، فاحفظ (الاستجابة الأصلية ، استجابة جديدة).
    (ب) خلاف ذلك ، كرر ما يصل إلى 5x

تنتج هذه العملية مقارنات بين (الاستجابة الأصلية مع الهلوسة ، والاستجابة الجديدة بدون هلوسة وفقًا لـ GPT-4) ، والتي نخلطها أيضًا في مجموعة بيانات RM الخاصة بنا. نجد أن تخفيفاتنا على الهلوسة تعمل على تحسين الأداء على الواقعية كما تم قياسها من خلال تقييمات مثل structfulqa وزيادة الدقة إلى حوالي 60 ٪ مقارنة بنسبة 30 ٪ للإصدار السابق.

أما بالنسبة إلى Microsoft ، فقد تم تدريب نموذج اللغة PHI-4 الصغيرة من ديسمبر 2024 على بيانات اصطناعية بنسبة 55 ٪ ، بينما تم تقسيم 45 ٪ المتبقية عبر مصادر أخرى. بالطبع ، لقد ساعد أن PHI-4 كان SLM مع فقط 14 مليار معلمة ، بدلاً من تريليونات المعلمات اللازمة حاليًا لتدريب LLMS Frontier.

ومع ذلك ، فإن النموذج (الذي هو مفتوح ، بالمناسبة) يتفوق على نماذج أكبر مثل GPT-4O و Gemini Pro 1 على مهام الرياضيات والتفكير.

أداء PHI-4 ضد النماذج الأكبر.
متوسط ​​أداء النماذج المختلفة في اختبارات AMC-10 و AMC-12 في نوفمبر 2024 من التقرير الفني لـ Microsoft PHI-4

ولكن ما هو بالضبط “البيانات الاصطناعية”؟

البيانات الاصطناعية هي المعلومات التي تم إنشاؤها بواسطة خوارزمية (غالبًا ما يكون نموذج AI آخر) أو حتى يدويًا ، بدلاً من جمعها من بيانات حقيقية. ولأنه تم إنشاؤه في المنزل ، يمكن للمهندسين:

  • ضمان دقة الملصقات المثالية.
  • ضبط السيناريوهات النادرة.
  • تجنب تضمين مواد التعريف الشخصية أو المحمية بحقوق الطبع والنشر في مجموعة البيانات.

تقدم مدونة الأبحاث الخاصة بـ Apple مثالًا ملموسًا على استخدامها للبيانات الاصطناعية. باختصار ، تقوم الشركة بتصنيع آلاف رسائل البريد الإلكتروني للعينات (“هل تريد لعب التنس غدًا في الساعة 11:30 صباحًا؟”) على الجهاز ، وتقارنها بالرسائل الحقيقية محليًا ، وترسل فقط إشارة مجهولة الهوية حول العينات الاصطناعية التي تبدو ذات صلة.

خط أنابيب توليد البيانات الاصطناعية من Apple.

لمرة واحدة ، فإن التأخر في اللعبة يؤتي ثماره

إن السبب وراء تحول العديد من عملاق الذكاء الاصطناعي إلى بيانات اصطناعية بسيطة: في الأساس ، قاموا بالفعل بالتلاعب بجميع البيانات المتاحة في العالم ، وهي بحاجة إلى المزيد.

هذا ، بدوره ، أدى إلى استثمارات بحثية وتحسينات كبيرة في الأداء لتدريب الذكاء الاصطناعي مع البيانات الاصطناعية في العامين الماضيين.

في حالة Apple ، قد يتحول هذا إلى نوع من الكمال. كانت الشركة نائمة لأن السوق بأكمله ينتهك مواد محمية بحقوق الطبع والنشر اليسار واليمين. وعندما استيقظت أخيرًا ، تمسك (في الغالب) بإدانات الخصوصية. عند هذه النقطة ، بدأ توليد البيانات الاصطناعية للتدريب على نموذج الذكاء الاصطناعي في الإقلاع ، وانضمت شركة Apple أخيرًا.

من الواضح أن الأمر ليس بهذه البساطة ، لكنك تحصل على الفكرة.

لكن ألا ينهار هذا النماذج؟

في كلمة واحدة ، لا. في بضع كلمات ، لا إذا تم ذلك بشكل صحيح.

في الماضي ، كان يعتقد على نطاق واسع أن الإنترنت بأكمله سيتحول إلى انخفاض تم إنشاؤه من الذكاء الاصطناعى ، ويتم تدريبه على الانحدار الذي تم إنشاؤه من الذكاء الاصطناعى ، وأن الأمر برمته قد تم القيام به.

ببطء ولكن بثبات ، بدأت بعض الدراسات تشير إلى أن الاستخدام الجزئي للبيانات الاصطناعية المنسقة بعناية يمكن أن يحسن أداء النموذج فعليًا. أكثر من ذلك ، في الواقع ، من الاعتماد فقط على البيانات الخام “العضوية”. على سبيل المثال ، استمرت Microsoft PHI-4 لإثبات ذلك ودفع هذه الفكرة إلى أبعد من ذلك.

بالنسبة إلى Apple ، قد يثبت تدريب نماذجها باستخدام البيانات الاصطناعية فوزًا متعدد الأطول ، حيث قد يؤدي إلى تسريع إعادة تشغيل Siri ، وتسريع دعمها لمزيد من اللغات والمناطق ، كل ذلك مع الحاجة إلى عدد أقل من وحدات معالجة الرسومات (وهو أمر جيد ، لأنهم قرروا أنهم لا يحتاجون إلى تلك الخاصة بـ AI) بسبب أصغر من المواد.

خلاصة القول

بالطبع ، كما هو الحال مع أي قرار متعلق بالتكنولوجيا ، يأتي هذا مع مقايضات مهمة. لأحدها ، إنها أغلى ثمناً وأبطأ في جمع بيانات اصطناعية نظيفة وتنسيق الإنسان بدلاً من البدائل “التقليدية”.

أيضًا ، أثناء استخدام LLM لإنشاء بيانات اصطناعية قد يتجنب نظريًا تضمين مواد شخصية أو محمية بحقوق الطبع والنشر في مجموعة البيانات ، هناك دائمًا إمكانية أن يبصق النموذج شيئًا حرفيًا في بيانات التدريب “العضوية”.

وأخيراً (على الأقل لأغراض هذه القطعة) ، فإن وجود البشر في الحلقة يعني إدخال التحيز ، بقدر ما يحاولون تجنبها.

ومع ذلك ، فإن استثمار Apple في البيانات الاصطناعية لذكاء Apple هو أخبار جيدة. حسنًا، أي أخبار استثمار Apple في الذكاء الاصطناعي هي أخبار جيدة. بالنسبة لجميع التسريبات والتقارير ، وتشغيل الإصبع (المبرر) للأسابيع القليلة الماضية ، قد تكون شركة Apple مستعدة أخيرًا لتحويل الصفحة والبدء في الحديث عما ستفعله بالفعل لسحب نفسه من الحفرة ذات الشكوك AI التي قضتها في السنوات الأخيرة في الحفر فيها.

FTC: نحن نستخدم روابط التابعة لمكسب الدخل. أكثر.


اكتشاف المزيد من عالم الآيفون

اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى

اكتشاف المزيد من عالم الآيفون

اشترك الآن للاستمرار في القراءة والحصول على حق الوصول إلى الأرشيف الكامل.

Continue reading

salwar porn whiteporntube.net hot girla
xvideos indian girlfriend tubzolina.mobi polar porn
hot vidios nanotube.mobi tamil play movies
nadia ali videos indianhottube.com antrwasana
www.hindimp3.com xxxhindividoes.com pussyeating
نيك كويتيات meeporn.net صور سكس متحركه جديده
pussy jet.com indianpornmms.net woman sex videos
اجمل النساء سكس pornotane.net نيك مترجم محارم
preggomilky hqtube.mobi malluaunties
zarin khan hd russianporntrends.com trafficfactory
سكس ميا احمد arabic-porn.com افلام سكس تونسى
desi incest sex tubenza.mobi shama sikander hot
sammus hentai series-hentai.net newhalf hentai
bhojpuri film blue pornolike.mobi bodo sex
x vindeos chupaporn.net kannada hd xxx