أبحاث Apple تتناول لهجة اللغة الإنجليزية من الذكاء الاصطناعي

اسأل أي متحدث باللغة الإنجليزية غير الأصلية ، وربما سيخبرك أن LLM
في بعض الأحيان ، يكون الفرق دقيقًا. في بعض الأحيان ، ليس كثيرا. في بعض الأحيان ، يكون الأمر خطيرًا بصراحة ، كما هو موضح في دراسة كارنيجي ميلون لعام 2023 ، والتي وجدت أن المدخلات غير الإنجليزية يمكن أن تتجاوز بسهولة مرشحات السلامة.
الآن ، شاركت Apple في تأليف دراسة تقترح طريقة جديدة يمكن أن تغلق جزءًا من هذه الفجوة.
كما تشرحها Apple:
تم تصميم نماذج اللغة الكبيرة الحالية في الغالب مع اللغة الإنجليزية كلغة أساسية ، وحتى القلة التي هي متعددة اللغات تميل إلى إظهار تحيزات قوية تتمحور حول اللغة الإنجليزية.
يشبه إلى حد كبير المتحدثين الذين قد ينتجون تعبيرات محرجة عند تعلم لغة ثانية ، غالبًا ما تولد LLMs مخرجات غير طبيعية بلغات غير الإنجليزية ، مما يعكس أنماطًا تتمحور حول اللغة الإنجليزية في كل من المفردات والقواعد.
بمعنى آخر ، حتى عندما تولد النماذج الصينية أو الفرنسية ، لا يزالون “يفكرون” باللغة الإنجليزية. النتيجة؟ لا تزال المخرجات غير الإنجليزية تتبع أنماط القواعد والمفردات التي تشبه اللغة الإنجليزية.
لاختبار هذا ، قدم باحثو Apple ، إلى جانب باحثين من Inria Paris و école Polytechnique وجامعة Sapienza في روما ، مقاييس جديدة:
- الطبيعة المعجمية: هل يستخدم النموذج المفردات مثل المتحدث الأصلي؟
- الطبيعية النحوية: هل هي بنية الجمل بطريقة تتطابق مع القواعد النحوية الأصلية؟
وقارنوا مخرجات النماذج بمقالات ويكيبيديا المكتوبة الأصلية باللغة الصينية والفرنسية والإنجليزية.
أكدت النتائج التحيز. حتى النموذج الصيني الذي تم تطويره Qwen ضعيف الأداء بجميع اللغات ، بما في ذلك الصينية. كان Meta’s Llama 3.1 هو الأكثر طبيعية بشكل عام ، ولكن لا يزال متأخراً عن الإنتاج على مستوى الإنسان.
إصلاح Apple المقترح
لسد الفجوة ، قامت Apple بتدريب نموذج على تفضيل المخرجات الطبيعية على المخرجات المحرجة ، وذلك باستخدام طريقة ذكية جدًا: بدلاً من جمع أمثلة غير طبيعية ، قاموا بإنشائها تلقائيًا باستخدام الانتقال الخلفي.
سيتم ترجمة استجابة صينية مكتوبة بشريعة إنسانية بطلاقة إلى اللغة الإنجليزية ، ثم العودة إلى الصينية ، وتقديم أنماط خفية غير طبيعية تعرف باسم “الترجمة”. كانت هذه المخرجات المعالجة بمثابة أمثلة سلبية ، بينما تم استخدام النسخ الأصلية كاستجابات مفضلة.
من خلال تدريب النموذج على تفضيل الإصدار الطبيعي ، تمكنت Apple من تحسين كل من اختيار المفردات وقواعد اللغة ، دون تحطيم الأداء العام في المعايير القياسية.
FTC: نحن نستخدم روابط التابعة لمكسب الدخل. أكثر.
اكتشاف المزيد من عالم الآيفون
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.