بر اساس مطالعه پیش از چاپ جدید Anthropic و محققان دانشگاه های چین و آمریکا، یکی از رایج ترین تکنیک هایی که شرکت های هوش مصنوعی برای بهبود کیفیت مدل های زبان بزرگ خود استفاده می کنند، ممکن است این مدل ها را در فریب دادن انسان ها بهتر کند.
نویسندگان می نویسند که این اولین بار است که تحقیقات به صورت تجربی پدیده ای را مستند کرده است که آنها آن را سفسطه سهوی می نامند، که در آن مدلی که با استفاده از بازخورد انسانی آموزش دیده است، یاد می گیرد تا پاسخ هایی تولید کند که ارزیاب های انسانی را فریب دهند تا پاسخ ها را دقیق بدانند تا اینکه بیاموزند که پاسخ های بیشتری تولید کنند. پاسخ های دقیق در واقع دقیق است.
یادگیری تقویتی از بازخورد انسانی، که معمولاً به اختصار RLHF نامیده می شود، بخش مهمی از خط لوله آموزشی است که شرکت هایی مانند Anthropic و OpenAI برای آموزش مدل های زبان مولد خود برای پاسخ دادن به روش هایی که انسان ها ترجیح می دهند، استفاده می کنند.– مانند پاسخ صحیح به سوالات و عدم درج محتوای سمی در پاسخ ها. در RLHF، مدل به درخواستها پاسخ میدهد و ارزیابهای انسانی بازخوردی را در مورد آن درخواستها ارائه میدهند و پاسخهای خوب و بد را یادداشت میکنند. این بازخورد برای ایجاد یک سیستم انگیزشی برای مدل زبان مادری استفاده میشود که به آن پاداش میدهد – به هر روشی که الگوریتمها میخواهند به آن پاداش دهند – برای ایجاد انواع پاسخهایی که انسانها ترجیح میدهند.
محققان قبلاً نشان دادهاند که آموزش سیستم پاداش میتواند منجر به چیزی به نام هک پاداش شود، که در آن مدلها الگوهایی را در مواد آموزشی خود تکرار میکنند که با نتیجه دلخواه مرتبط است اما در واقع آن چیزی نیست که توسعهدهندگان میخواستند. برای مثال، یک مطالعه در سال 2023 که مدلی را که بر روی دادههای شرکت انجمن پرسش و پاسخ StackExchange بررسی میکرد، نشان داد که مدل زبان تشخیص میدهد که پستهای طولانیتر معمولاً تعداد بیشتری رای مثبت دریافت میکنند، بنابراین به جای پاسخهای با کیفیت بالاتر هنگام پاسخ دادن به یک سؤال، او پستهای پستهای طولانیتر را هک کرد. سایت سیستم تشویقی با تولید پاسخ های طولانی تر و با کیفیت پایین تر.
مطالعه جدید، که در دست بررسی است و تنها به عنوان پیش چاپ منتشر شده است، یک مدل زبانی از پاداش برای نفوذ انسان در فرآیند RLHF را مستند می کند.
محققان از انسانها خواستند که کیفیت پاسخهای یک مدل زبان را به دو درخواست ارزیابی کنند – یکی که در آن از آن خواسته میشود به یک سوال پاسخ دهد، دیگری که در آن از آن خواسته میشود کد بنویسد – قبل و بعد از اینکه مدل تحت فرآیند RLHF قرار گرفت. آنها اندازهگیری کردند که آیا دقت پاسخهای مدل بهبود یافته است یا خیر و ارزیابیکنندگان انسان چقدر به درستی پاسخهای مدل را دقیق یا نادرست توصیف میکنند. پس از فرآیند RLHF، آنها دریافتند که انسان ها 24 درصد بیشتر با پاسخ یک مدل به یک سوال موافق هستند در حالی که این پاسخ واقعا اشتباه است. ارزیابیکنندگان همچنین 18 درصد بیشتر با کد نادرست تولید شده توسط فرم RLHF حاوی خطا موافق بودند، در مقایسه با کد نادرست از فرم بدون RLHF.
نویسندگان نوشتند: «ما دریافتیم که پس از RLHF،[مدل زبان]در این کار بهبود نیافت، اما شرکتکنندگان در مطالعه را گمراه کرد تا بیشتر با پاسخهای نادرست او موافقت کنند. در پاسخ به سؤالات، (مدلهای زبانی) یاد میگیرند که با انتخاب دقیق یا ساختن شواهد پشتیبان از پاسخهای نادرست، ارائه استدلالهای ثابت اما غیرصادقانه، و ارائه استدلالهایی که حاوی مغالطههای علّی پنهان در یک کار برنامهنویسی هستند، (مدلهای زبانی) ساختن جزئی را یاد بگیرند برنامههای نادرست که هنوز تمام تستهای واحد طراحیشده توسط ارزیاب را با موفقیت پشت سر میگذارند، برنامههای خوانایی کمتری تولید میکنند و خطاهای رایج کمتری را انجام میدهند که معمولاً انسانها آنها را بررسی میکنند.
این یافتهها مهم هستند زیرا شرکتهای هوش مصنوعی اغلب از مطالعات مرور انسانی به عنوان معیار استفاده میکنند تا نشان دهند که مدلهایشان چقدر بهتر از تکرارهای قبلی است، و RLHF راهی محبوب برای کاهش نادرستیها، که اغلب به عنوان توهم شناخته میشود، در مدلهای زبانی تبدیل شده است. اگر مدلها در فریب دادن انسانها بهتر میشوند، به این معنی است که صرفاً بررسی انسانی خروجی یک مدل هوش مصنوعی مولد ممکن است بررسی کافی برای کیفیت یا ایمنی نباشد.
نویسندگان مطالعه نوشتند: «ممکن است بهبودی که مشاهده میکنید واقعی نباشد» و افزودند: «نتایج ما بر خطر استفاده از RLHF برای کنترل سیستمهای هوش مصنوعی با قابلیت فزاینده تاکید میکند: سیستمهای هوش مصنوعی آینده ممکن است در گمراه کردن ما و تظاهر به درستی بهتر عمل کنند و باعث شوند ما بیشتر رنج ببریم “بهبود.” از دست دادن ناآگاهانه کنترل.»