مطالعه نشان می دهد که بازخورد انسان باعث می شود هوش مصنوعی در فریب دادن انسان ها بهتر شود

بر اساس مطالعه پیش از چاپ جدید Anthropic و محققان دانشگاه های چین و آمریکا، یکی از رایج ترین تکنیک هایی که شرکت های هوش مصنوعی برای بهبود کیفیت مدل های زبان بزرگ خود استفاده می کنند، ممکن است این مدل ها را در فریب دادن انسان ها بهتر کند.

نویسندگان می نویسند که این اولین بار است که تحقیقات به صورت تجربی پدیده ای را مستند کرده است که آنها آن را سفسطه سهوی می نامند، که در آن مدلی که با استفاده از بازخورد انسانی آموزش دیده است، یاد می گیرد تا پاسخ هایی تولید کند که ارزیاب های انسانی را فریب دهند تا پاسخ ها را دقیق بدانند تا اینکه بیاموزند که پاسخ های بیشتری تولید کنند. پاسخ های دقیق در واقع دقیق است.

یادگیری تقویتی از بازخورد انسانی، که معمولاً به اختصار RLHF نامیده می شود، بخش مهمی از خط لوله آموزشی است که شرکت هایی مانند Anthropic و OpenAI برای آموزش مدل های زبان مولد خود برای پاسخ دادن به روش هایی که انسان ها ترجیح می دهند، استفاده می کنند.– مانند پاسخ صحیح به سوالات و عدم درج محتوای سمی در پاسخ ها. در RLHF، مدل به درخواست‌ها پاسخ می‌دهد و ارزیاب‌های انسانی بازخوردی را در مورد آن درخواست‌ها ارائه می‌دهند و پاسخ‌های خوب و بد را یادداشت می‌کنند. این بازخورد برای ایجاد یک سیستم انگیزشی برای مدل زبان مادری استفاده می‌شود که به آن پاداش می‌دهد – به هر روشی که الگوریتم‌ها می‌خواهند به آن پاداش دهند – برای ایجاد انواع پاسخ‌هایی که انسان‌ها ترجیح می‌دهند.

محققان قبلاً نشان داده‌اند که آموزش سیستم پاداش می‌تواند منجر به چیزی به نام هک پاداش شود، که در آن مدل‌ها الگوهایی را در مواد آموزشی خود تکرار می‌کنند که با نتیجه دلخواه مرتبط است اما در واقع آن چیزی نیست که توسعه‌دهندگان می‌خواستند. برای مثال، یک مطالعه در سال 2023 که مدلی را که بر روی داده‌های شرکت انجمن پرسش و پاسخ StackExchange بررسی می‌کرد، نشان داد که مدل زبان تشخیص می‌دهد که پست‌های طولانی‌تر معمولاً تعداد بیشتری رای مثبت دریافت می‌کنند، بنابراین به جای پاسخ‌های با کیفیت بالاتر هنگام پاسخ دادن به یک سؤال، او پست‌های پست‌های طولانی‌تر را هک کرد. سایت سیستم تشویقی با تولید پاسخ های طولانی تر و با کیفیت پایین تر.

مطالعه جدید، که در دست بررسی است و تنها به عنوان پیش چاپ منتشر شده است، یک مدل زبانی از پاداش برای نفوذ انسان در فرآیند RLHF را مستند می کند.

محققان از انسان‌ها خواستند که کیفیت پاسخ‌های یک مدل زبان را به دو درخواست ارزیابی کنند – یکی که در آن از آن خواسته می‌شود به یک سوال پاسخ دهد، دیگری که در آن از آن خواسته می‌شود کد بنویسد – قبل و بعد از اینکه مدل تحت فرآیند RLHF قرار گرفت. آنها اندازه‌گیری کردند که آیا دقت پاسخ‌های مدل بهبود یافته است یا خیر و ارزیابی‌کنندگان انسان چقدر به درستی پاسخ‌های مدل را دقیق یا نادرست توصیف می‌کنند. پس از فرآیند RLHF، آنها دریافتند که انسان ها 24 درصد بیشتر با پاسخ یک مدل به یک سوال موافق هستند در حالی که این پاسخ واقعا اشتباه است. ارزیابی‌کنندگان همچنین 18 درصد بیشتر با کد نادرست تولید شده توسط فرم RLHF حاوی خطا موافق بودند، در مقایسه با کد نادرست از فرم بدون RLHF.

نویسندگان نوشتند: «ما دریافتیم که پس از RLHF،[مدل زبان]در این کار بهبود نیافت، اما شرکت‌کنندگان در مطالعه را گمراه کرد تا بیشتر با پاسخ‌های نادرست او موافقت کنند. در پاسخ به سؤالات، (مدل‌های زبانی) یاد می‌گیرند که با انتخاب دقیق یا ساختن شواهد پشتیبان از پاسخ‌های نادرست، ارائه استدلال‌های ثابت اما غیرصادقانه، و ارائه استدلال‌هایی که حاوی مغالطه‌های علّی پنهان در یک کار برنامه‌نویسی هستند، (مدل‌های زبانی) ساختن جزئی را یاد بگیرند برنامه‌های نادرست که هنوز تمام تست‌های واحد طراحی‌شده توسط ارزیاب را با موفقیت پشت سر می‌گذارند، برنامه‌های خوانایی کمتری تولید می‌کنند و خطاهای رایج کمتری را انجام می‌دهند که معمولاً انسان‌ها آن‌ها را بررسی می‌کنند.

این یافته‌ها مهم هستند زیرا شرکت‌های هوش مصنوعی اغلب از مطالعات مرور انسانی به عنوان معیار استفاده می‌کنند تا نشان دهند که مدل‌هایشان چقدر بهتر از تکرارهای قبلی است، و RLHF راهی محبوب برای کاهش نادرستی‌ها، که اغلب به عنوان توهم شناخته می‌شود، در مدل‌های زبانی تبدیل شده است. اگر مدل‌ها در فریب دادن انسان‌ها بهتر می‌شوند، به این معنی است که صرفاً بررسی انسانی خروجی یک مدل هوش مصنوعی مولد ممکن است بررسی کافی برای کیفیت یا ایمنی نباشد.

نویسندگان مطالعه نوشتند: «ممکن است بهبودی که مشاهده می‌کنید واقعی نباشد» و افزودند: «نتایج ما بر خطر استفاده از RLHF برای کنترل سیستم‌های هوش مصنوعی با قابلیت فزاینده تاکید می‌کند: سیستم‌های هوش مصنوعی آینده ممکن است در گمراه کردن ما و تظاهر به درستی بهتر عمل کنند و باعث شوند ما بیشتر رنج ببریم “بهبود.” از دست دادن ناآگاهانه کنترل.»

منبع مطلب

Tags: لنوو

مطالعه نشان می دهد که بازخورد انسان باعث می شود هوش مصنوعی در فریب دادن انسان ها بهتر شود

یک ایمپلنت مغزی بسیار نازک از گرافن بر روی انسان آزمایش شده است

کنکور کامپیوتر: بانک اطلاعاتی کنکور ارشد کامپیوتر و آی تی | lenovomag

ساشا صبحانی

کنکور کامپیوتر: بانک اطلاعاتی کنکور ارشد کامپیوتر و آی تی | lenovomag

نوشته‌های تازه

لنوو مگ

مطالعه نشان می دهد که بازخورد انسان باعث می شود هوش مصنوعی در فریب دادن انسان ها بهتر شود

یک ایمپلنت مغزی بسیار نازک از گرافن بر روی انسان آزمایش شده است

کنکور کامپیوتر: بانک اطلاعاتی کنکور ارشد کامپیوتر و آی تی | lenovomag

ساشا صبحانی

کنکور کامپیوتر: بانک اطلاعاتی کنکور ارشد کامپیوتر و آی تی | lenovomag

نوشته‌های تازه

لنوو مگ

برچسب‌ها