لنوو مگ
  • اخبار
  • sitemap
No Result
View All Result
لنوو مگ
  • اخبار
  • sitemap
No Result
View All Result
لنوو مگ
No Result
View All Result
صفحه اصلی اخبار

مطالعه نشان می دهد که بازخورد انسان باعث می شود هوش مصنوعی در فریب دادن انسان ها بهتر شود

ساشا صبحانی توسط ساشا صبحانی
سپتامبر 27, 2024
in اخبار
0
Anthropic Rlhf Study Ai Deception

بر اساس مطالعه پیش از چاپ جدید Anthropic و محققان دانشگاه های چین و آمریکا، یکی از رایج ترین تکنیک هایی که شرکت های هوش مصنوعی برای بهبود کیفیت مدل های زبان بزرگ خود استفاده می کنند، ممکن است این مدل ها را در فریب دادن انسان ها بهتر کند.

نویسندگان می نویسند که این اولین بار است که تحقیقات به صورت تجربی پدیده ای را مستند کرده است که آنها آن را سفسطه سهوی می نامند، که در آن مدلی که با استفاده از بازخورد انسانی آموزش دیده است، یاد می گیرد تا پاسخ هایی تولید کند که ارزیاب های انسانی را فریب دهند تا پاسخ ها را دقیق بدانند تا اینکه بیاموزند که پاسخ های بیشتری تولید کنند. پاسخ های دقیق در واقع دقیق است.

یادگیری تقویتی از بازخورد انسانی، که معمولاً به اختصار RLHF نامیده می شود، بخش مهمی از خط لوله آموزشی است که شرکت هایی مانند Anthropic و OpenAI برای آموزش مدل های زبان مولد خود برای پاسخ دادن به روش هایی که انسان ها ترجیح می دهند، استفاده می کنند.– مانند پاسخ صحیح به سوالات و عدم درج محتوای سمی در پاسخ ها. در RLHF، مدل به درخواست‌ها پاسخ می‌دهد و ارزیاب‌های انسانی بازخوردی را در مورد آن درخواست‌ها ارائه می‌دهند و پاسخ‌های خوب و بد را یادداشت می‌کنند. این بازخورد برای ایجاد یک سیستم انگیزشی برای مدل زبان مادری استفاده می‌شود که به آن پاداش می‌دهد – به هر روشی که الگوریتم‌ها می‌خواهند به آن پاداش دهند – برای ایجاد انواع پاسخ‌هایی که انسان‌ها ترجیح می‌دهند.

محققان قبلاً نشان داده‌اند که آموزش سیستم پاداش می‌تواند منجر به چیزی به نام هک پاداش شود، که در آن مدل‌ها الگوهایی را در مواد آموزشی خود تکرار می‌کنند که با نتیجه دلخواه مرتبط است اما در واقع آن چیزی نیست که توسعه‌دهندگان می‌خواستند. برای مثال، یک مطالعه در سال 2023 که مدلی را که بر روی داده‌های شرکت انجمن پرسش و پاسخ StackExchange بررسی می‌کرد، نشان داد که مدل زبان تشخیص می‌دهد که پست‌های طولانی‌تر معمولاً تعداد بیشتری رای مثبت دریافت می‌کنند، بنابراین به جای پاسخ‌های با کیفیت بالاتر هنگام پاسخ دادن به یک سؤال، او پست‌های پست‌های طولانی‌تر را هک کرد. سایت سیستم تشویقی با تولید پاسخ های طولانی تر و با کیفیت پایین تر.

مطالعه جدید، که در دست بررسی است و تنها به عنوان پیش چاپ منتشر شده است، یک مدل زبانی از پاداش برای نفوذ انسان در فرآیند RLHF را مستند می کند.

محققان از انسان‌ها خواستند که کیفیت پاسخ‌های یک مدل زبان را به دو درخواست ارزیابی کنند – یکی که در آن از آن خواسته می‌شود به یک سوال پاسخ دهد، دیگری که در آن از آن خواسته می‌شود کد بنویسد – قبل و بعد از اینکه مدل تحت فرآیند RLHF قرار گرفت. آنها اندازه‌گیری کردند که آیا دقت پاسخ‌های مدل بهبود یافته است یا خیر و ارزیابی‌کنندگان انسان چقدر به درستی پاسخ‌های مدل را دقیق یا نادرست توصیف می‌کنند. پس از فرآیند RLHF، آنها دریافتند که انسان ها 24 درصد بیشتر با پاسخ یک مدل به یک سوال موافق هستند در حالی که این پاسخ واقعا اشتباه است. ارزیابی‌کنندگان همچنین 18 درصد بیشتر با کد نادرست تولید شده توسط فرم RLHF حاوی خطا موافق بودند، در مقایسه با کد نادرست از فرم بدون RLHF.

نویسندگان نوشتند: «ما دریافتیم که پس از RLHF،[مدل زبان]در این کار بهبود نیافت، اما شرکت‌کنندگان در مطالعه را گمراه کرد تا بیشتر با پاسخ‌های نادرست او موافقت کنند. در پاسخ به سؤالات، (مدل‌های زبانی) یاد می‌گیرند که با انتخاب دقیق یا ساختن شواهد پشتیبان از پاسخ‌های نادرست، ارائه استدلال‌های ثابت اما غیرصادقانه، و ارائه استدلال‌هایی که حاوی مغالطه‌های علّی پنهان در یک کار برنامه‌نویسی هستند، (مدل‌های زبانی) ساختن جزئی را یاد بگیرند برنامه‌های نادرست که هنوز تمام تست‌های واحد طراحی‌شده توسط ارزیاب را با موفقیت پشت سر می‌گذارند، برنامه‌های خوانایی کمتری تولید می‌کنند و خطاهای رایج کمتری را انجام می‌دهند که معمولاً انسان‌ها آن‌ها را بررسی می‌کنند.

این یافته‌ها مهم هستند زیرا شرکت‌های هوش مصنوعی اغلب از مطالعات مرور انسانی به عنوان معیار استفاده می‌کنند تا نشان دهند که مدل‌هایشان چقدر بهتر از تکرارهای قبلی است، و RLHF راهی محبوب برای کاهش نادرستی‌ها، که اغلب به عنوان توهم شناخته می‌شود، در مدل‌های زبانی تبدیل شده است. اگر مدل‌ها در فریب دادن انسان‌ها بهتر می‌شوند، به این معنی است که صرفاً بررسی انسانی خروجی یک مدل هوش مصنوعی مولد ممکن است بررسی کافی برای کیفیت یا ایمنی نباشد.

نویسندگان مطالعه نوشتند: «ممکن است بهبودی که مشاهده می‌کنید واقعی نباشد» و افزودند: «نتایج ما بر خطر استفاده از RLHF برای کنترل سیستم‌های هوش مصنوعی با قابلیت فزاینده تاکید می‌کند: سیستم‌های هوش مصنوعی آینده ممکن است در گمراه کردن ما و تظاهر به درستی بهتر عمل کنند و باعث شوند ما بیشتر رنج ببریم “بهبود.” از دست دادن ناآگاهانه کنترل.»

منبع مطلب

Tags: لنوو
Previous Post

یک ایمپلنت مغزی بسیار نازک از گرافن بر روی انسان آزمایش شده است

Next Post

کنکور کامپیوتر: بانک اطلاعاتی کنکور ارشد کامپیوتر و آی تی | lenovomag

ساشا صبحانی

ساشا صبحانی

Next Post

کنکور کامپیوتر: بانک اطلاعاتی کنکور ارشد کامپیوتر و آی تی | lenovomag

نوشته‌های تازه

  • شرکای Fifae با Lenovo به فینال Fifae با فن آوری بازی Lenovo Lenovo Games Technology
  • چرا وقتی سهام مانند شورون در نگرانی های جهانی نفت کاهش می یابد ، فناوری نگران است؟
  • The 59 Best Deals From REI’s 2025 Labor Day Sale
  • NFL 2025 Livestream: نحوه تماشای انجمن فوتبال آمریکا به صورت رایگان
  • شما در موفقیت آمیزنی بین المللی در اروپا و خاورمیانه تأمین مالی و مراقبت های بهداشتی بخش خرده فروشی را می یابید
  • ترفند ژنتیکی که به انسان کمک کرد تا سوار اسب شوند
  • 20 درصد در هدفون های مورد علاقه اندرویدی ما صرفه جویی کنید
  • “بیگانه: زمین” قسمت 4: چرا کیرش کمی کمکی نمی کند؟
  • Lenovo برای سال چهارم جایگاه برتر در Gartner® Asia/Pacific Supply Stain 10 برتر را حفظ می کند
  • تریلر نهایی “Acock Avenge” یک تماس ارتجاعی به سلاح است
  • بهترین تلویزیون های ارزان (2025): TCL ، Hisenesse و موارد دیگر
  • بلوزکی در می سی سی پی ممنوع شد
  • عملکرد جهانی قوی توسط یک استراتژی واضح و ترکیبی ، سرمایه گذاری در نوآوری و تعالی عملیاتی هدایت می شود
  • سام فیشر در انیمه “سلول اسپلینتر: Deathwatch” از Netflix باز می گردد
  • 21 بهترین فروش روز کار در اوایل تجهیزات بی سیم (2025)
  • در روز بزرگ پیکسل ها ، سامسونگ 300 دلار از Galaxy Z Fold 7 Foldable را ارائه می دهد
  • لنوو تعهد استراتژیک به پادشاهی عربستان سعودی را با تاریخ فرماندهی عالی و ستاد منطقه ای در کشورش تقویت می کند
  • این نقطه روشن ممکن است یک نوع کاملاً جدید از شیء فضایی باشد
  • این پنج انتخاب اصلاح شده شما را (2025) می کند
  • سناتور جاش هالی تحقیقاتی در مورد متا انجام داد تا “حواس” به مکالمات با کودکان اجازه دهد
  • Amit Midha به هیئت مدیره Lenovo می پیوندد
  • در زیر برندگان مسابقه Wild Year Pictures 2025 وجود دارد
  • Rei Co-Op Base Camp 6 Review: All-Fatere ، Tent Family در تمام فصل
  • بهترین معامله کمپینگ: 30 ٪ در Anker Solix Everfrost 2 Cooler در آمازون صرفه جویی کنید
  • لنوو می پیوندد
  • کیت بلانشت نمی داند “بازی ماهی مرکب” منجر به بیشتر خواهد شد (اما او آن را می خواهد)
  • بهترین 4 دستگاه شنوایی برای سالمندان در سال 2025 ، آزمایش و بررسی شده است
  • چلسی در مقابل آث میلان 2025 Livestream: یک ساعت دوستانه قبل از فصل به صورت رایگان
  • Lenovo بزرگترین رویداد جهانی فناوری را به CES 2026 با تجربه ای بیش از حد در لوازم یدکی ، لاس وگاس ارائه می دهد
  • بنابراین Dang سفارشی شده است ، شما هرگز به یک کنترلر دیگر احتیاج نخواهید داشت
  • The 35 Best Movies on HBO Max Right Now (August 2025)
  • “چهارشنبه” فصل 2 ، قسمت 1: چه کسی افلیا است؟
  • Lenovo DAA های هنجاری را برای پایداری برای مدیریت کربن ، کاهش هزینه های فناوری اطلاعات و افزایش بازده سرمایه گذاری راه اندازی می کند
  • کارگردان “ماان” توضیح می دهد که چگونه این شلیک حیات وحش (بدون عفو بین الملل) ساخته شده است
  • 13 بهترین نوار صدا که ما آزمایش کردیم و بررسی کردیم (2025): سونوس ، سونی ، بوز
  • برنامه خانواده Adguard را با قیمت 16 دلار برای زندگی دریافت کنید
  • لنوو و موتورولا همکاری با باشگاه FIFA 2025 را اعلام کردند
  • 10 برابر ارزان تر از سبک جدید ، این باطل Roborock Q7 Max و MP تقریباً در آمازون رایگان است
  • بهترین 6 تلویزیون OLED (2025)
  • تگزاس قانون تأیید سن جدید جدید را وضع می کند. ممنوعیت رسانه های اجتماعی می تواند نوجوان زیر باشد.
  • فناوری ای که نوآوری کسب و کار را پرداخت می کند: Lenovo و Worms Dream
  • امروز 450 دلار صرفه جویی کنید تا میزبان شماره 1 وردپرس باشد
  • 10 بطری آب بهترین Reinamed در سال 2025 ، آزمایش و بررسی شده است
  • امروز وردل: پاسخ و نکات در 25 مه 2025
  • Lenovo عملکرد قوی و قوی را برای کل سال نوآوری ارائه می دهد و تعالی عملیاتی باعث افزایش رقابت می شود
  • چرا باستانی تنبل اندازه فیلها تنبل شد – پس از آن ناپدید شد
  • آتش سوزی در مرکز داده اجاره ای ، الون مارک X رخ داد
  • نکات و عقبه امروز در 22 مه 2025
  • چرا نمی توان منتظر تحول دیجیتال در محیط کار بود – چشم اندازهای لنوو
  • تریلر “جهانی جهانی جهانی” از قتل عام مذهبی بیشتری استقبال می کند

لنوو مگ

لنوو مگ، شما را از اخبار و محصولات روز لنوو آگاه می کند.

برچسب‌ها

لنوو

https://lenovomag.ir/sitemap_index.xml

  • News

© 2022 لنوو مگ مجله خبری محصولات lenovo lenovomag.ir.

No Result
View All Result
  • News

© 2022 لنوو مگ مجله خبری محصولات lenovo lenovomag.ir.