Databricks ، شرکتی که به شرکت های بزرگ کمک می کند تا مدل های هوش مصنوعی اختصاصی را بسازند ، یک ترفند یادگیری ماشین را ایجاد کرده است که می تواند بدون نیاز به داده های پاک ، عملکرد مدل هوش مصنوعی را ارتقا بخشد.
جاناتان فرانکلک ، ارشد علوم هوش مصنوعی در پایگاه داده ، سال گذشته را صرف صحبت کردن با مشتریان در مورد چالش های اصلی که آنها در انجام کار با هوش مصنوعی با آن روبرو بودند ، صرف کرد.
Franklke ، داده های کثیف می گوید ، مشکل.
فرانک می گوید: “همه اطلاعاتی دارند و تصوری از آنچه می خواهند انجام دهند ، دارند.” اما عدم وجود داده های تمیز ، تنظیم یک مدل برای عملکرد خاص کار را دشوار می کند. “هیچ کس با داده های صریح خوب و تمیز ظاهر نمی شود که می توانید در یک روتر یا (رابط برنامه نویسی برنامه)” برای یک مدل به آن بپردازید.
مدل پایگاه داده می تواند به شرکت ها اجازه دهد تا در نهایت نمایندگان خود را برای انجام وظایف ، بدون کیفیت داده در جاده منتشر کنند.
این فناوری نگاهی نادر به برخی از ترفندهای اصلی که اکنون مهندسان برای بهبود قابلیت های مدلهای هوش مصنوعی پیشرفته از آن استفاده می کنند ، به ویژه هنگامی که بدست آوردن داده های خوب دشوار است ، ارائه می دهد. این روش از ایده هایی که به تولید مدل های تفکر پیشرفته با ترکیب یادگیری تقویت کننده یا وسیله ای برای مدل های هوش مصنوعی برای بهبود از طریق تمرین ، داده های آموزش “مصنوعی” یا ایجاد از هوش مصنوعی کمک می کند ، سود می برد.
آخرین مدل های OpenAI ، Google و Deepseek به یادگیری تقویت و همچنین داده های آموزش مصنوعی بسیار وابسته هستند. Wired فاش کرده است که Nvidia قصد دارد گرتل ، شرکتی را که متخصص در داده های مصنوعی است ، به دست آورد. فرانکل می گوید: “همه ما این فضا را جابجا می کنیم.”
از روش پایگاه داده به عنوان این واقعیت استفاده می شود که با توجه به تلاش های کافی ، مدل ضعیف را می توان به خوبی در یک مأموریت یا استاندارد خاص ثبت کرد. محققان این روش را برای افزایش عملکرد مدل “بهتر از N” می نامند. Databricks براساس مثال ، مدلی را برای پیش بینی بهترین آزمایش های انسانی آموزش داده است. فرم جایزه داده یا DBRM می تواند برای بهبود عملکرد سایر مدل ها بدون نیاز به داده های بیشتر استفاده شود.
سپس از DBRM برای تعیین بهترین خروجی های یک مدل خاص استفاده می شود. این داده های آموزش مصنوعی را برای اصلاح بیشتر مدل ایجاد می کند تا اولین بار تولید بهتری را تولید کند. Databricks خواستار بهبود تطبیقی برای زمان جدید یا TAO است. فرانکل می گوید: “این روش که ما در مورد برخی از یادگیری پیشرفته وزن نسبتاً سبک صحبت می کنیم ، به طور عمده از مزایای بهترین n در همان شکل استفاده می شود.”
وی می افزاید: تحقیقات توسط پایگاه داده نشان می دهد که روش TAO در حال بهبود است زیرا دامنه آن به مدلهای بزرگتر و توانمندتر گسترش می یابد. یادگیری یادگیری در حال حاضر مورد استفاده قرار می گیرد و از داده های مصنوعی به طور گسترده ای استفاده می شود ، اما ترکیبی از آنها برای بهبود مدل های زبان یک فناوری نسبتاً جدید و از نظر فنی دشوار است.
Databricks به طور غیرمعمول در مورد چگونگی توسعه هوش مصنوعی باز است ، زیرا می خواهد به مشتریان نشان دهد که آنها مهارت های لازم برای ایجاد مدل های اختصاصی قوی برای آنها را دارند. این شرکت قبلاً از نحوه توسعه DBX ، یک مدل بزرگ زبان منبع باز (LLM) از ابتدا پرده برداری کرده بود.