محققان گوگل با معرفی یک سیگنال زمینه کافی برای مهار توهمات و بهبود دقت پاسخ، RAG را اصلاح میکنند.
محققان گوگل روشی را برای بهبود جستجوی هوش مصنوعی و دستیارها با تقویت توانایی مدلهای تولید افزوده بازیابی (RAG) برای تشخیص زمانی که اطلاعات بازیابی شده فاقد زمینه کافی برای پاسخگویی به یک پرس و جو است، معرفی کردند. اگر این یافتهها اجرا شوند، میتوانند به پاسخهای تولید شده توسط هوش مصنوعی کمک کنند تا از تکیه بر اطلاعات ناقص اجتناب کنند و قابلیت اطمینان پاسخ را بهبود بخشند. این تغییر همچنین ممکن است ناشران را تشویق کند تا محتوایی با زمینه کافی ایجاد کنند و صفحات خود را برای پاسخهای تولید شده توسط هوش مصنوعی مفیدتر کنند.
تحقیقات آنها نشان میدهد که مدلهایی مانند Gemini و GPT اغلب زمانی که دادههای بازیابی شده حاوی زمینه کافی نیستند، سعی میکنند به سؤالات پاسخ دهند و به جای امتناع، منجر به توهم میشوند. برای رفع این مشکل، آنها سیستمی را برای کاهش توهم با کمک به LLMها برای تعیین زمانی که محتوای بازیابی شده حاوی اطلاعات کافی برای پشتیبانی از یک پاسخ است، توسعه دادند. سیستمهای تولید افزوده بازیابی (RAG) LLMها را با زمینه خارجی تقویت میکنند تا دقت پاسخگویی به سؤالات را بهبود بخشند، اما توهمات همچنان رخ میدهند. به طور واضح مشخص نبود که آیا این توهمات ناشی از سوءتعبیر LLM است یا از زمینه بازیابی شده ناکافی. مقاله تحقیقاتی مفهوم زمینه کافی را معرفی میکند و روشی را برای تعیین زمان در دسترس بودن اطلاعات کافی برای پاسخگویی به یک سؤال شرح میدهد. تجزیه و تحلیل آنها نشان داد که مدلهای اختصاصی مانند Gemini، GPT و Claude زمانی که زمینه کافی به آنها داده میشود، تمایل به ارائه پاسخهای صحیح دارند. با این حال، زمانی که زمینه ناکافی است، گاهی اوقات به جای امتناع، توهم میکنند، اما ۳۵ تا ۶۵ درصد مواقع نیز به درستی پاسخ میدهند. این کشف آخر چالش دیگری را اضافه میکند: دانستن زمان مداخله برای اجبار به امتناع (پاسخ ندادن) و زمان اعتماد به مدل برای درست انجام دادن آن.
تعریف زمینه کافی محققان زمینه کافی را به این معنا تعریف میکنند که اطلاعات بازیابی شده (از RAG) حاوی تمام جزئیات لازم برای استخراج یک پاسخ صحیح باشد. طبقهبندی اینکه چیزی حاوی زمینه کافی است، نیازی به پاسخ تأیید شده ندارد. فقط ارزیابی میکند که آیا میتوان پاسخ را بهطور قابل قبولی از محتوای ارائه شده استخراج کرد یا خیر. این بدان معناست که طبقهبندی صحت را تأیید نمیکند. بلکه ارزیابی میکند که آیا اطلاعات بازیابی شده پایه منطقی برای پاسخگویی به پرس و جو ارائه میدهد یا خیر.
زمینه ناکافی به این معنی است که اطلاعات بازیابی شده ناقص، گمراهکننده یا فاقد جزئیات حیاتی مورد نیاز برای ساختن یک پاسخ است.
ارزیاب خودکار زمینه کافی ارزیاب خودکار زمینه کافی یک سیستم مبتنی بر LLM است که جفتهای پرس و جو-زمینه را به عنوان دارای زمینه کافی یا ناکافی طبقهبندی میکند. بهترین مدل ارزیاب خودکار، Gemini 1.5 Pro (1-shot) بود که به نرخ دقت ۹۳ درصد دست یافت و از سایر مدلها و روشها بهتر عمل کرد.
کاهش توهمات با تولید انتخابی محققان دریافتند که پاسخهای LLM مبتنی بر RAG، ۳۵ تا ۶۲ درصد مواقع زمانی که دادههای بازیابی شده زمینه ناکافی داشتند، توانستند به درستی به سؤالات پاسخ دهند. این بدان معنا بود که زمینه کافی همیشه برای بهبود دقت ضروری نبود، زیرا مدلها ۳۵ تا ۶۲ درصد مواقع توانستند بدون آن پاسخ صحیح را برگردانند. آنها از کشف خود در مورد این رفتار برای ایجاد یک روش تولید انتخابی استفاده کردند که از امتیازات اطمینان (احتمالات خود ارزیابی شده مبنی بر اینکه پاسخ ممکن است صحیح باشد) و سیگنالهای زمینه کافی برای تصمیمگیری در مورد زمان تولید پاسخ و زمان امتناع (برای جلوگیری از اظهارات نادرست و توهم) استفاده میکند. این امر تعادلی را بین اجازه دادن به LLM برای پاسخ دادن به یک سؤال در زمانی که اطمینان قوی از صحت آن وجود دارد، و همچنین اجازه دادن به امتناع در زمانی که زمینه کافی یا ناکافی برای پاسخگویی به یک سؤال وجود دارد، ایجاد میکند.
نکات کلیدی
قبل از اینکه کسی ادعا کند که کفایت زمینه یک عامل رتبهبندی است، توجه به این نکته مهم است که مقاله تحقیقاتی بیان نمیکند که هوش مصنوعی همیشه صفحات خوشساختار را در اولویت قرار میدهد. کفایت زمینه یک عامل است، اما با این روش خاص، امتیازات اطمینان نیز با مداخله در تصمیمات امتناع، بر پاسخهای تولید شده توسط هوش مصنوعی تأثیر میگذارند. آستانههای امتناع به طور پویا بر اساس این سیگنالها تنظیم میشوند، به این معنی که اگر اطمینان و کفایت هر دو پایین باشند، مدل ممکن است تصمیم بگیرد که پاسخ ندهد.
در حالی که صفحاتی با اطلاعات کامل و خوشساختار احتمالاً حاوی زمینه کافی هستند، عوامل دیگری مانند نحوه انتخاب و رتبهبندی اطلاعات مرتبط توسط هوش مصنوعی، سیستمی که تعیین میکند کدام منابع بازیابی شوند و نحوه آموزش LLM نیز نقش دارند. شما نمیتوانید یک عامل را بدون در نظر گرفتن سیستم گستردهتری که تعیین میکند هوش مصنوعی چگونه پاسخها را بازیابی و تولید میکند، جدا کنید. اگر این روشها در یک دستیار یا چتبات هوش مصنوعی اجرا شوند، میتواند منجر به پاسخهای تولید شده توسط هوش مصنوعی شود که بهطور فزایندهای به صفحات وبی که اطلاعات کامل و خوشساختار ارائه میدهند، تکیه میکنند، زیرا احتمالاً حاوی زمینه کافی برای پاسخگویی به یک پرس و جو هستند. نکته کلیدی ارائه اطلاعات کافی در یک منبع واحد است تا پاسخ بدون نیاز به تحقیقات اضافی منطقی باشد.
صفحات با زمینه ناکافی چه هستند؟
- فاقد جزئیات کافی برای پاسخگویی به یک پرس و جو
- گمراهکننده
- ناقص
- متناقض
- اطلاعات ناقص
- محتوا نیاز به دانش قبلی دارد.
اطلاعات لازم برای کامل کردن پاسخ به جای ارائه در یک پاسخ واحد، در بخشهای مختلف پراکنده شده است.
دستورالعملهای ارزیابان کیفیت شخص ثالث گوگل (QRG) مفاهیمی مشابه کفایت زمینه دارد. به عنوان مثال، QRG صفحات با کیفیت پایین را به عنوان صفحاتی تعریف میکند که به دلیل عدم ارائه پیشینه، جزئیات یا اطلاعات مرتبط لازم برای موضوع، به خوبی به هدف خود دست نمییابند.
قسمتهایی از دستورالعملهای ارزیابان کیفیت: “صفحات با کیفیت پایین به دلیل کمبود در یک بعد مهم یا داشتن جنبهای مشکلساز، به خوبی به هدف خود دست نمییابند.” “صفحهای با عنوان “چند سانتیمتر در یک متر وجود دارد؟” با مقدار زیادی محتوای خارج از موضوع و بیفایده، به طوری که مقدار بسیار کمی از اطلاعات مفید به سختی پیدا میشود.” “صفحه آموزش کاردستی با دستورالعملهایی در مورد نحوه ساخت یک کاردستی اولیه و مقدار زیادی “پرکننده” بیفایده در بالا، مانند حقایق رایج در مورد لوازم مورد نیاز یا سایر اطلاعات غیر کاردستی.” “… مقدار زیادی “پرکننده” یا محتوای بیمعنا…”
حتی اگر Gemini گوگل یا نمای کلی هوش مصنوعی اختراعات موجود در این مقاله تحقیقاتی را اجرا نکند، بسیاری از مفاهیم شرح داده شده در آن، در دستورالعملهای ارزیاب کیفیت گوگل، که خود مفاهیمی در مورد صفحات وب با کیفیت بالا را توصیف میکنند که سئوکاران و ناشرانی که میخواهند رتبه کسب کنند، باید درونی کنند، مشابهاتی دارند.
Shortlink for this post: https://blog.talahost.com/?p=2431