محققان گوگل RAG را با سیگنال “زمینه کافی” بهبود بخشیدند.

محققان گوگل با معرفی یک سیگنال زمینه کافی برای مهار توهمات و بهبود دقت پاسخ، RAG را اصلاح می‌کنند.

محققان گوگل روشی را برای بهبود جستجوی هوش مصنوعی و دستیارها با تقویت توانایی مدل‌های تولید افزوده بازیابی (RAG) برای تشخیص زمانی که اطلاعات بازیابی شده فاقد زمینه کافی برای پاسخگویی به یک پرس و جو است، معرفی کردند. اگر این یافته‌ها اجرا شوند، می‌توانند به پاسخ‌های تولید شده توسط هوش مصنوعی کمک کنند تا از تکیه بر اطلاعات ناقص اجتناب کنند و قابلیت اطمینان پاسخ را بهبود بخشند. این تغییر همچنین ممکن است ناشران را تشویق کند تا محتوایی با زمینه کافی ایجاد کنند و صفحات خود را برای پاسخ‌های تولید شده توسط هوش مصنوعی مفیدتر کنند.

تحقیقات آنها نشان می‌دهد که مدل‌هایی مانند Gemini و GPT اغلب زمانی که داده‌های بازیابی شده حاوی زمینه کافی نیستند، سعی می‌کنند به سؤالات پاسخ دهند و به جای امتناع، منجر به توهم می‌شوند. برای رفع این مشکل، آنها سیستمی را برای کاهش توهم با کمک به LLMها برای تعیین زمانی که محتوای بازیابی شده حاوی اطلاعات کافی برای پشتیبانی از یک پاسخ است، توسعه دادند. سیستم‌های تولید افزوده بازیابی (RAG) LLMها را با زمینه خارجی تقویت می‌کنند تا دقت پاسخگویی به سؤالات را بهبود بخشند، اما توهمات همچنان رخ می‌دهند. به طور واضح مشخص نبود که آیا این توهمات ناشی از سوءتعبیر LLM است یا از زمینه بازیابی شده ناکافی. مقاله تحقیقاتی مفهوم زمینه کافی را معرفی می‌کند و روشی را برای تعیین زمان در دسترس بودن اطلاعات کافی برای پاسخگویی به یک سؤال شرح می‌دهد. تجزیه و تحلیل آنها نشان داد که مدل‌های اختصاصی مانند Gemini، GPT و Claude زمانی که زمینه کافی به آنها داده می‌شود، تمایل به ارائه پاسخ‌های صحیح دارند. با این حال، زمانی که زمینه ناکافی است، گاهی اوقات به جای امتناع، توهم می‌کنند، اما ۳۵ تا ۶۵ درصد مواقع نیز به درستی پاسخ می‌دهند. این کشف آخر چالش دیگری را اضافه می‌کند: دانستن زمان مداخله برای اجبار به امتناع (پاسخ ندادن) و زمان اعتماد به مدل برای درست انجام دادن آن.

تعریف زمینه کافی محققان زمینه کافی را به این معنا تعریف می‌کنند که اطلاعات بازیابی شده (از RAG) حاوی تمام جزئیات لازم برای استخراج یک پاسخ صحیح باشد. طبقه‌بندی اینکه چیزی حاوی زمینه کافی است، نیازی به پاسخ تأیید شده ندارد. فقط ارزیابی می‌کند که آیا می‌توان پاسخ را به‌طور قابل قبولی از محتوای ارائه شده استخراج کرد یا خیر. این بدان معناست که طبقه‌بندی صحت را تأیید نمی‌کند. بلکه ارزیابی می‌کند که آیا اطلاعات بازیابی شده پایه منطقی برای پاسخگویی به پرس و جو ارائه می‌دهد یا خیر.

زمینه ناکافی به این معنی است که اطلاعات بازیابی شده ناقص، گمراه‌کننده یا فاقد جزئیات حیاتی مورد نیاز برای ساختن یک پاسخ است.

ارزیاب خودکار زمینه کافی ارزیاب خودکار زمینه کافی یک سیستم مبتنی بر LLM است که جفت‌های پرس و جو-زمینه را به عنوان دارای زمینه کافی یا ناکافی طبقه‌بندی می‌کند. بهترین مدل ارزیاب خودکار، Gemini 1.5 Pro (1-shot) بود که به نرخ دقت ۹۳ درصد دست یافت و از سایر مدل‌ها و روش‌ها بهتر عمل کرد.

کاهش توهمات با تولید انتخابی محققان دریافتند که پاسخ‌های LLM مبتنی بر RAG، ۳۵ تا ۶۲ درصد مواقع زمانی که داده‌های بازیابی شده زمینه ناکافی داشتند، توانستند به درستی به سؤالات پاسخ دهند. این بدان معنا بود که زمینه کافی همیشه برای بهبود دقت ضروری نبود، زیرا مدل‌ها ۳۵ تا ۶۲ درصد مواقع توانستند بدون آن پاسخ صحیح را برگردانند. آنها از کشف خود در مورد این رفتار برای ایجاد یک روش تولید انتخابی استفاده کردند که از امتیازات اطمینان (احتمالات خود ارزیابی شده مبنی بر اینکه پاسخ ممکن است صحیح باشد) و سیگنال‌های زمینه کافی برای تصمیم‌گیری در مورد زمان تولید پاسخ و زمان امتناع (برای جلوگیری از اظهارات نادرست و توهم) استفاده می‌کند. این امر تعادلی را بین اجازه دادن به LLM برای پاسخ دادن به یک سؤال در زمانی که اطمینان قوی از صحت آن وجود دارد، و همچنین اجازه دادن به امتناع در زمانی که زمینه کافی یا ناکافی برای پاسخگویی به یک سؤال وجود دارد، ایجاد می‌کند.

نکات کلیدی
قبل از اینکه کسی ادعا کند که کفایت زمینه یک عامل رتبه‌بندی است، توجه به این نکته مهم است که مقاله تحقیقاتی بیان نمی‌کند که هوش مصنوعی همیشه صفحات خوش‌ساختار را در اولویت قرار می‌دهد. کفایت زمینه یک عامل است، اما با این روش خاص، امتیازات اطمینان نیز با مداخله در تصمیمات امتناع، بر پاسخ‌های تولید شده توسط هوش مصنوعی تأثیر می‌گذارند. آستانه‌های امتناع به طور پویا بر اساس این سیگنال‌ها تنظیم می‌شوند، به این معنی که اگر اطمینان و کفایت هر دو پایین باشند، مدل ممکن است تصمیم بگیرد که پاسخ ندهد.

در حالی که صفحاتی با اطلاعات کامل و خوش‌ساختار احتمالاً حاوی زمینه کافی هستند، عوامل دیگری مانند نحوه انتخاب و رتبه‌بندی اطلاعات مرتبط توسط هوش مصنوعی، سیستمی که تعیین می‌کند کدام منابع بازیابی شوند و نحوه آموزش LLM نیز نقش دارند. شما نمی‌توانید یک عامل را بدون در نظر گرفتن سیستم گسترده‌تری که تعیین می‌کند هوش مصنوعی چگونه پاسخ‌ها را بازیابی و تولید می‌کند، جدا کنید. اگر این روش‌ها در یک دستیار یا چت‌بات هوش مصنوعی اجرا شوند، می‌تواند منجر به پاسخ‌های تولید شده توسط هوش مصنوعی شود که به‌طور فزاینده‌ای به صفحات وبی که اطلاعات کامل و خوش‌ساختار ارائه می‌دهند، تکیه می‌کنند، زیرا احتمالاً حاوی زمینه کافی برای پاسخگویی به یک پرس و جو هستند. نکته کلیدی ارائه اطلاعات کافی در یک منبع واحد است تا پاسخ بدون نیاز به تحقیقات اضافی منطقی باشد.

صفحات با زمینه ناکافی چه هستند؟

  • فاقد جزئیات کافی برای پاسخگویی به یک پرس و جو
  • گمراه‌کننده
  • ناقص
  • متناقض
  • اطلاعات ناقص
  • محتوا نیاز به دانش قبلی دارد.

اطلاعات لازم برای کامل کردن پاسخ به جای ارائه در یک پاسخ واحد، در بخش‌های مختلف پراکنده شده است.

دستورالعمل‌های ارزیابان کیفیت شخص ثالث گوگل (QRG) مفاهیمی مشابه کفایت زمینه دارد. به عنوان مثال، QRG صفحات با کیفیت پایین را به عنوان صفحاتی تعریف می‌کند که به دلیل عدم ارائه پیشینه، جزئیات یا اطلاعات مرتبط لازم برای موضوع، به خوبی به هدف خود دست نمی‌یابند.

قسمت‌هایی از دستورالعمل‌های ارزیابان کیفیت: “صفحات با کیفیت پایین به دلیل کمبود در یک بعد مهم یا داشتن جنبه‌ای مشکل‌ساز، به خوبی به هدف خود دست نمی‌یابند.” “صفحه‌ای با عنوان “چند سانتی‌متر در یک متر وجود دارد؟” با مقدار زیادی محتوای خارج از موضوع و بی‌فایده، به طوری که مقدار بسیار کمی از اطلاعات مفید به سختی پیدا می‌شود.” “صفحه آموزش کاردستی با دستورالعمل‌هایی در مورد نحوه ساخت یک کاردستی اولیه و مقدار زیادی “پرکننده” بی‌فایده در بالا، مانند حقایق رایج در مورد لوازم مورد نیاز یا سایر اطلاعات غیر کاردستی.” “… مقدار زیادی “پرکننده” یا محتوای بی‌معنا…”

حتی اگر Gemini گوگل یا نمای کلی هوش مصنوعی اختراعات موجود در این مقاله تحقیقاتی را اجرا نکند، بسیاری از مفاهیم شرح داده شده در آن، در دستورالعمل‌های ارزیاب کیفیت گوگل، که خود مفاهیمی در مورد صفحات وب با کیفیت بالا را توصیف می‌کنند که سئوکاران و ناشرانی که می‌خواهند رتبه کسب کنند، باید درونی کنند، مشابهاتی دارند.

talahost.com

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *