داده مقایسه‌ای مخفیانه OpenAI برای مدل o3

اپن‌ای‌آی مخفیانه بودجه‌ای را تأمین کرد و به یک مجموعه دادهٔ مقایسه‌ای دسترسی داشت، که این امر پرسش‌هایی را دربارهٔ امتیازات بالای به دست آمده توسط مدل جدید هوش مصنوعی o3 ایجاد کرده است.

افشاگری‌هایی که نشان می‌دهد OpenAI به طور مخفیانه مجموعه داده‌های معیار FrontierMath را تأمین مالی کرده و به آن دسترسی داشته است، نگرانی‌هایی را در مورد اینکه آیا از آن برای آموزش مدل استدلال o3 AI خود و اعتبار نمرات بالای مدل استفاده شده است، ایجاد می‌کند.

علاوه بر دسترسی به مجموعه داده‌های معیار، OpenAI ایجاد آن را تأمین مالی کرد، حقیقتی که از ریاضیدانانی که در توسعه FrontierMath مشارکت داشتند، پنهان شد. Epoch AI با تأخیر تنها در مقاله نهایی منتشر شده در Arxiv.org که این معیار را اعلام کرد، بودجه OpenAI را فاش کرد. نسخه‌های اولیه مقاله هیچ اشاره‌ای به مشارکت OpenAI نداشت.

اسکرین شات مقاله FrontierMath

مدل OpenAI 03 در معیار FrontierMath امتیاز بالایی کسب کرد

خبر مشارکت مخفیانه OpenAI سوالاتی را در مورد نمرات بالای مدل هوش مصنوعی استدلال o3 ایجاد کرده و باعث ناامیدی از پروژه FrontierMath شده است. Epoch AI با شفافیت در مورد آنچه اتفاق افتاده و اقداماتی که برای بررسی آموزش مدل o3 با مجموعه داده FrontierMath انجام می دهند، پاسخ داد.

دسترسی دادن به OpenAI به مجموعه داده ها غیرمنتظره بود زیرا هدف اصلی آن آزمایش مدل های هوش مصنوعی است اما اگر مدل ها از قبل سوالات و پاسخ ها را بدانند، این کار امکان پذیر نیست.

پستی در زیرمجموعه r/singularity در Reddit این ناامیدی را ابراز کرد و به سندی استناد کرد که ادعا می‌کرد ریاضیدانان از مشارکت OpenAI اطلاع نداشتند:

“Frontier Math، معیار ریاضی پیشرفته اخیر، توسط OpenAI تامین مالی می شود. OpenAI ظاهراً به مشکلات و راه حل ها دسترسی دارد. این ناامیدی آور است زیرا این معیار به عنوان وسیله ای برای ارزیابی مدل های مرزی با حمایت ریاضیدانان برجسته به عموم فروخته شد. در واقع، Epoch AI در حال ساخت مجموعه داده ها برای OpenAI است. آنها هرگز هیچ ارتباطی با OpenAI را قبل از آن فاش نکردند.”

بحث Reddit به انتشاراتی اشاره کرد که مشارکت عمیق‌تر OpenAI را آشکار کرد:

“به ریاضیدانانی که مشکلات FrontierMath را ایجاد می‌کنند، در مورد بودجه OpenAI (فعالانه) ارتباط برقرار نشد. … اکنون Epoch AI یا OpenAI علناً نمی گویند که OpenAI به تمرینات یا پاسخ ها یا راه حل ها دسترسی دارد. من از طریق دست دوم شنیده ام که OpenAI به تمرینات و پاسخ ها دسترسی دارد و از آنها برای اعتبار سنجی استفاده می کند.”

تامی بیزیروگلو (پروفایل LinkedIn)، مدیر انجمن در Epoch AI، اذعان کرد که OpenAI به مجموعه داده ها دسترسی داشته است اما همچنین تأکید کرد که یک مجموعه داده “نگهداری” وجود دارد که OpenAI به آن دسترسی ندارد.

او در سند ذکر شده نوشت:

“تامی از Epoch AI اینجا. ما در شفاف نبودن در مورد مشارکت OpenAI اشتباه کردیم. ما تا حدود زمان راه اندازی o3 از افشای مشارکت منع شدیم و با نگاهی به گذشته باید برای توانایی شفافیت با مشارکت کنندگان معیار در اسرع وقت سخت تر مذاکره می کردیم. قرارداد ما به طور خاص ما را از افشای اطلاعات در مورد منبع بودجه و این واقعیت که OpenAI به داده های زیادی اما نه همه مجموعه داده ها دسترسی دارد، منع کرد. ما این خطا را می پذیریم و متعهد به انجام بهتر در آینده هستیم. در مورد استفاده آموزشی: ما اذعان می کنیم که OpenAI به بخش بزرگی از مشکلات و راه حل های FrontierMath دسترسی دارد، به استثنای مجموعه نگهدارنده ای که توسط OpenAI دیده نشده است که به ما امکان می دهد به طور مستقل قابلیت های مدل را تأیید کنیم. با این حال، ما توافق شفاهی داریم که از این مواد در آموزش مدل استفاده نخواهد شد. OpenAI همچنین از تصمیم ما برای حفظ یک مجموعه نگهدارنده جداگانه و دیده نشده کاملاً حمایت کرده است – یک اقدام احتیاطی اضافی برای جلوگیری از بیش برازش و اطمینان از اندازه گیری دقیق پیشرفت. از همان روز اول، FrontierMath به عنوان یک ابزار ارزیابی تصور و ارائه شد و ما معتقدیم که این ترتیبات منعکس کننده آن هدف است.”

افشای حقایق بیشتر درباره OpenAI و FrontierMath

الیوت گلزر (پروفایل LinkedIn/پروفایل Reddit)، ریاضیدان ارشد در Epoch AI تأیید کرد که OpenAI دارای مجموعه داده است و به آنها اجازه داده شده است از آن برای ارزیابی مدل زبان بزرگ o3 OpenAI استفاده کنند، که حالت بعدی آنها از هنر هوش مصنوعی است که به عنوان یک مدل هوش مصنوعی استدلالی شناخته می شود. او نظر خود را مبنی بر اینکه نمرات بالای به دست آمده توسط مدل o3 “قانونی” است و Epoch AI در حال انجام ارزیابی مستقلی برای تعیین اینکه آیا o3 به مجموعه داده FrontierMath برای آموزش دسترسی داشته است یا خیر، ارائه کرد که می تواند نمرات بالای مدل را در یک نور متفاوت قرار دهد.

او نوشت:

“ریاضیدان ارشد Epoch در اینجا. بله، OAI این را تامین مالی کرد و دارای مجموعه داده است که به آنها اجازه داد تا o3 را به طور داخلی ارزیابی کنند. ما هنوز ادعای ۲۵٪ آنها را به طور مستقل تأیید نکرده ایم. برای انجام این کار، ما در حال حاضر در حال توسعه یک مجموعه داده نگهدارنده هستیم و قادر خواهیم بود مدل آنها را بدون اینکه آنها هیچ تجربه قبلی از این مشکلات داشته باشند، آزمایش کنیم. نظر شخصی من این است که امتیاز OAI قانونی است (یعنی آنها روی مجموعه داده آموزش ندیده اند) و آنها هیچ انگیزه ای برای دروغ گفتن در مورد عملکردهای مقایسه داخلی ندارند. با این حال، ما نمی توانیم تا زمانی که ارزیابی مستقل ما کامل شود، آنها را تأیید کنیم.”

گلزر همچنین گفته بود که Epoch AI قصد دارد o3 را با استفاده از یک مجموعه داده “نگهداری” که OpenAI به آن دسترسی نداشت، آزمایش کند و گفت:

“ما قصد داریم o3 را با داشتن صفر تجربه قبلی OAI از مشکلات نگهدارنده ارزیابی کنیم. این ضد آب خواهد بود.”

پست دیگری در Reddit توسط گلزر توضیح داد که چگونه “مجموعه نگهدارنده” ایجاد شده است:

“ما روند را واضح تر توضیح خواهیم داد زمانی که ارزیابی مجموعه نگهدارنده در واقع انجام شود، اما ما مشکلات نگهدارنده را به طور تصادفی از یک مجموعه بزرگتر که به FrontierMath اضافه خواهد شد انتخاب می کنیم. فرآیند تولید در غیر این صورت با نحوه انجام آن یکسان است. همیشه بوده است.”

در انتظار پاسخ ها

اینجاست که درام تا تکمیل ارزیابی Epoch AI باقی می ماند که نشان می دهد آیا OpenAI مدل استدلال هوش مصنوعی خود را با مجموعه داده آموزش داده است یا فقط از آن برای مقایسه استفاده کرده است.

talahost.com

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *