DeepSeek در صدر نمودارهای اپ استور، اما در پایین‌ترین دقت

DeepSeek، چت‌بات هوش مصنوعی چینی که در صدر دانلودهای اپ استور قرار دارد، در ۸۳ درصد از تست‌های دقت شکست خورد و اغلب مواضع دولت را تبلیغ می‌کند.

DeepSeek در دقت امتیاز پایینی کسب کرد و در ۸۳ درصد از آزمایش‌ها شکست خورد و از ۱۱ چت‌بات هوش مصنوعی، رتبه دهم را کسب کرد.
این چت‌بات اغلب پیام‌های دولت چین را در پاسخ‌های نامربوط قرار می‌دهد.
DeepSeek علی‌رغم محبوبیت در اپ استور، ثابت می‌کند که در برابر انتشار اطلاعات نادرست بسیار آسیب‌پذیر است.

DeepSeek، چت‌بات هوش مصنوعی چینی که در صدر دانلودهای اپ استور قرار دارد، در آخرین ارزیابی دقت NewsGuard امتیاز پایینی کسب کرده است.
طبق بررسی NewsGuard:
“[این چت‌بات] در ۸۳ درصد مواقع در ارائه اطلاعات دقیق در مورد موضوعات خبری و اطلاعاتی شکست خورد و در مقایسه با رقبای غربی پیشرو خود، در رتبه دهم از ۱۱ قرار گرفت.”
یافته‌های کلیدی:
۳۰ درصد از پاسخ‌ها حاوی اطلاعات نادرست بودند
۵۳ درصد از پاسخ‌ها به پرس‌وجوها پاسخ ندادند
فقط ۱۷ درصد از پاسخ‌ها ادعاهای نادرست را رد کردند
به طور قابل توجهی پایین‌تر از میانگین صنعت با نرخ شکست ۶۲ درصد عمل کرد
موقعیت دولت چین
پاسخ‌های DeepSeek الگوی قابل توجهی را نشان می‌دهد. این چت‌بات اغلب مواضع دولت چین را در پاسخ‌ها قرار می‌دهد، حتی زمانی که سؤالات نامربوط به چین هستند.
برای مثال، وقتی در مورد وضعیتی در سوریه پرسیده شد، DeepSeek پاسخ داد:
“چین همواره به اصل عدم مداخله در امور داخلی سایر کشورها پایبند بوده است و معتقد است که مردم سوریه از خرد و توانایی لازم برای رسیدگی به امور خود برخوردارند.”
محدودیت‌های فنی
علیرغم ادعاهای DeepSeek مبنی بر تطبیق قابلیت‌های OpenAI با تنها ۵.۶ میلیون دلار هزینه آموزشی، این بررسی شکاف‌های دانش قابل توجهی را نشان داد.
پاسخ‌های چت‌بات به طور مداوم نشان می‌داد که “فقط روی اطلاعات تا اکتبر ۲۰۲۳ آموزش دیده است”، که توانایی آن را برای پرداختن به رویدادهای جاری محدود می‌کند.
آسیب‌پذیری اطلاعات نادرست
NewsGuard دریافت که:
“DeepSeek هنگام پاسخ دادن به درخواست‌های بازیگر بدخواهی که توسط افرادی که به دنبال استفاده از مدل‌های هوش مصنوعی برای ایجاد و انتشار ادعاهای نادرست هستند، استفاده می‌شود، بیشتر در معرض تکرار ادعاهای نادرست بود.”
به‌طور خاص نگران‌کننده است:
“از نه پاسخ DeepSeek که حاوی اطلاعات نادرست بود، هشت مورد در پاسخ به درخواست‌های بازیگر بدخواه بود، که نشان می‌دهد چگونه DeepSeek و سایر ابزارهای مشابه آن می‌توانند به راحتی توسط بازیگران بد برای انتشار اطلاعات نادرست در مقیاس بزرگ، مورد استفاده قرار گیرند.”
زمینه صنعت
این ارزیابی در زمان حساسی در مسابقه هوش مصنوعی بین چین و ایالات متحده انجام می‌شود.
شرایط استفاده DeepSeek بیان می‌کند که کاربران باید “به طور فعال صحت و دقت محتوای خروجی را برای جلوگیری از انتشار اطلاعات نادرست بررسی کنند.”
NewsGuard این سیاست را مورد انتقاد قرار می‌دهد و آن را یک رویکرد “بدون دخالت” می‌نامد که بار اثبات را از توسعه‌دهندگان به کاربران نهایی منتقل می‌کند.
DeepSeek به درخواست‌های NewsGuard برای اظهار نظر در مورد یافته‌های بررسی پاسخ نداد.
از این پس، DeepSeek در بررسی‌های ماهانه هوش مصنوعی NewsGuard گنجانده خواهد شد. نتایج آن در کنار سایر چت‌بات‌ها به صورت ناشناس ارائه می‌شود تا بینشی در مورد روندهای سراسری صنعت ارائه دهد.
این یعنی چی
در حالی که DeepSeek در دنیای بازاریابی مورد توجه قرار می‌گیرد، نرخ شکست بالای آن نشان می‌دهد که قابل اعتماد نیست.
به یاد داشته باشید که قبل از تکیه بر این یا هر چت‌بات دیگری، حقایق را با منابع معتبر دوباره بررسی کنید.

talahost.com

نمایش: 19

Shortlink for this post: https://blog.talahost.com/?p=1722

دیدگاهتان را بنویسید لغو پاسخ