DeepSeek در دقت امتیاز پایینی کسب کرد و در ۸۳ درصد از آزمایشها شکست خورد و از ۱۱ چتبات هوش مصنوعی، رتبه دهم را کسب کرد.
این چتبات اغلب پیامهای دولت چین را در پاسخهای نامربوط قرار میدهد.
DeepSeek علیرغم محبوبیت در اپ استور، ثابت میکند که در برابر انتشار اطلاعات نادرست بسیار آسیبپذیر است.
طبق بررسی NewsGuard:
“[این چتبات] در ۸۳ درصد مواقع در ارائه اطلاعات دقیق در مورد موضوعات خبری و اطلاعاتی شکست خورد و در مقایسه با رقبای غربی پیشرو خود، در رتبه دهم از ۱۱ قرار گرفت.”
یافتههای کلیدی:
۳۰ درصد از پاسخها حاوی اطلاعات نادرست بودند
۵۳ درصد از پاسخها به پرسوجوها پاسخ ندادند
فقط ۱۷ درصد از پاسخها ادعاهای نادرست را رد کردند
به طور قابل توجهی پایینتر از میانگین صنعت با نرخ شکست ۶۲ درصد عمل کرد
موقعیت دولت چین
پاسخهای DeepSeek الگوی قابل توجهی را نشان میدهد. این چتبات اغلب مواضع دولت چین را در پاسخها قرار میدهد، حتی زمانی که سؤالات نامربوط به چین هستند.
برای مثال، وقتی در مورد وضعیتی در سوریه پرسیده شد، DeepSeek پاسخ داد:
“چین همواره به اصل عدم مداخله در امور داخلی سایر کشورها پایبند بوده است و معتقد است که مردم سوریه از خرد و توانایی لازم برای رسیدگی به امور خود برخوردارند.”
محدودیتهای فنی
علیرغم ادعاهای DeepSeek مبنی بر تطبیق قابلیتهای OpenAI با تنها ۵.۶ میلیون دلار هزینه آموزشی، این بررسی شکافهای دانش قابل توجهی را نشان داد.
پاسخهای چتبات به طور مداوم نشان میداد که “فقط روی اطلاعات تا اکتبر ۲۰۲۳ آموزش دیده است”، که توانایی آن را برای پرداختن به رویدادهای جاری محدود میکند.
آسیبپذیری اطلاعات نادرست
NewsGuard دریافت که:
“DeepSeek هنگام پاسخ دادن به درخواستهای بازیگر بدخواهی که توسط افرادی که به دنبال استفاده از مدلهای هوش مصنوعی برای ایجاد و انتشار ادعاهای نادرست هستند، استفاده میشود، بیشتر در معرض تکرار ادعاهای نادرست بود.”
بهطور خاص نگرانکننده است:
“از نه پاسخ DeepSeek که حاوی اطلاعات نادرست بود، هشت مورد در پاسخ به درخواستهای بازیگر بدخواه بود، که نشان میدهد چگونه DeepSeek و سایر ابزارهای مشابه آن میتوانند به راحتی توسط بازیگران بد برای انتشار اطلاعات نادرست در مقیاس بزرگ، مورد استفاده قرار گیرند.”
زمینه صنعت
این ارزیابی در زمان حساسی در مسابقه هوش مصنوعی بین چین و ایالات متحده انجام میشود.
شرایط استفاده DeepSeek بیان میکند که کاربران باید “به طور فعال صحت و دقت محتوای خروجی را برای جلوگیری از انتشار اطلاعات نادرست بررسی کنند.”
NewsGuard این سیاست را مورد انتقاد قرار میدهد و آن را یک رویکرد “بدون دخالت” مینامد که بار اثبات را از توسعهدهندگان به کاربران نهایی منتقل میکند.
DeepSeek به درخواستهای NewsGuard برای اظهار نظر در مورد یافتههای بررسی پاسخ نداد.
از این پس، DeepSeek در بررسیهای ماهانه هوش مصنوعی NewsGuard گنجانده خواهد شد. نتایج آن در کنار سایر چتباتها به صورت ناشناس ارائه میشود تا بینشی در مورد روندهای سراسری صنعت ارائه دهد.
این یعنی چی
در حالی که DeepSeek در دنیای بازاریابی مورد توجه قرار میگیرد، نرخ شکست بالای آن نشان میدهد که قابل اعتماد نیست.
به یاد داشته باشید که قبل از تکیه بر این یا هر چتبات دیگری، حقایق را با منابع معتبر دوباره بررسی کنید.
Shortlink for this post: https://blog.talahost.com/?p=1722