گوگل در مورد خطاهای شناسایی شده‌ی noindex در کنسول جستجو

جان مولر به بحثی در ردیت در مورد خطای ‘noindex شناسایی شد’ در کنسول جستجو پاسخ داد و علل و راه حل‌های احتمالی را پیشنهاد کرد.

جان مولر گوگل به سوالی در ردیت در مورد خطای به ظاهر نادرست “noindex شناسایی شده در هدر HTTP X-Robots-Tag” که در کنسول جستجوی گوگل برای صفحاتی که آن X-Robots-Tag خاص یا هر دستور یا بلوک مرتبط دیگری ندارند، پاسخ داد. مولر دلایل احتمالی را پیشنهاد کرد و چندین ردیتور توضیحات و راه حل‌های منطقی ارائه دادند.

Noindex شناسایی شد

شخصی که بحث ردیت را شروع کرد، سناریویی را توصیف کرد که ممکن است برای بسیاری آشنا باشد. کنسول جستجوی گوگل گزارش می‌دهد که نمی‌تواند یک صفحه را فهرست کند زیرا از فهرست نکردن صفحه مسدود شده است (که با مسدود شدن از خزیدن متفاوت است). بررسی صفحه نشان می‌دهد که هیچ عنصر متا noindex وجود ندارد و هیچ robots.txt خزیدن را مسدود نمی‌کند.

در اینجا آنچه آنها وضعیت خود را توصیف کردند آمده است:

“GSC “noindex شناسایی شده در هدر http X-Robots-Tag” را برای بخش بزرگی از URLهای من نشان می‌دهد. با این حال: هیچ noindex در منبع HTML پیدا نمی‌شود هیچ noindex در robots.txt وجود ندارد هنگام آزمایش، هیچ noindex در هدرهای پاسخ قابل مشاهده نیست تست زنده در GSC صفحه را به عنوان قابل فهرست نشان می‌دهد سایت پشت Cloudflare است (ما قوانین صفحه/WAF و غیره را بررسی کرده‌ایم)”

آنها همچنین گزارش دادند که سعی کردند Googlebot را جعل هویت کنند و آدرس‌های IP و هدرهای درخواست مختلف را آزمایش کردند و همچنان هیچ سرنخی برای منبع X-Robots-Tag پیدا نکردند.

Cloudflare مظنون است

یکی از ردیتورها در آن بحث اظهار نظر کرد تا پیشنهاد کند اگر مشکل از Cloudflare ناشی شده است، عیب‌یابی کنند. آنها دستورالعمل‌های گام به گام جامعی در مورد نحوه تشخیص اینکه آیا Cloudflare یا هر چیز دیگری مانع از فهرست شدن صفحه توسط گوگل می‌شود، ارائه کردند:

“ابتدا، تست زنده را با صفحه خزیده شده در GSC مقایسه کنید تا بررسی کنید که آیا گوگل پاسخ قدیمی را می‌بیند. سپس، قوانین تبدیل، هدرهای پاسخ و کارگران Cloudflare را برای تغییرات بررسی کنید. از curl با عامل کاربر Googlebot و دور زدن کش (Cache-Control: no-cache) برای بررسی پاسخ‌های سرور استفاده کنید. اگر از وردپرس استفاده می‌کنید، افزونه‌های سئو را غیرفعال کنید تا هدرهای پویا را حذف کنید. همچنین، درخواست‌های Googlebot را در سرور ثبت کنید و بررسی کنید که آیا X-Robots-Tag ظاهر می‌شود. اگر همه چیز ناموفق بود، با اشاره DNS مستقیماً به سرور خود، Cloudflare را دور بزنید و دوباره آزمایش کنید.”

OP (پست‌گذار اصلی، کسی که بحث را شروع کرد) پاسخ داد که همه آن راه‌حل‌ها را آزمایش کرده‌اند، اما نتوانستند کش سایت را از طریق GSC آزمایش کنند، فقط سایت زنده (از سرور واقعی، نه Cloudflare).

نحوه آزمایش با یک Googlebot واقعی

جالب اینجاست که OP اظهار داشت که نمی‌توانند سایت خود را با استفاده از Googlebot آزمایش کنند، اما در واقع راهی برای انجام این کار وجود دارد. تست‌کننده نتایج غنی گوگل از عامل کاربر Googlebot استفاده می‌کند که از یک آدرس IP گوگل نیز منشأ می‌گیرد. این ابزار برای تأیید آنچه گوگل می‌بیند مفید است. اگر یک اکسپلویت باعث شود سایت یک صفحه پوشانده شده را نمایش دهد، تست‌کننده نتایج غنی دقیقاً آنچه را که گوگل فهرست می‌کند، نشان می‌دهد.

صفحه پشتیبانی نتایج غنی گوگل تأیید می‌کند:

“این ابزار به صفحه به عنوان Googlebot دسترسی پیدا می‌کند (یعنی با استفاده از اعتبارنامه شما، بلکه به عنوان گوگل).”

پاسخ خطای 401؟

مورد زیر احتمالاً راه‌حل نبود، اما کمی دانش فنی جالب سئو است. کاربر دیگری تجربه پاسخ سرور با پاسخ خطای 401 را به اشتراک گذاشت. پاسخ 401 به معنای “غیرمجاز” است و زمانی اتفاق می‌افتد که درخواست برای یک منبع فاقد اعتبارنامه احراز هویت است یا اعتبارنامه ارائه شده درست نیست. راه‌حل آنها برای ایجاد پیام‌های مسدود شده فهرست‌بندی در کنسول جستجوی گوگل، افزودن یک یادداشت در robots.txt برای مسدود کردن خزیدن URLهای صفحه ورود بود.

جان مولر گوگل درباره خطای GSC

جان مولر برای ارائه کمک خود در تشخیص مشکل وارد بحث شد. او گفت که این مشکل را در رابطه با CDNها (شبکه‌های تحویل محتوا) مشاهده کرده است. نکته جالبی که او گفت این بود که او همچنین این اتفاق را با URLهای بسیار قدیمی دیده است. او در مورد مورد آخر توضیحی نداد، اما به نظر می‌رسد که نوعی اشکال فهرست‌بندی مربوط به URLهای فهرست‌شده قدیمی را نشان می‌دهد.

این چیزی است که او گفت:

“خوشحال می‌شوم اگر می‌خواهید چند نمونه را برای من پینگ کنید، نگاهی بیندازم. من آن را با CDNها دیده‌ام، با خزش‌های واقعاً قدیمی دیده‌ام (زمانی که مشکل مدت‌ها پیش وجود داشت و یک سایت فقط تعداد زیادی URL باستانی فهرست‌شده دارد)، شاید چیز جدیدی اینجا باشد…”

نکات کلیدی: شناسایی Noindex فهرست کنسول جستجوی گوگل

کنسول جستجوی گوگل (GSC) ممکن است “noindex شناسایی شده در هدر HTTP X-Robots-Tag” را گزارش کند حتی زمانی که آن هدر وجود ندارد.
CDNها، مانند Cloudflare، ممکن است در فهرست‌بندی تداخل ایجاد کنند. مراحلی برای بررسی اینکه آیا قوانین تبدیل، هدرهای پاسخ یا کش Cloudflare بر نحوه دیدن صفحه توسط Googlebot تأثیر می‌گذارند، به اشتراک گذاشته شد.
داده‌های فهرست‌بندی قدیمی در سمت گوگل نیز ممکن است یک عامل باشد.
تست‌کننده نتایج غنی گوگل می‌تواند آنچه را که Googlebot می‌بیند تأیید کند زیرا از عامل کاربر و IP Googlebot استفاده می‌کند و مغایرت‌هایی را نشان می‌دهد که ممکن است از جعل هویت یک عامل کاربر قابل مشاهده نباشد.
پاسخ‌های غیرمجاز 401 می‌توانند از فهرست‌بندی جلوگیری کنند. یک کاربر به اشتراک گذاشت که مشکل آنها شامل صفحات ورود بود که باید از طریق robots.txt مسدود شوند.
جان مولر CDNها و URLهای خزیده شده تاریخی را به عنوان علل احتمالی پیشنهاد کرد.
talahost.com

نمایش: 15

Shortlink for this post: https://blog.talahost.com/?p=2181

دیدگاهتان را بنویسید لغو پاسخ