جان مولر گوگل به سوالی در ردیت در مورد خطای به ظاهر نادرست “noindex شناسایی شده در هدر HTTP X-Robots-Tag” که در کنسول جستجوی گوگل برای صفحاتی که آن X-Robots-Tag خاص یا هر دستور یا بلوک مرتبط دیگری ندارند، پاسخ داد. مولر دلایل احتمالی را پیشنهاد کرد و چندین ردیتور توضیحات و راه حلهای منطقی ارائه دادند.
Noindex شناسایی شد
شخصی که بحث ردیت را شروع کرد، سناریویی را توصیف کرد که ممکن است برای بسیاری آشنا باشد. کنسول جستجوی گوگل گزارش میدهد که نمیتواند یک صفحه را فهرست کند زیرا از فهرست نکردن صفحه مسدود شده است (که با مسدود شدن از خزیدن متفاوت است). بررسی صفحه نشان میدهد که هیچ عنصر متا noindex وجود ندارد و هیچ robots.txt خزیدن را مسدود نمیکند.
در اینجا آنچه آنها وضعیت خود را توصیف کردند آمده است:
“GSC “noindex شناسایی شده در هدر http X-Robots-Tag” را برای بخش بزرگی از URLهای من نشان میدهد. با این حال: هیچ noindex در منبع HTML پیدا نمیشود هیچ noindex در robots.txt وجود ندارد هنگام آزمایش، هیچ noindex در هدرهای پاسخ قابل مشاهده نیست تست زنده در GSC صفحه را به عنوان قابل فهرست نشان میدهد سایت پشت Cloudflare است (ما قوانین صفحه/WAF و غیره را بررسی کردهایم)”
آنها همچنین گزارش دادند که سعی کردند Googlebot را جعل هویت کنند و آدرسهای IP و هدرهای درخواست مختلف را آزمایش کردند و همچنان هیچ سرنخی برای منبع X-Robots-Tag پیدا نکردند.
Cloudflare مظنون است
یکی از ردیتورها در آن بحث اظهار نظر کرد تا پیشنهاد کند اگر مشکل از Cloudflare ناشی شده است، عیبیابی کنند. آنها دستورالعملهای گام به گام جامعی در مورد نحوه تشخیص اینکه آیا Cloudflare یا هر چیز دیگری مانع از فهرست شدن صفحه توسط گوگل میشود، ارائه کردند:
“ابتدا، تست زنده را با صفحه خزیده شده در GSC مقایسه کنید تا بررسی کنید که آیا گوگل پاسخ قدیمی را میبیند. سپس، قوانین تبدیل، هدرهای پاسخ و کارگران Cloudflare را برای تغییرات بررسی کنید. از curl با عامل کاربر Googlebot و دور زدن کش (Cache-Control: no-cache) برای بررسی پاسخهای سرور استفاده کنید. اگر از وردپرس استفاده میکنید، افزونههای سئو را غیرفعال کنید تا هدرهای پویا را حذف کنید. همچنین، درخواستهای Googlebot را در سرور ثبت کنید و بررسی کنید که آیا X-Robots-Tag ظاهر میشود. اگر همه چیز ناموفق بود، با اشاره DNS مستقیماً به سرور خود، Cloudflare را دور بزنید و دوباره آزمایش کنید.”
OP (پستگذار اصلی، کسی که بحث را شروع کرد) پاسخ داد که همه آن راهحلها را آزمایش کردهاند، اما نتوانستند کش سایت را از طریق GSC آزمایش کنند، فقط سایت زنده (از سرور واقعی، نه Cloudflare).
نحوه آزمایش با یک Googlebot واقعی
جالب اینجاست که OP اظهار داشت که نمیتوانند سایت خود را با استفاده از Googlebot آزمایش کنند، اما در واقع راهی برای انجام این کار وجود دارد. تستکننده نتایج غنی گوگل از عامل کاربر Googlebot استفاده میکند که از یک آدرس IP گوگل نیز منشأ میگیرد. این ابزار برای تأیید آنچه گوگل میبیند مفید است. اگر یک اکسپلویت باعث شود سایت یک صفحه پوشانده شده را نمایش دهد، تستکننده نتایج غنی دقیقاً آنچه را که گوگل فهرست میکند، نشان میدهد.
صفحه پشتیبانی نتایج غنی گوگل تأیید میکند:
“این ابزار به صفحه به عنوان Googlebot دسترسی پیدا میکند (یعنی با استفاده از اعتبارنامه شما، بلکه به عنوان گوگل).”
پاسخ خطای ۴۰۱؟
مورد زیر احتمالاً راهحل نبود، اما کمی دانش فنی جالب سئو است. کاربر دیگری تجربه پاسخ سرور با پاسخ خطای ۴۰۱ را به اشتراک گذاشت. پاسخ ۴۰۱ به معنای “غیرمجاز” است و زمانی اتفاق میافتد که درخواست برای یک منبع فاقد اعتبارنامه احراز هویت است یا اعتبارنامه ارائه شده درست نیست. راهحل آنها برای ایجاد پیامهای مسدود شده فهرستبندی در کنسول جستجوی گوگل، افزودن یک یادداشت در robots.txt برای مسدود کردن خزیدن URLهای صفحه ورود بود.
جان مولر گوگل درباره خطای GSC
جان مولر برای ارائه کمک خود در تشخیص مشکل وارد بحث شد. او گفت که این مشکل را در رابطه با CDNها (شبکههای تحویل محتوا) مشاهده کرده است. نکته جالبی که او گفت این بود که او همچنین این اتفاق را با URLهای بسیار قدیمی دیده است. او در مورد مورد آخر توضیحی نداد، اما به نظر میرسد که نوعی اشکال فهرستبندی مربوط به URLهای فهرستشده قدیمی را نشان میدهد.
این چیزی است که او گفت:
“خوشحال میشوم اگر میخواهید چند نمونه را برای من پینگ کنید، نگاهی بیندازم. من آن را با CDNها دیدهام، با خزشهای واقعاً قدیمی دیدهام (زمانی که مشکل مدتها پیش وجود داشت و یک سایت فقط تعداد زیادی URL باستانی فهرستشده دارد)، شاید چیز جدیدی اینجا باشد…”
نکات کلیدی: شناسایی Noindex فهرست کنسول جستجوی گوگل
- کنسول جستجوی گوگل (GSC) ممکن است “noindex شناسایی شده در هدر HTTP X-Robots-Tag” را گزارش کند حتی زمانی که آن هدر وجود ندارد.
- CDNها، مانند Cloudflare، ممکن است در فهرستبندی تداخل ایجاد کنند. مراحلی برای بررسی اینکه آیا قوانین تبدیل، هدرهای پاسخ یا کش Cloudflare بر نحوه دیدن صفحه توسط Googlebot تأثیر میگذارند، به اشتراک گذاشته شد.
- دادههای فهرستبندی قدیمی در سمت گوگل نیز ممکن است یک عامل باشد.
- تستکننده نتایج غنی گوگل میتواند آنچه را که Googlebot میبیند تأیید کند زیرا از عامل کاربر و IP Googlebot استفاده میکند و مغایرتهایی را نشان میدهد که ممکن است از جعل هویت یک عامل کاربر قابل مشاهده نباشد.
- پاسخهای غیرمجاز ۴۰۱ میتوانند از فهرستبندی جلوگیری کنند. یک کاربر به اشتراک گذاشت که مشکل آنها شامل صفحات ورود بود که باید از طریق robots.txt مسدود شوند.
- جان مولر CDNها و URLهای خزیده شده تاریخی را به عنوان علل احتمالی پیشنهاد کرد.
- talahost.com
Shortlink for this post: https://blog.talahost.com/?p=2181