خیلیها فکر میکنند که از طریق فایلهای ربات از اطلاعات محرمانهی خود مراقبت میکنند در حالی که کاملا برعکس است و برخی رباتها میتوانند از این اطلاعات شما سوءاستفاده کنند. این مسئله در اوایل کار وب سایتتان و زمانی که محتوای کمی دارید، چندان مهم نیست و به چشم نمی آید. اما زمانی که کارتان پیشرفت می کند و محتوای سایت زیادتری می شود؛ زمانی می رسد که ترجیح می دهید کنترل بیشتری روی نحوه crawl و ایندکس سایتتان داشته باشید. وب سایت های بزرگ و پر بازدید، روزانه هزاران بار توسط ربات های مختلف مورد بررسی قرار می گیرند.
این پروتکلی است که به رباتها میگوید از بررسی کدام صفحات وب و منابع آن اجتناب کنند. دستورالعملهای فرمت شده برای این پروتکل در فایل robots.txt گنجانده میشود. فایل robots.txt به مدیریت فعالیتهای این خزندههای وب کمک میکند تا بر سرور وب میزبان وبسایت، یا فهرستبندی صفحاتی که برای نمایش عمومی نیستند، هزینه بار اضافه نکنند. اصلا آنها زبان آدمیزان حالیشان نیست، پس خودتان را خسته نکنید. بله درست حدس می زنید، فایل ربات سایت برای ربات موتورهای جستجو ساخته می شود، موتورهای جستجو ابزاری دارند که به آن ربات یا بات bot می گویند. این ربات ها وظیف دارند سایت ها را بررسی کرده و تغییرات جدید را در دیتابیس خود ذخیره کنند.
- سوالی که شاید برای شما هم پیش بیاید این است که این فایل در کجا قرار دارد.
- همه سایت های صفحه اول گوگل در هر زمینه ای، دارای فایل ربات هستند.
- در صورتی که این فایل در هاست سایتتان آپلود نشده باشد، خزندگان و ربات های موتورهای جستجو می توانند به تمام صفحات سایت شما دسترسی پیدا کرده و آنها را مورد بررسی قرار دهند.
وقتی این درخواستها از حد توان سرور سایت ما خارج شوند اتفاق از دسترس خارج شدن سایت رخ میدهد. حالا که تا حدودی متوجه شدیم که کلیت این فایل چیست، بد نیست که نگاهی به نقشهای فایل robots.txt و دلایل اهمیت آن بپردازیم و دقیقا مشخص کنیم که چرا سایتمان باید حاوی فایل robots.txt باشد. بدیهیست که رفت و آمد این حجم از رباتها میتواند تا حد قابل توجهی بازدهی کلی سایت را با شرایط نامناسبی همراه کند.
اگر تعداد صفحاتی که شما می خواهید با تعداد صفحات فهرست بندی شده برابر بودند. مثلا یک صفحه در دست ساخت دارید و یا اینکه یک صفحه برای ورود به بخش مدیریت سایت دارید. و صفحاتی را که تشخیص دهد که مهم نیستند، یا کپی از صفحات دیگر هستند را فهرست بندی نمی کند. فقط اینکه سرچ کنسول تغییر کرده و دیگه چنین مسیری برای دسترسی به تستر ربوت وجود نداره. اگر هنوز هم این قابلیت در سرچ کنسول هست لطفا مسیر جدید رو معرفی کنید. اشتباهات سئو بسیار رایج هستند، بهویژه اگر شما در این زمینه تازهکار باشید و یا کسبوکار خود را تازه راهانداخته باشید، ممکن است در دام این اشتباهات بیفتید.
نمونه یک فایل Robots.txt:
در مورد کلمات کلیدی کم رقابت، استفاده از ربات افزایش ورودی گوگل قطعاً سبب بالا آمدن سایت شما (ورود به صفحه اول و حتی آمدن به رتبه نخست) میشود اما در کلمات کلیدی پُر رقابت، قضیه آنقدرها آسان نیست. زیرا کسب رتبه در کلمات کلیدی پُر رقابت تنها به ورودی گرفتن از گوگل وابسته نیست و به عواملی نظیر اعتبار دامنه، اعتبار صفحه، بک لینکها و عوامل متعدد دیگر بستگی دارد. با این حال اگر سایت شما در یک کلمه کلیدی پر رقابت در صفحه سوم یا چهارم گوگل باشد استفاده از ربات شاید بتواند آنرا به صفحه دوم یا اول بیاورد اما نمیتواند آنرا به رتبه های نخست صفحۀ اول برساند. در مرحله ی اول به هیچ عنوان نباید نشون بدین که یه شخص ثابت همش یه کلمه کلیدی ثابت رو سرچ میزنه.
به عنوان مثال در بسیاری از سایتها بخشی تحت عنوان پروفایل کاربران وجود دارد که نمایش این پروفایلهای کاربری در نتایج گوگل هیچ ترافیکی برای سایت مورد نظر ایجاد نمیکنند. اما به صورت کلی میتوانیم امیدوار باشیم که تمام قوانینی که داخل فایل ربات سایتمان مشخص میکنیم توسط مهمترین خزندههای وب یعنی خزندههای گوگل رعایت میشوند. فایل robots.txt هم دقیقا مانند آیین نامه راهنمایی رانندگی برای رباتها و خزندههای دنیای اینترنت عمل میکند. به کمک این فایل ما میتوانیم محدودیتهایی را در خزش رباتها تعیین کنیم و انتظار داشته باشیم که آنها هم به این محدودیتها پایبند باشند.
اطلاعات و نکاتی که باید در خصوص فایل Robots.txt بدانید:
در ادامه توجه شما را به نکاتی جلب می کنیم که رعایت آن ها در ساخت فایل robots.txt موجب سئو هر چه بهتر وب سایت شما خواهد شد. آیا از وجود فایل robots.txt در وب سایت خود مطمئن نیستید؟ تنها کافیست که عبارت robots.txt را به انتهای نام دامنه خود اضافه کرد و یو آر ال نهایی را در مرورگر خود وارد کنید. اگر هیچ صفحه متنی ظاهر نشد، پس چنین فایلی در سایت شما وجود ندارد. با استفاده از فایل robots.txt می توان به مدیریت دسترسی پایشگر ها در وب سایت پرداخت. با اینکه این امکان می تواند در صورت اشتباه شما کمی خطر ناک نیز باشد، اما از طرفی بسیار کارامد نیز است.
اگر مایل هستید که تنها تعداد محدودی از صفحات سایت شما در موتورهای جستجو ایندکس نشوند، پیشنهاد میکنیم به جای تغییر در فایل robots.txt از تگ noindex در هدر صفحه موردنظر استفاده کنید. لینک های حاضر در صفحات بلاک شده توسط فایل robots.txt دنبال نخواهند شد. این مسئله بدین معناست که در صورت عدم وجود آن لینک در هیچ کجای وی یا یک صفحه بلاک نشده دیگر از وب سایت شما، توسط موتورهای جستجو دیده نشده و در نتیجه ایندکس نخواهد شد. ثانیا اعتباری از صفحه بلاک شده به لینک های آن منتقل نمی گردد. در صورتی که دارای صفحاتی هستید که در کنار ایندکس نشدن نیاز است که اعتبار آنها به لینک ها انتقال یابد، بایستی دنبال مکانیسم دیگری باشید. اگر فایل robots.txt در وب سایت شما وجود ندارد، نگران نباشید.