تصویر زیر فایل robots.txt سایت یوتیوب به عنوان نمونه نمایش داده شدهاست. معمولا موتورهای جستجو محتویات فایل robotx.txt را ذخیره میکنند تا به دانلود مجدد آن نیاز نداشته باشند، با این حال روزانه چندبار نسخه جدید فایل را بارگذاری میکنند. پس انعکاس تغییرات اعمال شده در فایل Robots.txt زمان زیادی نخواهد برد و سریعا اعمال میشود. اما Robots.txt چیست؟ چطور این فایل را به صورت بهینه برای سئو ایجاد کنیم؟ و از کجا بدانیم که این فایل هیچ نقصی ندارد؟ در این مقاله می خواهیم همه این موارد را بررسی کنیم.
- البته بهتر است برای اطمینان بیشتر و جلوگیری صددرصد از ایندکس اینگونه صفحات از تگ noindex هم استفاده کنیم که در جلوتر به صورت مفصل به آن خواهیم پرداخت.
- هنگامی که یک برنامه، اتصال به یک وب سرور را آغاز میکند (خواه یک ربات باشد یا یک مرورگر وب استاندارد)، اطلاعات اولیه هویت خود را از طریق یک هدر HTTP به نام “user-agent” ارائه میدهد که منظور همان عامل کاربر است.
- این دستور برای مشخص کردن رباتها و خرندگانی است که امکان دسترسی به بخشهای سایت را داشته باشند یا خیر.
- اما در صورتی که نیاز به تعاریف دستورات متفاوت برای user agent های مختلف دارید، میتوانید با فراغ بال آنها را در فایل robots.txt تعریف کنید.
در این حالت، برای جلوگیری از نمایش صفحاتی که علاقهای به نمایش آنها در نتایج گوگل نداریم از فایل robots.txt کمک میگیریم و آدرس این گونه صفحات را از دسترس خزندههای گوگل خارج میکنیم. به طور خلاصه، فرض کنید که یک قطعه از محتوا را با استفاده از iframe جاسازی کرده ایم. آن قطعه از محتوا اغلب، اگر مربوط به رسانه ای باشد، دستورالعملی برای عدم فهرست بندی خواهد داشت.
فایل Robots.txt چیست و چه کاربردی دارد؟
این رباتها صفحات وب را میخزند و محتوا را فهرستبندی میکنند تا بتواند در نتایج موتورهای جستجو نشان داده شود. پروتکل دیگری که برای فایلهای robots.txt استفاده میشود، پروتکل Sitemaps است. نقشههای سایت به خزنده وب نشان میدهند که در کدام صفحات میتوانند بخزند. این کار کمک می کند تا مطمئن شوید که یک ربات خزنده هیچ صفحه مهمی را از دست نخواهد داد. بهترین روش پیشگیری از مسدود کردن دسترسی به دایرکتوری های بک اند شما و دایرکتوری های غیرضروری دیگر برای سئو شما از طریق robots.txt است. اگردقت داشته باشید در وردپرس از نسخه ۴ به بعد، مشخص شد که در فایل ربات این سیستم مدیریت محتوا دایرکتوری هایی مثل wp include یا plugins دیگر مورد ایندکس شدن قرار نمی گیرند.
درنتیجه اگر شما به صورت تصادفی Googlebot را از خزیدن در سایت خود منع کنید ممکن است برای سئو و رتبه بندی سایت شما خیلی خطرناک باشد. همانطور که قبلاً هم گفته شد Robots.txt در پوشه اصلی سایت قرار میگیرد. این محلی پیشفرض است که رباتها و خزندهها آن را بررسی میکنند تا به دنبال این فایل باشند. درنتیجه اگر این فایل در آنجا نباشد برای رباتها به این معنی است که این سایت فایل Robots.txt ندارد. اگر یک عامل کاربر از /robots.txt بازدید کند و فایل رباتی را در آنجا پیدا نکند، فرض میکند که سایت فایلی ندارد و به خزیدن همه چیز در صفحه (و شاید حتی در کل سایت) ادامه میدهد. هنگامی که صفحه بهروزرسانی شد، میتوانید روی منوی کشویی بالای ویرایشگر متن نیز کلیک کنید تا مُهر زمانی نمایش داده شود که نشاندهنده زمانی است که گوگل برای اولینبار آخرین نسخه فایل robots.txt شما را دیده است.
رباتها به کوچک یا بزرگ بودن دستورات حساس هستند
بنابر نیازماکاربردی وازقیمت مناسبی برخورداربودکه توانستیم تبلیغات خودراگسترده تر،درکوتاهترین زمان وبالاترین راندمان انجام دهیم.. سلام.خواستم تشکرکنم ازسرویس وبرنامه خوبی که دارید.بنده ازربات اینستاگرام استفاده میکنم.میخوام ربات سئو روهم تهیه کنم. خیلی ممنونم من دوتا ربات ازتون خریدم هر دو عالی کار میکنن خیلی به کسب و کارم کمک کردن.. پشتیبانی خیلی خوبی داریدو100% ازتون راضیم،هم بسته تلگراموخریدم هم اینستاگرام وانشالله هر روزامکانات جدیدی بهش اضافه بشه. برای بررسی اعتبار هر یک از مجوزها، می توانید بر روی آنها کلیک کرده و اطلاعات شان را با سایت های رسمی مطابقت دهید.
با اینکار در حقیقت اعلام میکنیم که تمام رباتها مد نظر ما هستند و تمام رباتها باید به دستورات ما توجه کنند و دیگر نیازی نیست اسامی تک تک رباتها را بنویسیم. ربات AdsBot-Google گوگل با دیدن این دستور متوجه میشود که باید از قواعد خاصی پیروی کند و دستورات نوشته شده در فایل ربات مخصوص او هستند. هرکدام از این رباتها با توجه به شناختی که از سایت ما پیدا میکنند با نرخ مشخصی به نام “Crawl Budget” به سایتمان سر میزنند و تغییرات آن را بررسی میکنند. در این مقاله به معرفی ابزاری بسیار کاربردی برای کاهش حجم عکس های وب سایت پرداخته ایم تا بتوانید بدون پایین آوردن کیفیت عکس ها آنها را تا حد ممکن فشرده کنید.
باید دقت داشته باشید که صفحات شما همزمان از این دو تگ و ربات استفاده نکنند تا صفحات به درستی به موتورهای جستجو معرفی شوند. کافی است ربات های خزنده، صفحات غیرضروری مثل ادمین وردپرس، فایل افزونه ها، فولدر تم را ایندکس نکنند. با این کار، موتورهای جستجو وقت بیشتری برای ایندکس صفحات مفید و ضروری شما دارند. به عنوان مثال فرض کنید شما به مناسبت های مختلف، جشنواره ای را در سایت خود برگزار می کنید و برای این جشنواره ها صفحاتی را ایجاد می کنید. ضرورتی ندارد که ربات های خزنده این صفحات را ایندکس کنند؛ چرا که پس از مدتی غیر فعال شده و از طرفی بار محتوایی زیادی نیز ندارند.
برای صفحات محرمانه اما قابل دسترسی از Noindex استفاده کنید.
همان Notepad ساده ویندوز یا هر ویرایشگر متن دیگر که فایل خروجی از نوع TXT میدهد قابل استفاده است. همانطور که میبینید دیجیکالا دستور سایت مپ را در فایل robots.txt خود قرار داده است. کد بالا به این معنی است که “اجرای دستورات فایل، تنها برای ربات گوگل الزامی است. در نهایت، ما با بررسی Crawl Rate و Crawl Demand، مقدار Crawl Budget یک وبسایت را تعریف میکنیم.