فایل Robots.txt چیست و چه کاربردی دارد؟

فایل Robots.txt

چند هفته پیش بود که برای انجام یک کار اداری وارد یکی از سازمان‌های بزرگ شدم که ساختمان آن دارای طراحی خاصی بود و مساحت زیادی را به خود اختصاص داده بود. همین پیچ در پیچ بودن ساختمان باعث شده بود تا برای رفتن به هر قسمت نیاز داشته باشم که از یک نفر درباره محلی که قصد رفتن به آن را دارم، سوال کنم چون در غیر این صورت باید مساحت زیادی را بیهوده می‌رفتم و به مقصد مورد نظرم هم نمی‌رسیدم. این طراحی خاص ساختمان باعث شد تا کاری که من می‌تونستم با وجود چندتا راهنما در یکی دو ساعت انجام بدم، نزدیک به چهار پنج ساعت طول بکشد. به نظر من بهتر بود که در قسمت‌های مختلف این ساختمان افرادی را به عنوان راهنما قرار دهند تا مراجعه کننده‌ها بتوانند با کمک آن‌ها به راحتی به قسمت‌های مختلف دسترسی داشته باشند.

شاید بپرسید حالا اصلا چرا این‌هایی که من نوشتم، چه ربطی به فایل Robots.txt دارد؟ باید بگویم که در واقع فایل Robots.txt نقش همان راهنما را برای ربات‌هایی که وارد وب سایت‌ها می‌شوند، بازی می‌کنند. در ادامه این مقاله به صورت کامل با فایل Robots.txt و نحوه استفاده از آن آشنا خواهید شد.

فایل Robots.txt چیست؟

اگر به زبان ساده بخواهم فایل Robots.txt را تعریف کنم، باید بگویم که این فایل در واقع یک مجوز دهنده به ربات‌ها است. به طور کلی ربات‌ها زمانی که قصد بررسی یک وب سایت را دارند، در ابتدا فایل Robots.txt را می‌خوانند که با مشخص کردن چند دستور ساده می‌توانید مشخص کنید که ربات‌ها می‌توانند به کدام یک از صفحات وب سایت دسترسی داشته باشند و کدام یک برای آن‌ها غیر قابل دسترسی است.

فایل Robots.txt

اهمیت فایل Robots.txt

استفاده از فایل Robots.txt این امکان را فراهم می‌آورد تا صاحبان وب سایت‌ها و وبمسترها بتوانند ورود ربات‌ها به وب سایت را محدود و کنترل کنند. به طور مثال بسیاری ار وبمستر‌ها تمایلی به ایندکس شدن پنل مدیریتی خود ندارند که با کمک فایل Robots.txt می‌توانند این امکان را فراهم آورند. به طور کلی اگر ربات‌ها می‌خواهند روزی هزار بار یک صفحه را بررسی کنند، تنها با نوشتن یک دستور ساده در فایل Robots.txt می‌توان به راحتی جلوی آن‌ها را گرفت.

به طور کلی دلایل اهمیت فایل Robots.txt عبارتند از:

1. جلوگیری از نمایش فایل‌ها یا صفحات در نتایج جستجوی گوگل

استفاده از فایل Robots.txt این امکان را برای شما فراهم می‌آورد تا بتوانید دسترسی ربات‌های گوگل به صفحات مختلف وب سایت را محدود کنید ولی تضمینی وجود ندارد که این صفحه در نتایج جستجوی گوگل نمایش داده نشود. در حال حاضر یکی از بهترین راه حل‌ها برای حذف صفحه‌ای از نتایج جستجو، افزودن noindex در قسمت head صفحه‌ها است. همچنین اگر وب سایت شما وردپرس باشد، می‌توانید از افزونه‌های مناسبی که برای پیاده‌سازی چنین کاری طراحی شده‌اند، استفاده کنید.

2. مدیریت Crawl Budget

به طور کلی هرچه تعداد صفحات وب سایت شما بیشتر باشد، در نتیجه ربات‌های گوگل به زمان بیشتری برای خزیدن و ایندکس کردن صفحات نیاز خواهند داشت که طولانی شدن این زمان روی رتبه وب سایت در نتایج جستجو تاثیر منفی به همراه دارد. ربات خزنده گوگل از ویژگی به نام Crawl Budget برخوردار بوده و به معنایی تعداد صفحاتی است که این ربات در طول یک روز خزیده است. تعداد صفحاتی که توسط خزنده گوگل بررسی می‌شوند، بر اساس تعداد صفحات، سلامت آن‌ها و تعداد بک لینک‌ها تعیین می‌شود. نکته قابل توجه آن است که Crawl Budget به دو بخش دسته بندی می‌شود که اولین قسمت از آن Crawl Rate Limit و دومین بخش  Crawl Demand است.

  • Crawl Rate Limit

به طور کلی ربات گوگل به گونه‌ای طراحی شده که روی تجربه کاربری بازدیدکنندگان سایت تاثیری نگذارد که به این بهینه سازی Crawl Rate Limit گفته می‌شود که به منظور فراهم آوردن تجربه کاربری بهتر، تعداد صفحات قابل خزش در یک روز را محدود می‌کند. به طور کلی Crawl Rate Limit نمایانگر تعداد دفعات ارتباط همزمان ربات گوگل با یک وب سایت در کنار دفعات توقف این ربات در عملیات خزش وب است است. عوامل موثر بر Crawl Rate Limit عبارتند از:

1.سلامت خزش

در صورتی که سرعت وب سایت بالا باشد و توانایی پاسخگویی به سینگال‌ها را داشته باشد، قطعا Crawl Rate Limit بالا می‌رود ولی اگر سرعت وب سایت پایین باشد و در زمان خزش خطای سرور روی دهد، Crawl Rate Limit کاهش پیدا می‌کند.

2.ایجاد محدودیت در Google Search Console

وب مسترها می‌توانند تعداد خزش وب سایت‌ها را کاهش دهند.

  • Crawl Demand (تقاضای خزش)

به طور کلی دو فاکتور نقش مهمی در میزان Crawl Demand خواهند داشت که عبارتند از:

1.محبوبیت

به معنای محبوبیت آدرس‌هایی در اینترنت است که نسبت به سایر آدرس‌ها بیشتر خزیده می‌شوند تا در گوگل تازه‌تر باشند.

2. راکد بودن

گوگل به گونه‌ای آدرس‌ها را ذخیره می‌کند که از قدیمی شدن آن‌ها جلوگیری می‌کند.

در نهایت با بررسی Crawl Demand و Crawl Rate Limit مقدار Crawl Budget یک وب سایت را تعریف می‌کنیم و در واقع Crawl Budget تعداد آدرس‌هایی است که ربات گوگل می‌خواهد و می‌تواند ایندکس کند.

عوامل تاثیرگذار بر عملیات خزش و ایندکس شدن

  • وجود صفحات خطا
  • صفحات هک شده در وب سایت
  • وجود ناوبری ضعیف در سایت
  • محتوای تکراری در سایت
  • محتوای بی ارزش و اسپم
  • استفاده از Session Identifier

3. مدیریت ترافیک ربات‌ها به وب سایت

مدیریت ترافیک ربات‌ها به وب سایت به این دلیل اهمیت دارد که سرور وب سایت شما به منظور بارگذاری صفحات و پردازش آن‌ها برای ربات‌ها مشغول نشوند.

محدودیت‌های دستورات فایل Robots.txt

اجرای فایل Robots.txt محدودیت‌هایی دارد که در ادامه با آن‌ها آشنا خواهید شد.

  1. ممکن است هر یک از ربات‌ها دستورات را به شکل متفاوتی درک کنند. به طور مثال یک ربات از یکی از دستورات پیروی می‌کند و دیگری را انجام نمی‌دهد.
  2. دستوراتی که در فایل Robots.txt ایجاد می‌شوند، برای تمامی ربات‌های موتورهای جستجو یکسان نیستند. به طور مثال ممکن است ربات‌های گوگل از دستور نوشته شده پیروی کنند ولی ربات‌های موتورهای جستجوی دیگر مانند یاندکس و بینگ از آن‌ها پیروی نکنند.
  3. در صورتی که اجازه بررسی صفحه‌ای را با استفاده از دستورات فایل Robots.txt نداده باشید، با هم ممکن است گوگل آن را ایندکس کرده و در صفحه نتایج نمایش دهد.

آشنایی با معانی دستورات فایل Robots.txt

به طور کلی 4 دستور مهم در فایل Robots.txt مورد استفاده قرار می‌گیرد که عبارتند از:

Allow: بخش‌هایی که مجاز به درخواست و بررسی هستند.

Sitemap: برای نشان دادن آدرس فایل نقشه سایت به ربات‌ها.

User-agent: به منظور مشخص کردن رباتی که دستورات برای آن نوشته شده است.

Disallow: بخش‌هایی که ربات اجازه درخواست یا بررسی آن را ندارد.

1.مشخص کردن قسمت‌های مجاز برای ربات‌ها با دستور Allow

ربات گوگل به نسبت سایر ربات‌های جستجوگر از توانایی بیشتری برای درک دستورات برخوردار است. دستور Allow امکانی را فراهم می‌آورد تا بتوانید به ربات گوگل بگویید که اجازه مشاهده یک فایل در پوشه‌ای که Disallowed شده را دارد.

2. نقشه سایت Sitemap

وبمسترها از چند راه مختلفی که گوگل برای آن‌ها در نظر گرفته می‌توانند به نقشه سایت دسترسی داشته باشند که یکی از این راه‌ها نوشتن آدرس زیر است.

Sitemap: https://example.com/sitemap.xml

هرچند از طریق آدرس بالا می‌توان نقشه سایت را به ربات‌های گوگل نمایش داد ولی یکی از بهترین راه‌ها موجود استفاده از ابزار سرچ کنسول است.

3. مشخص کردن ربات با User-agent

این دستور برای هدف گیری یک ربات خاص مورد استفاده قرار می‌گیرد و در فایل Robots.txt به دو صورت مختلف نوشته می‌شود.

در صورتی که بخواهید به تمامی ربات‌های خزنده دستور یکسان دهید، باید پس از عبارت User-agent علامت * قرار دهید که قرار دادن علامت ستاره به معنای همه چیز است.

اما در صورتی که بخواهید تنها به یک ربات خاص مانند ربات گوگل (GoogleBot) دستور خاصی دهید، دستور شما باید به شکل زیر نوشته شود.

User-agent: Googlebot

4. مشخص کردن صفحات و قسمت‌های غیرمجاز با Disallow

دستور Disallow به ربات‌ها اعلام می‌کند که امکان بررسی چه فولدرهایی از وب سایت برای آن‌ها فراهم نیست. این دستور در واقع بیانگر آدرس‌هایی خواهد بود که می‌خواهید از ربات‌های جستجوگر پنهان بمانند.

فایل Robots.txt کجاست؟

اگر تمایل دارید که نگاهی به فایل Robots.txt وب سایتتان داشته باشد، پیدا کردن آن کار سختی نیست و تنها کافی است، آدرس کامل وب سایتتان به همراه Robots.txt را وارد کنید تا بتوانید فایل Robots.txt وب سایتتان را مشاهده کنید.

فایل Robots.txt چیست

فایل Robots.txt در قسمت Root وب سایت قرار می‌گیرد که برای دسترسی به دایرکتوری Root وب سایت‌تان می‌توانید از اکانت هاستینگ وب سایت وارد شوید و پس از آن به قسمت مدیریت فایل بروید.

نحوه ساخت فایل Robots.txt

برای ساخت Robots.txt نیاز به برنامه خاصی نیست و با همان Notepad ویندوز یا هر ویرایشگر متن دیگری که فایل خروجی آن از نوع TXT باشد، می‌توانید Robots.txt را بسازید. اولین قدم برای ساخت Robots.txt ایجاد یک فایل txt است که فرمت آن حتما باید UTF-8 باشد. سپس باید فایل را باز کرده و دستورات لازم را در آن بنویسید. پس از آن باید فایل ساخته شده را در سرور میزبان سایت آپلود کنید. فایل Robots.txt باید در ریشه root‌ قرار داده شوند، یعنی درست در پوشه اصلی سرور سایت. نکته قابل توجه آن است که این فایل نباید داخل دایرکتوری یا پوشه قرار گیرد و مانند آدرس زیر باشد.

https://www.example.com/robots.txt

راهنمای تست فایل Robots.txt با ابزارهای گوگل

برای اینکه از صحت فایل Robots.txt اطمینان پیدا کنید، بهترین راه حل استفاده از ابزار تست کننده در سرچ کنسول گوگل است. در صورتی که وب سایت‌تان را به ابزار سرچ کنسول گوگل متصل کنید، وقتی این ابزار تست را اجرا کنید از شما می‌خواد که سایت متصل شده را انتخاب کنید، سپس به صفحه‌ای هدایت می‌شوید که آخرین Robots.txt که گوگل دریافت و بررسی کرده را نمایش می‌دهد. شما می‌توانید فایل را همین صفحه ویرایش کرده و با فشردن دکمه submit صفحه‌ای باز می‌شود. در صفحه پیش رو سه دکمه خواهید دید که با دکمه اول Robots.txt حدید را دانلود خواهید کرد. سپس باید این فایل را سرور میزبان و به جای فایل قبلی قرار دهید. پس از آپلود در صورتی که دکمه View uploaded version فشار دهید، نسخه جدید باز می‌شود. در انتها با زدن دکمه submit از گوگل درخواست کنید تا فایل جدید را دریافت و بررسی کند. در صورتی که این کار با موفقیت انجام شود، ساعت و تاریخ آخرین بررسی فایل ربات به زمانی بعد از درخواست تغییر پیدا می‌کند.

بدون دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *