آنچه در این مقاله میخوانید:
چند هفته پیش بود که برای انجام یک کار اداری وارد یکی از سازمانهای بزرگ شدم که ساختمان آن دارای طراحی خاصی بود و مساحت زیادی را به خود اختصاص داده بود. همین پیچ در پیچ بودن ساختمان باعث شده بود تا برای رفتن به هر قسمت نیاز داشته باشم که از یک نفر درباره محلی که قصد رفتن به آن را دارم، سوال کنم چون در غیر این صورت باید مساحت زیادی را بیهوده میرفتم و به مقصد مورد نظرم هم نمیرسیدم. این طراحی خاص ساختمان باعث شد تا کاری که من میتونستم با وجود چندتا راهنما در یکی دو ساعت انجام بدم، نزدیک به چهار پنج ساعت طول بکشد. به نظر من بهتر بود که در قسمتهای مختلف این ساختمان افرادی را به عنوان راهنما قرار دهند تا مراجعه کنندهها بتوانند با کمک آنها به راحتی به قسمتهای مختلف دسترسی داشته باشند.
شاید بپرسید حالا اصلا چرا اینهایی که من نوشتم، چه ربطی به فایل Robots.txt دارد؟ باید بگویم که در واقع فایل Robots.txt نقش همان راهنما را برای رباتهایی که وارد وب سایتها میشوند، بازی میکنند. در ادامه این مقاله به صورت کامل با فایل Robots.txt و نحوه استفاده از آن آشنا خواهید شد.
فایل Robots.txt چیست؟
اگر به زبان ساده بخواهم فایل Robots.txt را تعریف کنم، باید بگویم که این فایل در واقع یک مجوز دهنده به رباتها است. به طور کلی رباتها زمانی که قصد بررسی یک وب سایت را دارند، در ابتدا فایل Robots.txt را میخوانند که با مشخص کردن چند دستور ساده میتوانید مشخص کنید که رباتها میتوانند به کدام یک از صفحات وب سایت دسترسی داشته باشند و کدام یک برای آنها غیر قابل دسترسی است.
اهمیت فایل Robots.txt
استفاده از فایل Robots.txt این امکان را فراهم میآورد تا صاحبان وب سایتها و وبمسترها بتوانند ورود رباتها به وب سایت را محدود و کنترل کنند. به طور مثال بسیاری ار وبمسترها تمایلی به ایندکس شدن پنل مدیریتی خود ندارند که با کمک فایل Robots.txt میتوانند این امکان را فراهم آورند. به طور کلی اگر رباتها میخواهند روزی هزار بار یک صفحه را بررسی کنند، تنها با نوشتن یک دستور ساده در فایل Robots.txt میتوان به راحتی جلوی آنها را گرفت.
به طور کلی دلایل اهمیت فایل Robots.txt عبارتند از:
1. جلوگیری از نمایش فایلها یا صفحات در نتایج جستجوی گوگل
استفاده از فایل Robots.txt این امکان را برای شما فراهم میآورد تا بتوانید دسترسی رباتهای گوگل به صفحات مختلف وب سایت را محدود کنید ولی تضمینی وجود ندارد که این صفحه در نتایج جستجوی گوگل نمایش داده نشود. در حال حاضر یکی از بهترین راه حلها برای حذف صفحهای از نتایج جستجو، افزودن noindex در قسمت head صفحهها است. همچنین اگر وب سایت شما وردپرس باشد، میتوانید از افزونههای مناسبی که برای پیادهسازی چنین کاری طراحی شدهاند، استفاده کنید.
2. مدیریت Crawl Budget
به طور کلی هرچه تعداد صفحات وب سایت شما بیشتر باشد، در نتیجه رباتهای گوگل به زمان بیشتری برای خزیدن و ایندکس کردن صفحات نیاز خواهند داشت که طولانی شدن این زمان روی رتبه وب سایت در نتایج جستجو تاثیر منفی به همراه دارد. ربات خزنده گوگل از ویژگی به نام Crawl Budget برخوردار بوده و به معنایی تعداد صفحاتی است که این ربات در طول یک روز خزیده است. تعداد صفحاتی که توسط خزنده گوگل بررسی میشوند، بر اساس تعداد صفحات، سلامت آنها و تعداد بک لینکها تعیین میشود. نکته قابل توجه آن است که Crawl Budget به دو بخش دسته بندی میشود که اولین قسمت از آن Crawl Rate Limit و دومین بخش Crawl Demand است.
- Crawl Rate Limit
به طور کلی ربات گوگل به گونهای طراحی شده که روی تجربه کاربری بازدیدکنندگان سایت تاثیری نگذارد که به این بهینه سازی Crawl Rate Limit گفته میشود که به منظور فراهم آوردن تجربه کاربری بهتر، تعداد صفحات قابل خزش در یک روز را محدود میکند. به طور کلی Crawl Rate Limit نمایانگر تعداد دفعات ارتباط همزمان ربات گوگل با یک وب سایت در کنار دفعات توقف این ربات در عملیات خزش وب است است. عوامل موثر بر Crawl Rate Limit عبارتند از:
1.سلامت خزش
در صورتی که سرعت وب سایت بالا باشد و توانایی پاسخگویی به سینگالها را داشته باشد، قطعا Crawl Rate Limit بالا میرود ولی اگر سرعت وب سایت پایین باشد و در زمان خزش خطای سرور روی دهد، Crawl Rate Limit کاهش پیدا میکند.
2.ایجاد محدودیت در Google Search Console
وب مسترها میتوانند تعداد خزش وب سایتها را کاهش دهند.
- Crawl Demand (تقاضای خزش)
به طور کلی دو فاکتور نقش مهمی در میزان Crawl Demand خواهند داشت که عبارتند از:
1.محبوبیت
به معنای محبوبیت آدرسهایی در اینترنت است که نسبت به سایر آدرسها بیشتر خزیده میشوند تا در گوگل تازهتر باشند.
2. راکد بودن
گوگل به گونهای آدرسها را ذخیره میکند که از قدیمی شدن آنها جلوگیری میکند.
در نهایت با بررسی Crawl Demand و Crawl Rate Limit مقدار Crawl Budget یک وب سایت را تعریف میکنیم و در واقع Crawl Budget تعداد آدرسهایی است که ربات گوگل میخواهد و میتواند ایندکس کند.
عوامل تاثیرگذار بر عملیات خزش و ایندکس شدن
- وجود صفحات خطا
- صفحات هک شده در وب سایت
- وجود ناوبری ضعیف در سایت
- محتوای تکراری در سایت
- محتوای بی ارزش و اسپم
- استفاده از Session Identifier
3. مدیریت ترافیک رباتها به وب سایت
مدیریت ترافیک رباتها به وب سایت به این دلیل اهمیت دارد که سرور وب سایت شما به منظور بارگذاری صفحات و پردازش آنها برای رباتها مشغول نشوند.
محدودیتهای دستورات فایل Robots.txt
اجرای فایل Robots.txt محدودیتهایی دارد که در ادامه با آنها آشنا خواهید شد.
- ممکن است هر یک از رباتها دستورات را به شکل متفاوتی درک کنند. به طور مثال یک ربات از یکی از دستورات پیروی میکند و دیگری را انجام نمیدهد.
- دستوراتی که در فایل Robots.txt ایجاد میشوند، برای تمامی رباتهای موتورهای جستجو یکسان نیستند. به طور مثال ممکن است رباتهای گوگل از دستور نوشته شده پیروی کنند ولی رباتهای موتورهای جستجوی دیگر مانند یاندکس و بینگ از آنها پیروی نکنند.
- در صورتی که اجازه بررسی صفحهای را با استفاده از دستورات فایل Robots.txt نداده باشید، با هم ممکن است گوگل آن را ایندکس کرده و در صفحه نتایج نمایش دهد.
آشنایی با معانی دستورات فایل Robots.txt
به طور کلی 4 دستور مهم در فایل Robots.txt مورد استفاده قرار میگیرد که عبارتند از:
Allow: بخشهایی که مجاز به درخواست و بررسی هستند.
Sitemap: برای نشان دادن آدرس فایل نقشه سایت به رباتها.
User-agent: به منظور مشخص کردن رباتی که دستورات برای آن نوشته شده است.
Disallow: بخشهایی که ربات اجازه درخواست یا بررسی آن را ندارد.
1.مشخص کردن قسمتهای مجاز برای رباتها با دستور Allow
ربات گوگل به نسبت سایر رباتهای جستجوگر از توانایی بیشتری برای درک دستورات برخوردار است. دستور Allow امکانی را فراهم میآورد تا بتوانید به ربات گوگل بگویید که اجازه مشاهده یک فایل در پوشهای که Disallowed شده را دارد.
2. نقشه سایت Sitemap
وبمسترها از چند راه مختلفی که گوگل برای آنها در نظر گرفته میتوانند به نقشه سایت دسترسی داشته باشند که یکی از این راهها نوشتن آدرس زیر است.
Sitemap: https://example.com/sitemap.xml
هرچند از طریق آدرس بالا میتوان نقشه سایت را به رباتهای گوگل نمایش داد ولی یکی از بهترین راهها موجود استفاده از ابزار سرچ کنسول است.
3. مشخص کردن ربات با User-agent
این دستور برای هدف گیری یک ربات خاص مورد استفاده قرار میگیرد و در فایل Robots.txt به دو صورت مختلف نوشته میشود.
در صورتی که بخواهید به تمامی رباتهای خزنده دستور یکسان دهید، باید پس از عبارت User-agent علامت * قرار دهید که قرار دادن علامت ستاره به معنای همه چیز است.
اما در صورتی که بخواهید تنها به یک ربات خاص مانند ربات گوگل (GoogleBot) دستور خاصی دهید، دستور شما باید به شکل زیر نوشته شود.
User-agent: Googlebot
4. مشخص کردن صفحات و قسمتهای غیرمجاز با Disallow
دستور Disallow به رباتها اعلام میکند که امکان بررسی چه فولدرهایی از وب سایت برای آنها فراهم نیست. این دستور در واقع بیانگر آدرسهایی خواهد بود که میخواهید از رباتهای جستجوگر پنهان بمانند.
فایل Robots.txt کجاست؟
اگر تمایل دارید که نگاهی به فایل Robots.txt وب سایتتان داشته باشد، پیدا کردن آن کار سختی نیست و تنها کافی است، آدرس کامل وب سایتتان به همراه Robots.txt را وارد کنید تا بتوانید فایل Robots.txt وب سایتتان را مشاهده کنید.
فایل Robots.txt در قسمت Root وب سایت قرار میگیرد که برای دسترسی به دایرکتوری Root وب سایتتان میتوانید از اکانت هاستینگ وب سایت وارد شوید و پس از آن به قسمت مدیریت فایل بروید.
نحوه ساخت فایل Robots.txt
برای ساخت Robots.txt نیاز به برنامه خاصی نیست و با همان Notepad ویندوز یا هر ویرایشگر متن دیگری که فایل خروجی آن از نوع TXT باشد، میتوانید Robots.txt را بسازید. اولین قدم برای ساخت Robots.txt ایجاد یک فایل txt است که فرمت آن حتما باید UTF-8 باشد. سپس باید فایل را باز کرده و دستورات لازم را در آن بنویسید. پس از آن باید فایل ساخته شده را در سرور میزبان سایت آپلود کنید. فایل Robots.txt باید در ریشه root قرار داده شوند، یعنی درست در پوشه اصلی سرور سایت. نکته قابل توجه آن است که این فایل نباید داخل دایرکتوری یا پوشه قرار گیرد و مانند آدرس زیر باشد.
https://www.example.com/robots.txt
راهنمای تست فایل Robots.txt با ابزارهای گوگل
برای اینکه از صحت فایل Robots.txt اطمینان پیدا کنید، بهترین راه حل استفاده از ابزار تست کننده در سرچ کنسول گوگل است. در صورتی که وب سایتتان را به ابزار سرچ کنسول گوگل متصل کنید، وقتی این ابزار تست را اجرا کنید از شما میخواد که سایت متصل شده را انتخاب کنید، سپس به صفحهای هدایت میشوید که آخرین Robots.txt که گوگل دریافت و بررسی کرده را نمایش میدهد. شما میتوانید فایل را همین صفحه ویرایش کرده و با فشردن دکمه submit صفحهای باز میشود. در صفحه پیش رو سه دکمه خواهید دید که با دکمه اول Robots.txt حدید را دانلود خواهید کرد. سپس باید این فایل را سرور میزبان و به جای فایل قبلی قرار دهید. پس از آپلود در صورتی که دکمه View uploaded version فشار دهید، نسخه جدید باز میشود. در انتها با زدن دکمه submit از گوگل درخواست کنید تا فایل جدید را دریافت و بررسی کند. در صورتی که این کار با موفقیت انجام شود، ساعت و تاریخ آخرین بررسی فایل ربات به زمانی بعد از درخواست تغییر پیدا میکند.
بدون دیدگاه