جستجو کردن
بستن این جعبه جستجو.
راهنمای استفاده از فایل robot.txt

فایل robots.txt چیست؟ راهنمای کار با robots.txt

آنچه در این مقاله خواهید خواند

یک فایل robots.txt شامل دستورالعمل هایی برای تمامی موتورهای جستجو می باشد. شما می توانید از این فایل برای جلوگیری از عملیات خزیدن موتور های جستجو در برخی از لینک ها و صفحات خاص وب سایت خود استفاده کنید.

با استفاده از فایل robots.txt می توان نکات مفیدی در خصوص چگونگی عملیات خزیدن در وب سایت خود به موتورهای جستجو ارائه دهید. به همین علت است که فایل robots.txt دارای نقش بسیار مهمی در سئو سایت می باشد.

برای پیاده سازی فایل robots.txt بهتر است که نکات مهم زیر را مد نظر داشته باشید:

  • زمانی که قصد ایجاد تغییرات در robots.txt سایت خود را دارید کاملا مراقب باشید چرا که فایل robots.txt قابلیت این را دارد که قسمت های بزرگی از سایت شما را از دسترس موتورهای جستجو خارج کند.
  • فایل robots.txt باید در بخش root سایت شما قرار بگیرد.
  • فایل robots.txt تنها برای دامنه کاملی که در آن قرار دارد معتبر است که این دامنه می تواند http یا https باشد.
  • موتورهای جستجو مختلف دستورالعمل های موجود در این فایل را به شکل های مختلفی تفسیر می کنند.
  • تا جای امکان سعی کنید از استفاده از دستورالعمل crawl-delay در این فایل برای موتورهای جستجو خودداری کنید.

فایل robots.txt چیست؟

فایل robots.txt یک فایل بسیار مهم در هر وب سایت است که به موتورهای جستجو نشان می دهد که قوانین تعامل در وب سایت شما شامل چه مواردی است؟

بخش عمده ای از سئو وب سایت مربوط به ارسال سیگنال های مناسب به موتورهای جستجو است و این فایل یکی از بهترین راه های ارتباطی با موتورهای جستجو برای وب سایت شما می باشد. در سال 2019 ما شاهد تغییرات بسیار زیادی در استانداردهای این فایل بودیم.

گوگل پیشنهادات مختلفی را در خصوص ربات های خزنده در موتورهای جستجو ارائه داد که برخی از آنها مورد تایید قرار گرفته و پیاده سازی شدند. فایل robots.txt گوگل به صورت شگفت آوری انعطاف پذیر است و همین مسئله کار را برای خزیدن در وب سایت شما راحت تر می کند.

در صورتی که شما در این فایل ها از دستورالعمل های سردرگم کننده ای استفاده کنید گوگل به صورت کاملا امن بخش های مد نظر خود را محدود می کند. موتورهای جستجو به صورت مرتب این فایل را در وب سایت های مختلف مورد بررسی قرار می دهند تا در صورتی که دستورالعمل جدیدی برای خزیدن در وب سایت وجود داشت آن را به دستورالعمل های از پیش تعیین شده اضافه کرده و یا موارد اضافی را حذف کنند.

در صورتی که برای یک وب سایت هیچ robots.txt وجود نداشته باشد یا دستورالعمل های قابل اجرا در این فایل وجود نداشته باشند موتورهای جستجو معمولا کل وب سایت شما را جستجو می کنند. اگرچه تمامی موتورهای جستجو اصلی توجه ویژه ای به این فایل دارند ولی با این حال موتورهای جستجو می توانند برخی از دستورالعمل های شما در این فایل را نادیده بگیرند.

با وجود این که دستورالعمل ها یک سیگنال قوی برای برای موتورهای جستجو می باشند باید این نکته را به خاطر داشته باشید که این دستورالعمل ها به صورت اختیاری در اختیار موتورهای جستجو قرار می گیرند و با توجه به الگوریتم های جستجو در این موتورهای جستجو آنها می توانند هر یک از این دستورالعمل ها را نادیده بگیرند.

اصطلاحات مربوط به فایل robots.txt

فایل robots.txt برای پیاده سازی بخش های ممنوع سایت برای موتورهای جستجو مورد استفاده قرار می گیرد و یک استاندارد برای انجام این کار به شمار می آید. به همین علت نیز به این فایل پروتکل robots exclusion نیز گفته می شود.

چرا باید توجه ویژه ای به robots.txt داشته باشیم؟

فایل robots.txt اهمیت بسیار زیادی در سئو سایت دارد. این فایل به موتورهای جستجو می گوید که چگونه می توانند به بهترین شکل ممکن وب سایت شما را جستجو کنند. با استفاده از این فایل شما می توانید از دسترسی موتورهای جستجو به بخش های خاصی از سایت خود جلوگیری کنید.

به عنوان مثال شما می توانید از ایندکس شدن محتوای تکراری سایت خود جلوگیری کنید. در زمان استفاده از فایل robots.txt باید توجه داشته باشید که این امکان وجود دارد تا شما دسترسی موتورهای جستجو به بخش عظیمی از سایت خود را مسدود کنید. بنابراین در زمان استفاده از این فایل حتما مراقب باشید.

مثالی از فایل robots.txt

برای بهتر جا افتادن مفهوم و کاربرد فایل robots.txt اجازه دهید تا نگاهی به یک مثال بیندازیم. فرض کنید که شما در حال پیاده سازی یک وب سایت در حوزه تجارت الکترونیک هستید و بازدیدکنندگان از سایت شما می توانند برای جستجوی سریع تر در میان محصولات شما از یک فیلتر استفاده کنند.

در واقع این فیلتر همان محتوایی را تولید می کند که در صفحات دیگر وجود داشت. این کار با وجود این که برای کاربران یک قابلیت فوق العاده است ولی در اکثر مواقع می تواند برای موتورهای جستجو گیج کننده باشد چرا که باعث به وجود آمدن محتوای تکراری می شود. شما نمی خواهید که موتورهای جستجو این صفحات تکراری مربوط به فیلتر را ایندکس کنند و وقت خود را با این لینک های تکراری تلف کنند.

به همین علت نیز باید قوانینی را تنظیم کنید تا موتورهای جستجو به صفحات تولید شده توسط این فیلتر دسترسی نداشته باشند. شاید برای شما جالب باشد که بدانید جلوگیری از ایندکس شدن محتوای تکراری در سایت نیز با استفاده از همین فایل انجام می شود. استفاده از یک لینک canonical یا تگ meta robots نمی تواند از خزیدن موتورهای جستجو در این صفحات جلوگیری کند.

این کارها تنها می تواند از نمایش داده شدن این صفحات توسط موتورهای جستجو در لیست جستجوی آنها جلوگیری کند. از آنجایی که هر یک از موتورهای جستجو مدت زمان محدودی برای خزیدن در یک وب سایت را دارند، شما باید سعی کنید که این زمان را صرف صفحاتی کنید که نیاز دارید تا در لیست موتورهای جستجو نمایش داده شوند.

فایل robots.txt شبیه به چه چیزی است؟

یک مثال ساده از این فایل برای یک سایت وردپرسی به این شکل است:

User-agent: *

Disallow: /wp-admin/

اجازه دهید تا ساختار فایل robots.txt را به طور کامل برای شما شرح دهیم:

  • User-agent: این بخش نشان می دهد که دستورالعمل های موجود در این فایل برای کدام موتورهای جستجو در نظر گرفته شده اند. استفاده از * در این بخش نشان می دهد که این دستورالعمل ها برای تمامی موتورهای جستجو طراحی شده اند.
  • Disallow: این دستورالعمل نشان می دهد که کدام یک از محتواها نباید برای موتورهای جستجو نمایش داده شوند.
  • /wp-admin/: این شامل مسیری است که برای موتورهای جستجو موجود در User-agent غیرقابل دسترس است.

به طور خلاصه این فایل نشان می دهد که موتورهای جستجو از کدام بخش ها باید دوری کنند. اجزای مختلف این سایت شامل مواردی از قبیل موارد زیر است که در ادامه این مطلب از وب آنجلآکادمی بیشتر درباره هر یک از آنها صحبت خواهم کرد:

  • User-agent
  • Disallow
  • Allow
  • Sitemap
  • Crawl-delay

User-agent در فایل robots.txt

هر موتور جستجو باید خود را با استفاده از یک user-agent شناسایی کند. به عنوان مثال ربات های موتور جستجوی گوگل از Googlebot برای انجام این کار استفاده می کنند، ربات های یاهو از Slurp و ربات های موتور جستجوی بینگ نیز از BingBot استفاده می کنند.

user-agent شروع یک گروه از دستورالعمل ها را تعریف می کند. تمامی دستورالعمل هایی که بین user-agent اول و user-agent بعدی قرار می گیرند به عنوان دستورالعمل هایی برای user-agent اول شناخته می شوند. دستورالعمل ها می توانند برای user-agent های خاصی مورد استفاده قرار می گیرند اما با این حال می توان از آنها برای تمامی user-agent ها نیز استفاده کرد. در چنین شرایطی شما باید در مقابل فیلد user-agent علامت * را قرار دهید.

دستورالعمل Disallow در این فایل

شما می توانید به موتورهای جستجو بگویید که به فایل ها، صفحات یا لینک های خاصی از وب سایت شما دسترسی نداشته باشند. برای انجام این کار باید از بخش Disallow در فایل robots.txt استفاده کنید. دستورالعمل Disallow در واقع مسیری را تعیین می کند که نباید به آن دسترسی داشت. در صورتی که هیچ مسیری در این بخش تعریف نشده باشد این دستورالعمل به طور کامل نادیده گرفته می شود.

مثال زیر را در نظر بگیرید:

User-agent: *

Disallow: /wp-admin/

در این مثال به تمامی موتورهای جستجو گفته شده است که به مسیر /wp-admin/ دسترسی نداشته باشند.

دستورالعمل Allow در این فایل

دستورالعمل Allow در داخل فایل robots.txt دقیقا در مقابل دستورالعمل Disallow قرار می گیرد. این دستورالعمل در حال حاضر تنها توسط موتورهای جستجو گوگل و بینگ پشتیبانی می شود.

با استفاده از این دو دستورالعمل شما می توانید به موتورهای جستجو بگویید که می توانند به یک صفحه یا فایل خاص در پوشه های مختلف سایت شما دسترسی پیدا کرده و در غیر این صورت مجاز به دسترسی به این فایل ها نیستند. این دستورالعمل در واقع مسیر دسترسی را برای موتورهای جستجو تعریف می کند و در صورتی که هیچ مسیری مشخص نشده باشد به طور کامل توسط گوگل و بینگ نادیده گرفته می شود.

مثال زیر را در نظر بگیرید:

User-agent: *

Allow: /media/terms-and-conditions.pdf

Disallow: /media/

در مثال بالا هیچ یک از موتورهای جستجو اجازه دسترسی به پوشه /media/ را ندارند به جز فایلی که در مسیر /media/terms-and-conditions.pdf قرار گرفته است. در زمان استفاده همزمان از این دو دستورالعمل حتما دقت کنید که از wildcard ها استفاده نکنید چرا که استفاده از آنها باعث ایجاد مغایرت در دستورالعمل ها خواهد شد که در بخش بعدی به بررسی آن می پردازم.

مثالی از مغایرت دستورالعمل ها

مثال زیر را در نظر بگیرید:

User-agent: *

Allow: /directory

Disallow: *.html

در این مثال موتورهای جستجو نمی دانند که باید با لینکی مانند http://www.domain.com/directory.html چه کنند. در واقع برای موتورهای جستجو مشخص نیست که آیا به صفحه مربوط به این لینک دسترسی دارند یا خیر؟

زمانی که مانند این مثال دستورالعمل سایت به صورت دقیق مشخص نیست آنها سعی می کنند که کمترین محدودیت را برای دسترسی به صفحات مختلف اعمال کنند. در واقع در این مثال موتورهای جستجو به لینک گفته شده دسترسی پیدا می کنند.

یک خط جداگانه برای هر دستورالعمل در فایل robots.txt

یکی از نکات بسیار مهم در خصوص فایل robots.txt این است که برای هر دستورالعمل یک خط جداگانه را در نظر بگیرید. در غیر این صورت موتورهای جستجو در زمان تجزیه فایل robots.txt سردرگم می شوند. به عنوان مثالی از یک فایل robots.txt اشتباه، می توانید مثال زیر را در نظر بگیرید:

User-agent: * Disallow: /directory-1/ Disallow: /directory-2/ Disallow: /directory-3/

استفاده از wildcard *:

Wildcard را نه تنها می توان برای تعریف user-agent مورد استفاده قرار داد بلکه می توان از آن برای تطبیق لینک ها نیز استفاده کرد. wildcard امروزه توسط موتورهای جستجویی مانند گوگل، یاهو، بینگ و Ask پشتیبانی می شود.

مثال زیر را در نظر بگیرید:

User-agent: *

Disallow: *?

در این مثال هیچ یک از موتورهای جستجو اجازه دسترسی به لینک هایی که شامل علامت سوال می باشند را ندارند.

استفاده از $ برای انتهای لینک ها

برای نشان دادن انتهای یک لینک می توانید از علامت $ در انتهای مسیر مد نظر خود استفاده کنید.

مثال زیر را در نظر بگیرید:

User-agent: *

Disallow: *.php$

در این مثال هیچ یک از موتورهای جستجو اجازه دسترسی به لینک هایی که با پسوند .php تمام می شوند را ندارند. لینک هایی که دارای پارامتر می باشند مانند https://example.com/page.php?lang=fa نیز مجوز دسترسی را خواهند داشت چرا که این لینک ها با .php به اتمام نرسیده اند.

اضافه کردن نقشه سایت به فایل robots.txt

حتی اگر فایل robots.txt برای این ساخته شده باشد که به موتورهای جستجو بگوییم که در کدام یک از صفحات وب سایت ما اجازه خزیدن ندارند باز هم می توان از این فایل برای هدایت موتورهای جستجو به نقشه XML سایت استفاده کرد. این قابلیت در موتورهای جستجویی مانند گوگل، بینگ، یاهو و Ask پشتیبانی می شود.

نقشه XML سایت باید به عنوان یک لینک قطعی ارجاع داده شود. توجه داشته باشید که لزومی ندارد این لیست دقیقا در همان هاستی که فایل robots.txt در آن است قرار داشته باشد. ارجاع دادن به نقشه XML سایت در robots.txt یکی از بهترین قابلیت های این فایل است که به شما پیشنهاد می کنیم همواره از آن استفاده کنید.

حتی اگر شما در حال حاضر نقشه XML سایت خود را در کنسول جستجوی گوگل یا ابزارهای Webmaster موتور جستجوی بینگ نیز ارسال کرده اید باز هم به شما پیشنهاد می کنیم حتما از این قابلیت بهره مند شوید. لطفا به این مسئله توجه داشته باشید که امکان ارجاع چندین نقشه XML سایت در فایل robots.txt برای شما فراهم شده است که می توانید از این امکان نهایت بهره را ببرید تا سئو سایت خود را بهبود دهید.

مثال هایی از ارجاع نقشه سایت در فایل robots.txt

در مثال زیر نحوه تعریف کردن چندین نقشه XML سایت را در داخل یک فایل robots.txt به شما نشان دادم:

User-agent: *

Disallow: /wp-admin/

Sitemap: https://www.example.com/sitemap1.xml

Sitemap: https://www.example.com/sitemap2.xml

در مثال بالا هیچ یک از موتورهای جستجو به مسیری که شامل پوشه /wp-admin/ است دسترسی ندارند و همینطور دو نقشه سایت را نیز تعریف کرده ایم که در آدرس های بیان شده موجود می باشند. شما می توانید مانند مثال زیر یک نقشه XML سایت را نیز برای این فایل تعریف کنید:

User-agent: *

Disallow: /wp-admin/

Sitemap: https://www.example.com/sitemap_index.xml

در این مثال باز هم هیچ یک از موتورهای جستجو اجازه دسترسی به مسیری که شامل پوشه /wp-admin/ است را ندارند  ویک نقشه سایت نیز در آدرسی که بیان شده است موجود می باشد.

کامنت ها در فایل robots.txt

کامنت ها معمولا با استفاده از علامت # در این فایل نمایش داده می شوند و می توانند یک خط جداگانه را به خود اختصاص داده و یا بعد از یک دستورالعمل و در همان خط در فایل robots.txt قرار گیرند. هر چیزی که بعد از علامت # نوشته شود در زمان اجرا نادیده گرفته می شود. در واقع این کامنت ها تنها برای کاربران نوشته می شوند.

مثال 1:

# Don’t allow access to the /wp-admin/ directory for all robots.

User-agent: *

Disallow: /wp-admin/

مثال 2:

User-agent: * #Applies to all robots

Disallow: /wp-admin/ # Don’t allow access to the /wp-admin/ directory.

قابلیت Crawl-delay در Robots.txt

دستورالعمل Crawl-delay یک دستورالعمل غیررسمی است که برای جلوگیری از overload شدن سرورها با درخواست های زیاد مورد استفاده قرار می گیرد. اگر موتورهای جستجو قادر باشند تا یک سرور را overload کنند معمولا استفاده از این دستورالعمل در فایل robots.txt یک راه حل موقت برای حل این مشکل خواهد بود.

در حقیقت مشکل اصلی شما این است که وب سایت شما در یک هاست ضعیف اجرا می شود و به شکل نادرستی تنظیم شده است. به همین علت نیز شما باید در کوتاه ترین زمان ممکن اقدام به حل کردن این مشکل کنید. نحوه عملکرد موتورهای جستجو در خصوص دستورالعمل Crawl-delay متفاوت می باشد. به همین علت نیز در ادامه نحوه عملکرد برخی از مهم ترین این موتورهای جستجو را به شما معرفی میکنم.

عملکرد موتورهای جستجو در زمان برخورد با دستورالعمل Crawl-delay

ربات های خزنده گوگل یعنی Googlebot از دستورالعمل Crawl-delay پشتیبانی نمی کنند بنابراین اگر به فکر بهینه سازی موتور جستجوی گوگل هستید بهتر است که از این دستورالعمل استفاده نکنید. با این حال باید توجه داشته باشید که گوگل از امکان تعریف یک crawl rate یا نرخ خزیدن که به آن نرخ درخواست نیز گفته می شود پشتیبانی می کند که شما می توانید از طریق کنسول جستجوی گوگل به آن دسترسی داشته باشید.

برای تنظیم نرخ خزیدن در گوگل می توانید اقدامات زیر را انجام دهید:

  • وارد حساب کاربری خود در کنسول جستجوی گوگل شوید.
  • وب سایتی که قصد تعریف کردن نرخ خزیدن یا نرخ درخواست در آن دارید را انتخاب کنید.
  • در صفحه ظاهر شده تنها یک گزینه وجود دارد که می توانید آن را تغییر دهید و این گزینه Crawl rate می باشد. با استفاده از اسلایدری که در کنار آن قرار دارد شما می توانید مقدار دلخواه خود را روی این ویژگی تنظیم کنید. مقدار پیش فرض این ویژگی Let Google optimize for my site است.

موتورهای جستجوی بینگ، یاهو و Yandex همگی از دستورالعمل Crawl-delay پشتیبانی می کنند که در صورت تمایل می توانید از این ویژگی در فایل robots.txt وب سایت خود استفاده کنید.

توجه داشته باشید که تفسیر آنها از این دستورالعمل اندکی متفاوت می باشد و به همین علت نیز بهتر است که قبل از استفاده حتما اسناد موجود در وب سایت این موتورهای جستجو را مطالعه کنید. توجه داشته باشید که دستورالعمل Crawl-delay دقیقا باید بعد از دستورالعمل های Disallow یا Allow قرار گیرد.

مثال زیر را در نظر بگیرید:

User-agent: BingBot

Disallow: /private/

Crawl-delay: 10

موتور جستجوی Baidu از دستورالعمل crawl-delay پشتیبانی نمی کند، با این حال این امکان برای شما فراهم شده است تا در ابزار Webmaster این موتور جستجو یک حساب ساخته و فرکانس خزیدن در وب سایت خود را با استفاده از این ابزار تنظیم کنید. استفاده از این ابزار دقیقا مشابه کنسول جستجوی گوگل می باشد.

چه زمانی از فایل robots.txt استفاده کنیم؟

توصیه من به شما این است که برای بهبود سئو سایت خود همیشه از فایل robots.txt استفاده کنید. داشتن فایل robots.txt در لیست فایل های وب سایت هیچ ضرری برای وب سایت شما ندارد و می تواند شرایط بسیار خوبی را برای شما فراهم کند تا دستورالعمل های مورد نیاز برای خزیدن ربات های موتورهای جستجو در وب سایت خود را نگهداری کنید تا این موتورهای جستجو همواره به فایل robots.txt دسترسی داشته باشند و بتوانند از آن برای بهینه سازی روند جستجو و خزیدن در وب سایت شما استفاده کنند و بهترین نتیجه را برای شما داشته باشند.

نکات مهم برای تعریف فایل robots.txt

برای نوشتن فایل robots.txt باید به چه نکته بسیار مهم توجه داشته باشید:

  • مکان و نام فایل robots.txt
  • ترتیب اولویت دستورالعمل ها
  • استفاده از تنها یک گروه از دستورالعمل ها برای هر ربات
  • داشتن دقت بالا
  • دقت داشتن به دستورالعمل هایی که برای تمامی فایل های robots.txt و در عین حال برای یک فایل خاص می باشند.
  • نوشتن فایل robots.txt برای هر دامنه یا زیر دامنه
  • عدم استفاده از دستورالعمل های متناقض
  • کنترل کردن دائم این فایل
  • عدم استفاده از noindex در داخل این فایل
  • جلوگیری از UTF-8 BOM در داخل این فایل

موقعیت و نام فایل

برای استفاده از فایل robots.txt حتما به این نکته توجه داشته باشید که این فایل همواره باید در بخش روت وب سایت شما قرار داشته باشد (در بالاترین سطح از پوشه های هاست وب سایت شما) و نام این فایل نیز همواره باید robots.txt باشد. به عنوان مثال آدرس این فایل باید به این شکل باشد:

https://www.example.com/robots.txt. توجه داشته باشید که لینک مربوط به این فایل مانند تمامی لینک های دیگر وب سایت شما می باشد و به حروف بزرگ و کوچک حساس است.

در صورتی که این فایل در محل پیش فرضی که برای آن در نظر گرفته شده است یافت نشود موتورهای جستجو تصور می کنند که شما هیچ دستورالعملی را برای وب سایت خود در نظر نگرفته اید و در نتیجه کل وب سایت شما را جستجو می کنند که این کار می تواند به سئو سایت شما آسیب وارد کند و مشکلات زیادی را برای شما به همراه داشته باشد.

ترتیب اولویت ها در داخل این فایل

یکی از مهم ترین نکاتی که باید درباره فایل robots.txt بدانید این است که موتورهای جستجو به شکل های مختلفی از این فایل استفاده می کنند. با این حال باید توجه داشت که اولین دستورالعمل همواره در ابتدا مورد بررسی قرار می گیرد. قوانین خاصی برای برخی از موتورهای جستجو وجود دارد که بهتر است اطلاعات کاملی در این زمینه داشته باشید تا بتوانید به بهترین شکل ممکن فایل robots.txt وب سایت خود را پیاده سازی کنید.

به عنوان مثال در موتورهای جستجو گوگل و بینگ در صورتی که تعداد کاراکترهای استفاده شده در دستورالعمل Allow بیشتر باشد اولویت بیشتری نسبت به دستورالعمل Disallow خواهد داشت.

مثال:

User-agent: *

Allow: /about/company/

Disallow: /about/

در این مثال هیچ یک از موتورهای جستجو از جمله گوگل و بینگ به تمامی پوشه های موجود در مسیر /about/ directory به جز مسیر sub-directory /about/company/  دسترسی ندارند.

مثال:

User-agent: *

Disallow: /about/

Allow: /about/company/

در مثال بالا به هیچ یک از موتورهای جستجو از جمله گوگل و بینگ اجازه دسترسی به پوشه /about/ directory داده نمی شود که این عدم اجازه دسترسی شامل مسیر /about/company/ نیز می شود. با این حال باید توجه داشت که موتورهای جستجو گوگل و بینگ در این جا اجازه دسترسی خواهند داشت چرا که طول کاراکترهای دستورالعمل بیشتر از Allow می باشد.

برای هر ربات تنها یک گروه از دستورالعمل ها را داشته باشید و دقیق باشید

حتما باید برای هر موتور جستجو یک گروه از دستورالعمل ها را تعریف کنید. داشتن چندین گروه از دستورالعمل ها برای یک موتور جستجو می توانند باعث سردرگم شدن آنها شود. یکی از مهم ترین ویژگی های دستورالعمل Disallow این است که حتی با کوچکترین تطابقی نیز فعال می شود و به همین علت نیز در زمان تعریف آن باید سعی کنید تا جای ممکن دقیق باشید تا به صورت ناخواسته دسترسی موتورهای جستجو به بخش های مهم سایت خود را مسدود نکنید.

مثال:

User-agent: *

Disallow: /directory

مثال بالا یک مثال از فایل robots.txt است که اجازه دسترسی به بخش های زیر را به موتورهای جستجو نمی دهد:

  • /directory
  • /directory/
  • /directory-name-1
  • /directory-name.html
  • /directory-name.php
  • /directory-name.pdf

دستورالعمل هایی برای تمامی ربات ها در حالی که شامل دستورالعمل هایی برای یک ربات خاص نیز می باشد

برای یک ربات خاص مانند ربات گوگل تنها یک گروه از دستورالعمل ها معتبر است. بنابراین اگر دستورالعمل هایی را برای همه ربات ها در نظر گرفته اید و به دنبال آن دستورالعمل هایی برای یک ربات خاص مد نظرتان است باید بدانید که تنها این دستورالعمل های خاص توسط موتورهای جستجو مورد توجه قرار می گیرند.

برای این که یک ربات خاص نیز از دستورالعمل های عمومی تمامی ربات ها پیروی کند باید این دستورالعمل ها را برای ربات خاص مد نظر خود نیز تکرار کنید. اجازه دهید تا برای روشن شدن این موضوع نگاهی به یک مثال داشته باشیم:

User-agent: *

Disallow: /secret/

Disallow: /test/

Disallow: /not-launched-yet/

User-agent: googlebot

Disallow: /not-launched-yet/

در مثال بالا هیچ یک از موتورهای جستجو به جز گوگل اجازه دسترسی به بخش های /secret/، /test/ و /not-launched-yet/ را ندارند. موتور جستجوی گوگل تنها اجازه دسترسی به /not-launched-yet/ را ندارد اما اجازه دسترسی به /secret/ و /test/ برای آن فراهم شده است.

اگر شما هم قصد دارید تا از دسترسی ربات گوگل به بخش های /secret/ و /test/ جلوگیری کنید باید دستورالعمل های مربوط به آنها را در بخش مربوطه تکرار کنید:

User-agent: *

Disallow: /secret/

Disallow: /test/

Disallow: /not-launched-yet/

User-agent: googlebot

Disallow: /secret/

Disallow: /not-launched-yet/

لطفا توجه داشته باشید که فایل robots.txt شما به صورت عمومی در دسترس خواهد بود. عدم اجازه دسترسی به برخی از بخش های سایت می تواند مورد سوءاستفاده توسط هکرها قرار گیرد.

داشتن فایل robots.txt برای هر دامنه یا زیردامنه

دستورالعمل های فایل robots.txt تنها برای دامنه یا زیردامنه ای که در آن قرار دارد اعمال می شود.

مثال:

http://example.com/robots.txt تنها برای http://example.com معتبر است اما برای http://www.example.com یا https://example.com معتبر نخواهد بود. بهترین کاری که می توانید انجام دهید این است که تنها یک فایل robots.txt برای هر زیردامنه خود داشته باشید.

دستورالعمل های متناقض: robots.txt در مقایسه با کنسول جستجوی گوگل

در صورتی که فایل robots.txt وب سایت شما با تنظیمات کنسول جستجوی گوگل تناقض داشته باشد گاهی اوقات گوگل ترجیح می دهد که از تنظیمات تعریف شده در کنسول جستجوی گوگل به جای دستورالعمل های فایل robots.txt وب سایت شما استفاده کند. بنابراین حتما به این نکته مهم توجه داشته باشید.

روی فایل robots.txt خود نظارت داشته باشید

یکی از مهم ترین نکات در زمان کار کردن با فایل robots.txt این است که روی تغییراتی که در این فایل اعمال می کنید نظارت کامل داشته باشید. موارد مشابه بسیار زیادی دیده شده است که استفاده از دستورالعمل های نادرست و ایجاد تغییرات ناگهانی در فایل robots.txt باعث بروز مشکلات عمده در سئو سایت شده است.

این مسئله به خصوص زمانی که قصد راه اندازی ویژگی های جدید در وب سایت خود را دارید بیشتر از قبل خود را نمایش می دهد و تاثیر بیشتری روی سئو سایت شما می گذارد.

مثال زیر را در نظر بگیرید:

User-agent: *

Disallow: /

در فایل ربات از noindx استفاده نکنید

برای سال های طولانی گوگل توصیه می کرد که از دستورالعمل غیر رسمی noindex استفاده کنید. با این حال از اول سپتامبر 2019 گوگل پشتیبانی از این دستورالعمل را به طور کامل متوقف کرد. البته باید توجه داشته باشید که این دستورالعمل غیررسمی noindex هرگز در موتور جستجوی بینگ کار نکرد. بهترین راه برای ارسال یک سیگنال به موتورهای جستجو به منظور این که یک صفحه نباید ایندکس شود این است که از تگ meta robots یا X-Robots-Tag استفاده کنید.

از استفاده از UTF-8 BOM در فایل robots.txt خودداری کنید

BOM در واقع مخفف عبارت byte order mark است که در واقع یک کاراکتر غیر قابل مشاهده در ابتدای فایل robots.txt می باشد و برای رمزگذاری منحصر به فرد یک فایل متنی مورد استفاده قرار می گیرد.

با وجود این که گوگل ادعا داشت که کاراکتر byte order mark در ابتدای فایل robots.txt را نادیده می گیرد ولی با ما به شما توصیه می کنیم که از UTF-8 BOM جلوگیری کنید چرا که به نظر تیم متخصصین ما این کار می تواند باعث به وجود آمدن مشکلاتی در تفسیر فایل robots.txt توسط موتورهای جستجو شود.

حتی اگر گوگل سازگاری کاملی با این مشکل داشته باشد ولی با این حال باز هم ما می توانیم دو دلیل بسیار مهم برای جلوگیری از UTF-8 BOM را برای شما بیان کنیم:

  • دلیل اول این است که شما نمی خواهید درباره تنظیماتی که برای خزیدن ربات های موتورهای جستجو در وب سایت خود اعمال کرده اید ابهامی وجود داشته باشد.
  • دلیل دیگر این است که موتورهای جستجوی دیگری نیز وجود دارند که ممکن است به اندازه گوگل در این خصوص بخشنده نباشند.

مثال های مختلف از فایل robots.txt

در این بخش قصد دارم برخی از مهم ترین مثال های فایل robots.txt را در اختیار شما قرار بدم.

1.اجازه به ربات ها برای دسترسی به تمامی بخش های سایت

روش های مختلفی وجود دارد که شما با پیاده سازی آنها در فایل robots.txt می توانید دسترسی موتورهای جستجو به بخش های مختلف سایت خود را فراهم کنید.

مثال زیر را در نظر بگیرید:

User-agent: *

Disallow:

علاوه بر این شما می توانید با خالی گذاشتن فایل نیز این کار را انجام دهید.

2- قطع کردن دسترسی تمامی ربات ها به کل وب سایت

مثال زیر که در فایل robots.txt پیاده سازی شده است دسترسی تمامی موتورهای جستجو به کل بخش های وب سایت شما را قطع می کند:

User-agent: *

Disallow: /

لطفا در زمان پیاده سازی این بخش توجه داشته باشید که تنها یک کاراکتر اضافی می تواند تفاوت های زیادی را در این بخش به وجود بیاورد.

3-.هیچ یک از ربات های گوگل به سایت شما دسترسی نداشته باشند.

User-agent: googlebot

Disallow: /

در زمان پیاده سازی این قطعه کد در فایل robots.txt توجه داشته باشید که این کار باعث قطع شدن دسترسی تمامی ربات های گوگل می شود. این ربات ها شامل ربات هایی می شوند که به دنبال اخبار یا تصاویر در وب سایت های مختلف هستند.

4- تمامی ربات های گوگل به جز ربات اخبار گوگل دسترسی به سایت شما نداشته باشند.

User-agent: googlebot

Disallow: /

User-agent: googlebot-news

Disallow:

5- ربات گوگل و Slurp به وب سایت شما دسترسی نداشته باشند.

User-agent: Slurp

User-agent: googlebot

Disallow: /

6- هیچ یک از ربات ها به دو پوشه دسترسی نداشته باشند.

User-agent: *

Disallow: /admin/

Disallow: /private/

7- هیچ یک از ربات ها به یک فایل خاص دسترسی نداشته باشند.

User-agent: *

Disallow: /directory/some-pdf.pdf

8- ربات گوگل به پوشه /admin/ و Slurp به پوشه /private/ دسترسی نداشته باشد.

User-agent: googlebot

Disallow: /admin/

User-agent: Slurp

Disallow: /private/

فایل Robots.txt برای وردپرس

فایل robots.txt زیر برای سایت های وردپرسی بهینه سازی شده است و در آن مفروضات زیر برقرار هستند:

  • شما نمی خواهید که موتورهای جستجو در بخش های admin وب سایت شما بخزند.
  • نمی خواهید که موتورهای جستجو صفحات جستجوی داخلی وب سایت شما را بخزند.
  • نمی خواهید که موتورهای جستجو صفحات مربوط به تگ ها و نویسنده ها در وب سایت شما بخزند.
  • نمی خواهید که موتورهای جستجو صفحات 404 شما را بخزند.

User-agent: *

Disallow: /wp-admin/ #block access to admin section

Disallow: /wp-login.php #block access to admin section

Disallow: /search/ #block access to internal search result pages

Disallow: *?s=* #block access to internal search result pages

Disallow: *?p=* #block access to pages for which permalinks fails

Disallow: *&p=* #block access to pages for which permalinks fails

Disallow: *&preview=* #block access to preview pages

Disallow: /tag/ #block access to tag pages

Disallow: /author/ #block access to author pages

Disallow: /404-error/ #block access to 404 page

Sitemap: https://www.example.com/sitemap_index.xml

لطفا به این نکته توجه داشته باشید که این فایل robots.txt در بیشتر موارد به خوبی کار می کند اما شما باید همیشه آن را تنظیم کرده و مجددا آزمایش کنید تا مطمئن شوید که با وضعیت دقیق وب سایت شما سازگاری کاملی دارد و می تواند از این فایل robots.txt به راحتی در وب سایت استفاده کرد.

تعریف Robots.txt برای مجنتو

فایل robots.txt که در زیر تعریف کردم برای Magento بهینه سازی شده است و می تواند نتایج جستجوهای داخلی، صفحات لاگین، شناسه های مربوط به نشست های سایت و نتایج فیلترها را که حاوی اطلاعات مهمی می باشند از دسترس موتورهای جستجو خارج کند.

User-agent: *

Disallow: /catalogsearch/

Disallow: /search/

Disallow: /customer/account/login/

Disallow: /*?SID=

Disallow: /*?PHPSESSID=

Disallow: /*?price=

Disallow: /*&price=

Disallow: /*?color=

Disallow: /*&color=

Disallow: /*?material=

Disallow: /*&material=

Disallow: /*?size=

Disallow: /*&size=

Sitemap: https://www.example.com/sitemap_index.xml

لطفا به این نکته مهم توجه داشته باشید که این فایل robots.txt می تواند برای تمامی فروشگاه های مجنتو کار کند اما با این حال بهتر است که شما همواره آن را تنظیم کرده و مجددا آن را تست کنید تا مطمئن شوید که برای وضعیت سایت شما می تواند مناسب باشد و می توان از این فایل robots.txt برای سایت شما استفاده کرد.

آشنایی با محدودیت های Robots.txt

توجه داشته باشید که فایل Robots.txt تنها یک دستورالعمل اختیاری است که ممکن است برخی از موتورهای جستجو اقدام به اجرای آن نکنند. با وجود این که امروزه تمامی موتورهای جستجو به این دستورالعمل ها احترام می گذارند ولی باید توجه داشت که پیروی از آنها برای هیچ یک از موتورهای جستجو اجباری نیست.

صفحاتی که با استفاده از فایل robots.txt برای موتورهای جستجو غیرقابل دسترس شده اند اما لینک آنها در سایر صفحات موجود است هنوز هم در لیست جستجوی موتورهای جستجو نمایش داده می شوند که شما باید به این نکته بسیار مهم توجه داشته باشید.

دقت کنید که حذف کردن این لینک ها از گوگل امکان پذیر است و شما با استفاده از کنسول جستجوی گوگل می توانید به راحتی اقدام به حذف آنها کنید. در حال حاضر موتور جستجوی گوگل از حداکثر سایز 500 کیلوبایت برای فایل robots.txt پشتیبانی می کند. بنابراین زمانی که حجم فایل های شما بیشتر از این مقدار باشد توسط موتور جستجوی گوگل نادیده گرفته می شود.

مسئله سایز فایل robots.txt برای سایر موتورهای جستجو به صورت دقیق مشخص نشده است و معلوم نیست که آیا سایر موتورهای جستجو نیز محدودیت هایی را در این زمینه دارند یا خیر؟

نتیجه گیری

با توجه به توضیحات و آموزش های بسیار زیادی که در این مطلب در وب آنجلآکادمی در خصوص فایل robots.txt به شما ارائه دادم احتمالا شما هم متوجه شده اید که این فایل از اهمیت بسیار زیادی در موتورهای جستجو برخوردار می باشد و به همین علت نیز شما برای بهبود سئو سایت خود نیازمند پیاده سازی و اجرای درست فایل robots.txt خواهید بود. فایل robots.txt از بخش های مختلفی تشکیل شده است که در زمان پیاده سازی باید به تمامی این بخش ها توجه داشته باشید و سعی کنید که جزئی ترین نکات را نیز در زمان پیاده سازی رعایت کنید.

فایل robots.txt در وب سایت های بزرگی که دارای صفحات زیادی می باشند از اهمیت بسیار بیشتری برخوردار می باشد چرا که می تواند یک راهنمای کامل برای نحوه جستجو و خزیدن در صفحات وب سایت را برای موتورهای جستجو فراهم کند. بنابراین اگر شما هم قصد راه اندازی یک وب سایت بزرگ تجاری را دارید حتما باید به کیفیت فایل robots.txt وب سایت خود توجه کنید و تمامی نکاتی که در این مطلب بیان کردم را رعایت کنید.

در صورتی که شما هم قصد دارید تا سئو سایت خود را به صورت کاملا حرفه ای بهینه سازی کنید بهتر است که با تمامی جنبه های مختلف فایل robots.txt آشنا شوید و از نیروهای متخصص برای پیاده سازی این فایل استفاده کنید.

وب آنجل
جستجو کردن