What is robots.txt file in SEO | How to use robots txt for SEO

How to use robots txt for SEO:

robots.txt फाइल एक वेबसाइट का बहुत ही महत्वपूर्ण हिस्सा होता है | इसलिए आज इस आर्टिकल में हम How to use robots txt for SEO के बारे में बात करने वाले है | कोई भी Search Engine जैसे Google या Bing एक प्रकार के प्रोग्राम को Use करते है, जो इन्टरनेट पर मौजूद Websites पर जाकर जरुरी इनफार्मेशन को कलेक्ट करता है और ये प्रोग्राम एक वेबसाइट से दूसरी वेबसाइट में जाता रहता है | इस प्रकार के प्रोग्राम को Web Crawlers, Spiders, Bots या Robots कहा जाता है |

इन्टरनेट के एक दम शुरूआती दौर में जब Computing Power और Memory दोनों काफी महंगी होती थी, कुछ Website Owners उस टाइम के Search Engines के इन Crawlers से बहुत परेशान होते थे क्यूंकि उस वक्त वेबसाइट कम होती थी और ये Crawlers बार-बार उनकी वेबसाइट को Visit करते रहते थे जिसकी वजह से उनके Servers असली इंसानी Visitor को उनकी  वेबसाइट नहीं दिखा पाते थे जिसके कारण वेबसाइट के resources ख़त्म हो जाते थे|

इस प्रॉब्लम से निपटने के लिए कुछ लोगो ने robots.txt SEO का आईडिया दिया जो Search Engine या किसी भी टाइप के Crawlers को ये Instruction देगी कि वेबसाइट के Owners उन्हें वेबसाइट के किस हिस्से को विजिट करने की permission दे रहे है और किस हिस्से की permission वे नहीं दे रहे है | इसलिए इस आर्टिकल में हम निम्नलिखित मुद्दो पर नजर डालेंगे –

1. robots.txt क्या है ?

2. आपकी वेबसाइट में robots.txt का क्या रोल है ?

3. robots.txt को अपनी वेबसाइट में कैसे सेटअप करना चाहिए ?

4. हम अपनी robots.txt Files को हम कैसे चेक कर सकते है ?

What is robots.txt file in SEO:

robots.txt एक प्रकार की Text Files होती है, जो वेबसाइट के Root Folder में होती है | इसके लिए हम एक Domain का example लेते है https://xyz.com. अब जब भी कोई Crawler इस वेबसाइट को visit करेगा तो वो सबसे पहले इस https://xyz.com/robots.txt फाइल को ढूंढेगा | अगर Crawler को ये फाइल नहीं भी मिलती है तो इसमें कोई प्रॉब्लम नहीं है, वो Crawler इस पूरी वेबसाइट को visit करेगा और उसके किसी भी पार्ट को अपने हिसाब से इंडेक्स करेगा या इनफार्मेशन स्टोर कर लेगा |

इसके विपरीत अगर उस Robot को आपकी वेबसाइट पर robots.txt File मिलती है तो वो उसे पढ़ेगा और Technically उसके instructions को फॉलो करेगा | इसीलिए आपके लिए ये जानना बेहद आवशयक है कि How to use robots txt for SEO. लेकिन यहाँ पर ये भी सच है कि Data Aggregator, Email इकठा करने वाले Bots या Hackers के बनाये हुए Search Bots इन Instructions को फोलो नहीं करते है | यहाँ पर हमे कुछ पॉइंट्स clear हो जाते है कि-

1. robots.txt एक प्रकार की Text File होती है |

2. robots.txt files हमेशा वेबसाइट के Main Root Folder में होती है |

3. robots.txt का नाम हमेशा robots.txt ही होता है | ये Robot.txt नहीं हो सकता है, ये Capital Letters में नहीं हो सकता है | इसका नाम हमेशा Case Sensitive होगा |

4. किसी भी वेबसाइट की robots.txt files को आप उसके Domain Name के आगे robots.txt लगाकर देख सकते है – https://xyz.com/robots.txt

5. इस फाइल में दिए गए Instructions को कोई Robot मानेगा या नहीं मानेगा, इस बात की कोई गारंटी नहीं है |

वैसे तो बड़े Search Engine कंपनी जैसे Google, Bing, Yahoo और Yandex इन Instruction को फॉलो करती है लेकिन छोटे Search Engines और Data Aggregators इन Instructions को फॉलो नहीं करते है | अब हमने इस robots.txt file के बारे में काफी कुछ जान लिया है और अब हम देखते है कि आखिर इस फाइल में होता क्या है और How to use robots txt for SEO.

How to use robots.txt file:

ये है robots.txt file का एक Minimum Content –

User-agent: *

Disallow:

 इसे ध्यान से देख लीजिये, ये ऐसा ही होता है | अगर आप सभी Search Engines को अपनी वेबसाइट के सभी Pages तक जाने देना चाहते है तो आपकी robots.txt file में सिर्फ इतना ही होना चाहिए |

इस robots.txt file की जो first लाइन है User-agent: * इसमें इस ‘*’ का मतलब है कि सभी टाइप के Search Engines Bots के लिए Instruction है | इसके बाद दूसरी लाइन में है Disallow: इसमें Disallow के आगे कुछ भी नहीं है तो इसका मतलब हुआ कि किसी भी तरह के search Engine Robots के लिए website का कोई भी हिस्सा Disallowed या Ban नहीं है |

लेकिन अगर इसी Disallow के आगे ‘/’ लगा हुआ हो तो इसका मतलब हो जाता है कि Root Directory की सारी फाइल्स Disallowed है | हमेशा याद रखिये कि किसी भी वेबसाइट के Domain Name में ‘/’ लगाने के बाद ही हम किसी पेज का लिंक बना पाते है | यहाँ तक की Home पेज भी ‘/’ के बाद index.html या index.php होती है लेकिन ये अलग बात है कि ब्राउज़र इसे Show नहीं करते है | इसलिए अगर आप Disallow के आगे ‘/’ लगा देते है तो आप अपनी वेबसाइट की सभी फाइल्स को Search Engine के लिए ब्लाक कर रहे है |

ये छोटे-छोटे रूल आपकी पूरी वेबसाइट को प्रभावित कर सकते है इसीलिए आपके लिए What is robots.txt file in SEO के बारे में जानना जरुरी है |

लेकिन अगर आप किसी खास search engine के लिए ही अपनी वेबसाइट को ब्लाक करना चाहते है तो आपको इस कोड की जो पहली लाइन है – User-agent: * इसमें आपको ‘*’ की जगह उस Search Engine का username देना होगा जैसे – User-agent: Googlebot  और इसके बाद निचे वाली लाइन में आप अपना Instruction लिख सकते है, अगर आप अपनी पूरी वेबसाइट को ही उस search engine के ये ब्लाक करना चाहते है तो दूसरी लाइन में ‘/’ ही रहने दे |

लगभग हर एक Search Engine का username या useragent अलग होता है जैसे Google का है Googlebot, Yahoo का है Slurp,  Microsoft का है Bingbot. अगर आप सारे Useragents की लिस्ट देखना चाहते है तो आप यहाँ से देख सकते है | अब यहाँ पर एक सवाल आता है कि ये robots.txt आपके SEO को कैसे Affect करती है और इससे SEO में क्या फायदा होता है, चलिए जानते है–

How to use robots.txt for SEO:

अभी के टाइम में Google Web ट्रैफिक का 98% से भी ज्यादा हैंडल करता है तो यहाँ पर हम गूगल की ही बात करते है |  Google हर वेबसाइट के लिए एक Crawl Visit नियत करता है जो ये Decide करता है कि Google का Robot आपकी वेबसाइट को कितनी बार visit करेगा | ये Crawl Visit दो चीजो पर निर्भर करती है –

1. आपका Server क्रॉल करते टाइम Slow तो नहीं हो रहा है | ऐसा तो नहीं होता है कि जब Google का Robot आपकी वेबसाइट को visit करता है तो आपकी वेबसाइट Real Visitors के लिए Slow तो नहीं हो जाती है |

2. ये Crawl Visit इस बात पर भी निर्भर करती है  कि आपकी वेबसाइट कितनी पोपुलर है | जो websites ज्यादा पोपुलर होती है और जिन पर ज्यादा कंटेंट मौजूद होता है, स्पष्टत: गूगल ऐसी Websites को बार-बार visit करना चाहता है  ताकि वो अपने आप को कंटेंट के साथ अपडेट रख सके |

इसलिए अगर अप चाहते है कि आपकी वेबसाइट गूगल के इस Crawl Visit का सदुपयोग करे तो आप अपनी वेबसाइट की robots.txt files  में से Unimportant पेजेज को ब्लाक कर सकते है | जैसे Login Page, Internal Use के Documents वाला फोल्डर या पेज, पुराने या डुप्लीकेट कंटेंट वाले पेजेज | इन सभी Unimportant Pages को आप Googlebot के लिए Disallow करके अपने Crawl Visit को अपने Important Pages के लिए बचाकर रख सकते है |

Robots.txt से आप अपनी वेबसाइट के Under maintenance वाले पार्ट को भी Temporarily  इंडेक्स होने से रोक सकते है | अगर आपकी वेबसाइट में कोई ऐसा हिस्सा है जो सिर्फ आपके Employees के लिए ही है और जिसे आप Publically सर्च में नहीं दिखाना चाहते है, उसे भी आप अपनी Robots.txt files में ब्लाक कर सकते है |

मान लीजिये आपकी वेबसाइट है xyz.com और इसके अन्दर एक फोल्डर है Sample और इसका एक पेज है sample.html  तो इस sample फोल्डर की सारी फाइल्स को छुपाने के लिए आपको robots.txt में निचे दिखाया गया कोड enter करना होगा|

User-agent: *

Disallow: /sample

और sample.html को छुपाने के लिए इस कोड को इस्तेमाल करेंगे –

User-agent: *

Disallow: /sample.html

Other Benefits Of robots.txt File:

इसके आलावा robots.txt File में आप Search Robots को अपने Sitemap का लिंक भी सकते है और ऐसा आप जरुर करे | अपनी robots.txt File में आप अपने Sitemap का लिंक जरुर Add करे | इसके लिए आपको अपनी robots.txt File में सिर्फ ये लाइन जोड़नी होगी –

Sitemap: https://xyz.com/sitemap.xml

आपको मैंने कुछ स्टेप्स पहले बताया था कि कैसे एक Search Engine के Robots की Crawling के वक्त आपकी वेबसाइट Real Visitors के लिए Slow हो सकती है | ऐसे में अगर आपकी वेबसाइट काफी Unique और Use ट्रैफिक Attract करती है तो ये आपकी वेबसाइट की Slow Speed आपको महंगी पड़ सकती है और इसके लिए आप अपनी robots.txt File में एक Delay-Timer भी लगा सकते है,जिससे Search Engines Robots एक पेज को क्रॉल करने के बाद दुसरे पेज को क्रॉल करने से पहले कुछ देर इंतजार करेंगे | ये इंतजार का टाइम या Delay, By default मिली सेकंड्स में तय किया जाता है | इसके लिए आपको अपनी robots.txt File में ये कोड डालना होगा –

Crawl-delay: 10

यहाँ पर इस 10 का अर्थ है कि Robots दुसरे पेज को क्रॉल करने से पहले 10 मिली सेकंड्स का wait करेंगे जिससे आपके सर्वर को थोडा चैन जरुर मिलेगा और आपकी वेबसाइट एक दम से Slow नहीं होगी | इस मिली सेकंड्स के नंबर को आप अपने हिसाब से सेट कर सकते है|

2 July, 2019 को गूगल ने यह भी Announce किया है कि robots.txt File में जो no index रिक्वेस्ट होती थी, उसे गूगल अब नहीं मानेगा | Google की इस Announcement पर Microsoft Bing ने Reaction दिया कि हम तो इसे कभी फॉलो करते ही नहीं थे |

How to use robots txt for SEO
Google No-Index Doc.

आपको हमेशा ये बात ध्यान रखनी है कि No Index, Disallow  से होता है | Disallow  Command पेज को क्रॉल ना करने का Instruction देती है और No Index command पेज को क्रॉल करने से मना नहीं करती है बल्कि उसे Index करने से मना करती है | No Index का अभी तक कोई लिखित रूल नहीं था लेकिन कुछ साल पहले तक Google इसे 90 % Cases में फोलो कर ही रहा था लेकिन अब Google ने इस No Index रूल को ख़त्म कर दिया है इसलिए अगर अपनी robots.txt files में No Index command लगाते है तो हो सकता है शायद उसे गूगल फॉलो ना करे |

दोस्तों उम्मीद है आपको इस आर्टिकल से How to use robots txt for SEO के बारे में जरुर कुछ Unique सिखनेको मिला होगा | दोस्तों इस कंटेंट को समाप्ति की ओर बढाते हुए मैं आपको कुछ Top Websites की robots.txt files दिखाना चाहूँगा –

सबसे पहले हम Facebook.com  की robots.txt file को देखेंगे जो निचे दिखाई गयी है, जिसमे अगर आप ध्यान से देखे तो सबसे पहले लाइन में ही इन्होने एक Warning Message दिया हुआ है |  Facebook की robots.txt file की काफी लम्बी लिस्ट है |

How to use robots txt for SEO
Facebook robots.txt file

निचे आपको Google.com  की robots.txt file दिखाई गयी है –

How to use robots txt for SEO
Google robots.txt file

सबसे विचित्र robots.txt file है Paytm की, जिसमे टोटल 5626 लाइन्स मौजूद है –

How to use robots txt for SEO
Paytm robots.txt file

प्रस्तुत आर्टिकल आपको अपनी और अपने क्लाइंट की robots.txt file को Maintain करने में और उसे सही से इस्तेमाल करने में मदद करेगी | इसी के साथ ये भी याद रखे कि ये फाइल आपकी वेबसाइट या ब्लॉग के लिए अत्यंत महत्वपूर्ण फाइल होती है और इसमें किया गया कोई भी अनुचित बदलाव आपकी पूरी वेबसाइट को हानि पहुंचा सकता है | इस आर्टिकल में हमारा मुख्यतः एक ही स्कोप था How to use robots txt for SEO और इसमें आपको जरुर सिखने को मिला होगा |

➦ अगर आपको यह इनफार्मेशन उपयोगी लगे तो इसे जरूरतमंद लोगो तक जरुर शेयर कीजियेगा और अगर robots.txt files के बारे में ऐसा कोई पॉइंट हिया जिसे हम अपने इस आर्टिकल में कवर ना कर पाए हो तो आप उसे Comment Section के माध्यम से जरुर साँझा करे |

FAQ:

  1. How create robots.txt file in SEO?

    robots.txt file  एक Plain Text फाइल होती है | किसी भी वेबसाइट की robots.txt file को देखने के लिए आप उसके URL के आगे robots.txt लगाकर देख सकते है जैसे –https:/ example.com/ robots.txt
    • robots.txt file बनाने के लिए सबसे एक फाइल बनाये जिसका नाम आप robots.txt डालेंगे | यह फाइल आप अपने सिस्टम में नोटपैड पर बना सकते है|
    • इसके बाद इसमें अपने robots.txt के रूल्स डाले |
    • अब इस फाइल को अपने Cpanel या Control Panel में File Manager में Root Directory में अपलोड कर दे | ध्यान रहे आप इसे किसी Sub Directory में अपलोड ना करे |
    • इसके बाद आप उस Domain नाम के आगे robots.txt लगाकर उसे देख सकते है |

  2. Is robots.txt a vulnerability?

    robots.txt अपने आप में कभी भी Security Vulnerability को प्रस्तुत नहीं करती है, भले ही इसका इस्तेमाल अक्सर वेबसाइट के Private और Restricted Areas को Identify करने के लिए किया जाता हो |

  3. When should I use robots txt?

    robots.txt file में Search Engines के Bots लिए निर्देश होते हैं जो उन्हें बताते हैं कि वे किन Webpages तक जाना  हैं और किन Webpages तक उन्हें नहीं जाना है | robots.txt फाइल्स Google जैसे खोज इंजन के वेब क्रॉलर के लिए सबसे अधिक Relevant हैं।

Categories SEO

नमस्कार दोस्तों, मैं Mahakal-Blog का फाउंडर हु | ब्लॉग्गिंग करना मेरा प्रोफेशन है और मेरी रूचि, नई-नई चीजो के बारे में जानकारी अर्जित करना और उसे ब्लॉग्गिंग के मध्यम से लोगो के साथ शेयर करने में है | इस ब्लॉग को बनाने के पीछे हमारा मकसद यह है कि हम आपको ब्लॉग्गिंग और डिजिटल मार्केटिंग से सम्बंधित महत्वपूर्ण जानकारी एकदम सरल भाषा हिंदी में उपलब्ध करवा सके !

Share For Support:

Leave a Comment