Wil je bepaalde delen of zelfs je complete website niet laten weergeven in de resultaten van zoekmachines zoals Google, dan kun je dat doen met behulp van een robots.txt bestand.
Een robots.txt bestand is een tekstbestand met instructies voor het doorzoeken van robots van een website. Het is een manier om te communiceren met webcrawlers en andere webrobots over welke inhoud is toegestaan voor openbare toegang en welke delen worden afgeschermd.
Robots.txt niet altijd nodig
Niet elke website heeft een robots.txt bestand nodig. En als je delen van je website afschermt die juist goed zijn voor je score bij Google, dan is dat niet zo slim.
Instructies van een robots.txt bestand
In een robots.txt bestand staan maar drie soorten instructies:
- User-agent
Voor wie zijn de instructies bedoeld (voor alle zoekmachines of voor bepaalde) - Disallow
Afgeschermd - Allow
Niet afgeschermd, toegankelijk
Het Allow commando hoeft meestal niet gebruikt te worden. Standaard zijn namelijk alle mappen en bestanden van een website toegankelijk voor zoekmachines. Maar soms is het Allow commando nodig als je een map afschermt, maar een of meer submappen niet.
Voorbeelden robots.txt bestand
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Het sterretje achter User-agent betekent ‘alle user agents’. De regels die volgen zijn dus geldig voor alle zoekmachines.
Alle mappen en bestanden in de map wp-admin zijn niet toegankelijk.
Echter, het bestand admin-ajax.php in de map wp-admin is wel toegankelijk.
User-agent: Bingbot
Disallow: /
De regels zijn geldig voor zoekmachine Bing (Bingbot).
De /slash achter Disallow betekent dat alle pagina’s van het domein niet toegankelijk zijn. Kortom, de complete website moet onzichtbaar zijn in de zoekmachineresultaten van Bing.
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /afbeeldingen/
Voor alle zoekmachines geldt dat er geen toegang is tot de mappen cgi-bin, tmp en afbeeldingen (en alle bestanden die zich daarin bevinden). Overige mappen en bestanden zijn gewoon toegankelijk.
Hoe maak je een robots.txt bestand?
Methode 1: Kladblok en FTP
Een robots.txt bestand maken is makkelijk. Je opent op je computer Kladblok en je typt daarin de instructies. Daarna sla je het bestand op als robots.txt
Gebruik alleen kleine letters voor de bestandsnaam. Plaats het bestand met een FTP-programma in de hoofdmap van je website. De hoofdmap is bij Stip Hosting domains/jedomeinnaam/public_html of domains/jedomeinnaam/private_html.
Methode 2: DirectAdmin
Je kunt ook via DirectAdmin een robots.txt bestand maken.
- Log in in DirectAdmin.
- Klik onder het kopje System & File Info op File Manager.
- Klik vervolgens op de mappen domains > jedomeinnaam > public_html (of ga naar de map private_html als je website niet in de map public_html staat).
- Scrol naar beneden en klik in de balk aan de linkerkant op Create File.
- Typ in het vakje bij File Name de bestandsnaam robots.txt en klik op de knop Create. Het bestand wordt nu aangemaakt.
- Ga met je muiswijzer staan op het bestand robots.txt en klik in het menu op Edit File.
- Plaats de regels en klik op de knop Save om de wijzigingen op te slaan.
Methode 3: via het CMS van je website
Niet elk CMS heeft de mogelijkheid om een robots.txt bestand te maken en te bewerken. In WordPress zit die mogelijkheid niet in ingebouwd, maar veel mensen gebruiken de plugin Yoast SEO en daarmee kun je wel een robots.txt bestand maken. Klik in het menu op SEO > Extra. Klik op de link Bestandsbewerker en klik daarna op de knop Maak robots.txt bestand aan. Voer de instructies in en sla het bestand op.
Correct gebruik van het robots.txt bestand
Geheimen
Geheimen verberg je niet met een robots.txt bestand. Bezoekers kunnen afgeschermde pagina’s op een andere manier vinden. Ook is een zoekmachine niet verplicht om zich te houden aan de instructies van het robots.txt bestand. De meeste zoekmachines respecteren het, maar er zijn ook zoekmachines die de instructies compleet negeren. En als er andere sites zijn die naar een pagina verwijzen die je afschermt met een robots.txt bestand, dan zal de pagina toch in de zoekresultaten van de zoekmachine verschijnen.
Openbaar
Het robots.txt bestand is openbaar en dus door bezoekers te bekijken. Als een website zo’n bestand heeft en je typt je domeinnaam met daarachter /robots.txt dan kun je dit bestand inzien. De bezoeker kan dus zien wat je probeert af te schermen en deze pagina’s dan juist bezoeken.
Veiligheid
Veel CMS’en maken tijdens de installatie een robots.txt bestand aan om mappen en bestanden waar zoekmachines niets te zoeken hebben af te schermen. Dit wordt gedaan om veiligheidsredenen: scripts die mogelijk lekken bevatten worden buiten de zoekmachineresultaten worden gehouden. De waarde hiervan is beperkt omdat er genoeg andere manieren zijn om lekke scripts in een site op te sporen, maar het kan zeker ook geen kwaad.
Joomla robots.txt
Het standaard robots.txt bestand van Joomla ziet er zo uit:
User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/
WordPress
Bij de installatie van WordPress wordt geen robotx.txt bestand aangemaakt, maar toch krijg je een robots.txt bestand te zien als je /robots.txt achter de domeinnaam typt. WordPress maakt namelijk een virtueel robotx.txt bestand aan met onderstaande inhoud.
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Het bestand admin-ajax.php wordt door de pagina’s van WordPress gebruikt voor de correcte weergave en kun je beter niet blokkeren.
Andere commando’s
Er zijn nog wat commando’s die je kunt gebruiken in het robots.txt bestand zoals Crawl-delay en Sitemap, maar deze commando’s worden genegeerd door de meeste crawlers of in andere gevallen niet juist geïnterpreteerd. Gebruik voor sitemaps andere tools, zoals Google Search Console in combinatie met een bestand sitemap.xml