Kennisbank » SEO Techniek » Is SEO met robots.txt files vals spelen?

Is SEO met robots.txt files vals spelen?

15 maart 2010

Kenmerkend voor gebruik van het wereldwijde internet is dat alles open en bloot verschijnt. We schakelen zoekmachines in om precies dat te vinden wat we nodig hebben. Is het dan wel eerlijk als we niet alles op onze website door zoekmachines willen laten indexeren?


Op de vraag waarom we dat niet willen gaan we straks in. Eerst kijken hoe we dat doen.

Het beperken van toegang tot je website kan op verschillende manieren:
1. Via “index”, “follow”, “noindex” en “nofollow” in alle mogelijke combinaties op documentniveau
2. via het openen van pagina’s met Javascript
3. via robots.txt files aangeven welke spiderbots jouw pagina niet mogen lezen.

Met name de robots.txt files zijn interessant omdat je gericht kan selecteren welke User-agent/spiderbot je liever niet langs ziet komen. Dat dit een .txt bestand is betekent dat het uit tekst bestaat, bijvoorbeeld:

CODE:
1. User-agent: Googlebot
2. Disallow: /

Een vrij gevaarlijk voorbeeld omdat Googlebot de User-agent van Google is.
De forward slash achter Disallow betekent dat je gehele webserver root directory niet mag worden geïndexeerd. Als je de deur voor Googlebot hebt dichtgegooid, geldt voor de rest van de zoekmachinewereld ‘vrije toegang’ oftewel:

CODE:
1. User-agent: *
2. Disallow:

Wat laat ik niet indexeren?
Hoog tijd voor de vraag waarom je spiderbots uitsluit. Robots.txt files hebben niets te maken met iets als secret files. Als zoekmachines de uitgesloten bestanden niet kunnen lezen, kan de rest van de wereld dat in principe wel.
We noemen 4 mogelijke redenen en we horen er graag meer:
1. Op je site staat een testpagina en die zie je niet graag geïndexeerd worden
2. Je hebt liever niet dat je boordevolle pagina Links meedoet in de waardering van je site
3. Je wilt voorkomen dat zoekmachines met META spiders je resultatenpagina’s gebruiken om efficiënt links op te halen
4. Je hebt een intranet omgeving waar vindbaarheid eigenlijk geen rol speelt en je wilt dat deze gegevens niet openbaar worden

Het plaatsen van robots.txt files is echter best handig, ook al hebben we niets te verbergen. Wat gebeurt er? Zoekmachines indexeren je website en zien een robots.txt file staan. Ze kunnen, als ze de genoemde User-agent zijn, de inhoud niet lezen, maar ze zien de disallow wel staan. Hoe reageren ze hierop? Het komt niet direct als verdacht over, maar wel als nuttig. Dankzij robots.txt files kunnen zoekmachines je site sneller indexeren en dat vinden ze fijn.

Allow tegenover disallow
Handig om te weten is dat Google niet alleen een ‘disallow’ leest, maar ook een ‘allow’. Dat lijkt overdreven – geen ‘disallow’ = ‘allow’ – maar je geeft bijvoorbeeld aan dat Googlebot bepaalde bestanden niet mag bekijken terwijl dat de AdSense bot de advertenties wel mag indexeren. Allow en disallow komen daardoor altijd samen voor:

CODE:
1. User-agent: Googlebot
2. Disallow: /tags/
3. # MediaPartners-Google = AdSense bot
4. User-agent: MediaPartners-Google
5. Allow: /tags/

Achter het hash/pound karakter 3. staat iets wat spiderbots niet kunnen lezen. Hier vul je iets in voor jezelf; zoals hier de toegang van de AdSense bot via de Google string. Gebruik maken van robots.txt files is niet vals spelen, maar spelen met spelregels.

Houd je kennis op peil

Ontvang onze artikelen.