Det er mulig å unngå å bli listet opp i eksterne søkmotorer som google.com ved hjelp av en protokollen kalt robots.txt, eller Robots Exclusion Standard. Dette er en enkel kommandolinje som gir beskjed til søkemotorer og andre tjenester at de ikke skal inkludere dine nettsider i sine oppslag.
Slik fungerer robots.txt
I praksis fungerer dette ved at du legger inn en egen kode på dine nettsider, og du trenger slett ikke være utdannet utvikler for å få til dette. I alle nettsider er det et HTML-dokument som ligger til grunn for hva du ser på skjermen. Når søketjenestene henter inn informasjon går de gjennom dette for å hente ut stikkord og samle informasjon for å gi sine kunder best mulig søketreff. Denne koden kan du selv legge inn på dine nettsteder for å unngå at disse listes i søketjenestene.
Om du selv har full kontroll over ditt nettsted gjøres dette i praksis ved at du oppretter et nytt dokument i enten Notepad (Windows) eller TextEdit (Mac). I dette dokumentet skriver du følgende:
User-agent: *
Disallow: /
Deretter lagrer du dette dokumentet som ”robots.txt” og laster det opp på toppnivået av ditt domene. Om ditt domene for eksempel heter www.test.no, så skal denne filen legges opp som en ny side som vil få adresselinjen www.test.no/robots.txt. Når søkemotorene går gjennom din side vil denne filen da gi beskjed om at de ikke skal liste dine sider i det hele tatt.
Det er også fullt mulig å be søkemotorene kun utelate kun noen av dine nettsider fra sin indeksering. Du kan også spesifisere hvilke søkemotorer du ønsker at skal liste opp dine sider og hvilke du vil unngå. For full oversikt over kommandoene du kan benytte kan du se på denne nettsiden (ekstern lenke, nytt vindu).
Har du ikke tilgang til serveren?
For å kunne gjennomføre det ovenstående kreves det at du har full tilgang til serveren som hoster ditt domene. Det er det ikke alltid en har. Det er likevel mulig å be søkemotorene holde seg unna, men da er du avhengig av hva slags muligheter din tjenesteleverandør tilbyr. Norske Blogg.no gir deg for eksempel mulighet til å huke av en klamme om du ikke vil at bloggen din skal listes av søkemotorer. Denne funksjonen kan du på samme måte også skru på hos VG blogg og andre tjenesteleverandører. Som oftest finner du denne muligheten under "alternativer" eller "innstillinger" på din profilside hos tjenesteleverandøren.
Hos Googles Blogger får du også samme mulighet. Her kan du også selv legge inn kode for å kontrollere tilgangen til bloggen din direkte. Dette gjør du i fanen som kalles ”mal” eller ”template”. Her kan du da legge inn følgende kode:
META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"
Denne koden kan du også benytte i andre nettjenester som godtar HTML-koding.
Merk at koden robots.txt ikke begrenser folks adgang til nettsiden, kun at den ikke dukker opp ved søk på søkemotorer. For å sperre tilgang til nettsiden må du heller sette på adgangsbegrensning via passord, eller spesifisere at kun utvalgte IP-adresser får tilgang til siden.