- Julkaistu:
Mikä robots.txt on?
Robots.txt on tärkeä osa hakukoneoptimointia – pieni mutta äärimmäisen tärkeä tekstimuotoinen tiedosto, joka sijaitsee verkkosivuston juurihakemistossa. Tiedoston tarkoituksena on antaa sivustoa tutkiville hakuboteille ohjeita ja tietoa siitä, mitä sivuja tai tiedostoja ne saavat tai eivät saisi indeksoida.
Tässä artikkelissa käsitellään robots.txt-tiedoston rakennetta ja hyödyntämistä osana teknisen SEO:n optimointia. Aloitetaan perusteista, minkä jälkeen syvennyt teknisiin yksityiskohtiin ja käytännön vinkkeihin.
Miksi robots.txt-tiedosto on tärkeä?
Katsotaan esimerkki robots.txt-tiedoston toiminnasta:
— Sivusto: “Meillä on tuhansia turhia sivuja ilman SEO-arvoa.”
— Robots.txt: “Ei haittaa! Googlebot, tervetuloa crawlaamaan ne kaikki!”
— Googlebot: “Jätän väliin, crawling-budjettini teille loppui ajat sitten.”
Jos annat kaikkien, siis aivan kaikkien sisältöjen päästä läpi robots.txt-tiedoston seulan, hukkaat crawling-budjettiasi. Tällöin tärkeimmät sisältösi eivät pääse indeksiin eli Googlen tietokantaan, toisin sanoen hakutulossivulle.
Kun pyydät, ettei hakubotti indeksoi SEO-arvoltaan turhia ja merkityksettömiä sisältöjä, annat “lisätilaa” hyödyllisten sisältöjen tallentumiselle Googlen tietokantaan.
Mikä on robots.txt-tiedoston käyttötarkoitus?
Robots.txt-tiedosto kertoo hakuboteille, mitkä URL-osoitteet niillä on lupa tutkia, indeksoida ja nostaa hakukoneiden hakutuloksiin. Tiedostolla voidaan pyytää mutta ei pakottaa, ettei hakubotti käytä crawling-budjettiaan turhien sivujen tutkimiseen. Turhilla sivuilla tarkoitetaan sisältöjä, joilla ei ole SEO-näkyvyydellistä arvoa.
Tiedoston tarkoitus on siis allokoida hakubotin aika näkyvyyden kannalta tärkeiden sivujen indeksointiin.
Robots.txt-tiedostoa käytetään pääasiassa estämään sivuston ylikuormittuminen turhilla pyynnöillä. Tiedosto ei siis ole se tapa, jolla sisältö pidetään poissa Googlen tuloksista. Tätä varten on noindex-tagi.
Mitkä sisällöt ovat SEO-näkyvyydeltään turhia?
SEO-arvoltaan turhia sisältöjä ovat yleisimmin:
- kirjautumissivut (wp-login, kirjaudu, jne.)
- etsi-kenttä (search)
- filtterit (koko, väri, valmistaja, jne.)
- tietosuojaseloste ja käyttöehdot
- blogien kategoriat (voivat muodostua tuplasisällöiksi)
- blogien tägit (voivat muodostua tuplasisällöiksi)
- pdf-tiedostot
- ja kaikki sellainen sisältö, joka voi syödä crawling-budjettia turhaan ja vaikuttaa siten negatiivisesti tärkeiden sisältöjen indeksointiin.
Jos sisältö halutaan piilottaa Googlen tuloksista kokonaan, teet sen joko:
- noindex-tagilla
- tai suojaamalla sivun salasanalla.
Miten tarkistan robots.txt-tiedoston?
- Kirjoita domainisi perään /robots.txt
- URL olisi tällöin muotoa: domain.fi/robots.txt
Robots.txt-tiedoston perusteet
Käydään seuraavaksi läpi esimerkit robots.txt-tiedoston muodoista, komennoista ja direktiiveistä. Edetään askel askeleelta niin, että näet, mitä eri komennot tarkoittavat.
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/ - User-agent tarkoittaa, minkä hakukoneen hakubottia puhutellaan.
- Tähti (*) tarkoittaa, että säännöt koskevat kaikkia hakukoneita.
- Disallow-komento kertoo hakuboteille, ettei niiden tule indeksoida tiettyä hakemistoa (kuten /wp-admin/).
Älä kuitenkaan estä kaikkia hakukoneita indeksoimasta kaikkia sisältöjä.
Jos kirjoittaisit koodin kuten alla, estäisit koko sivuston indeksoinnin kaikkine sisältöineen.
User-agent: *
Disallow: / Kauttaviiva (/) tarkoittaa, että koko sivusto on estetty hakuboteilta.
Robots.txt-tiedosto, joka sallii kaikkien hakukoneiden indeksoida kaikki sivut, näyttää siis tältä:
User-agent: *
Disallow: Mutta tätähän emme halua, sillä haluamme hakubotin indeksoivan vain tärkeimmät sisällöt.
Estä hakutulossivu (search bar)
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /?s= Estä kategoriat ja tägit
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /?s=
Disallow: /category
Disallow: /tags Jos haluat, estä ChatGTP
Jos et halua, että ChatGTP:n botti imaisee sivustosi sisällöt ja hyödyntää niitä omissa sisällöissään, voit estää botin lisäämällä uuden komennon, kuten kuvassa alla.
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /?s=
Disallow: /category
Disallow: /tags
User-agent: GPTBot
Disallow: /
Kuten huomaat, tekoälybotin pääsy on estetty sivustolle käyttämällä kenoviiva-komentoa, joka estää sen pääsyn kaikkiin sisältöihin.
Hyvä tietää: Yleisesti ottaen hakubotit noudattavat ja kunnioittavat robots.txt-tiedoston määritteitä. On kuitenkin hyvä muistaa, että ainoa tapa estää sisällön nouseminen hakutuloksiin 100% on joko asettaa ko. sisällölle noindex-tägi tai vaihtoehtoisesti suojata sisältö salasanalla.
Välikevennys (Niken esimerkki)
Robots.txt-tiedostoa voi kustomoida monella tavoin, myös visuaalisesti. Ehkä haluat lisätä omaasi brändisi logon, kuten Nike on tehnyt.
Näin voit tarvittaessa päivittää robots.txt-tiedostoa
Helpoiten päivität robots.txt-tiedostoa AIOSEO:n avulla.
- Siirry WordPressin dashboardille
- Klikkaa vasemmasta pystynavigaatiosta All in One SEO > Tools
- Ja sinulle aukeaa alla oleva näkymä.
Tämän jälkeen:
- Varmista, että Enable Custom Robots.txt on aktiivinen
- Klikkaa Lisää sääntö
- Täytä tarvittavat tiedot (kuvan tapauksessa sinulle aukeaisi rivi 6)
- Tallenna muutokset: Save Changes
Jos haluat, ettei sisältö löydy ollenkaan Googlesta
Käytät noindex-tägiä.
Huomaa, ettet voi käyttää sekä noindexiä ja robots.txt-tiedostoa:
- Jos estät tietyn sivun robots.txt-tiedostossa ja laitat lisäksi sivulle noindex-tägin ikään kuin “tuplavarmistukseksi”, homma ei toimi oikein: tässä tapauksessa et anna googlebotille lupaa indeksoida sivua eli tutkia sitä.
- Muista, ettei indeksointi tarkoita, että sisältö vielä nousee Googleen.
- Googlebotin täytyy saada indeksoida eli tutkia sivu, jotta se tietää, että olet asettanut sille noindex-tägin.
- Ja vain tällöin botti kunnioittaa komentoa, eikä nosta sitä Googleen.
Riippuen siitä, mitä SEO-lisäosaa käytät, yllä oleva toiminnallisuus näyttää erilaiselta.
Tässä tapauksessa käytössä on aiemmin mainitsemani AIOSEO.
- Kun muokkaat mitä tahansa sisältöä backendissä eli sivuston dashboardilla, löydät AIOSEO Settings -osion tekstisisällön alta.
- Klikkaa Advanced.
- Use Default Settings on oletuksena aktiivinen: klikkaa se pois päältä.
- Aktivoi Robots meta -otsikon alta No index.
- Ja muista tallentaa ja julkaista muutokset.
Lue seuraavaksi
XML-sivustokartat päivittävät sivustosi tiedot Googlen hakuroboteille, ja siksi niistä saa löytyä vain SEO-näkyvyydeltään relevantteja sekä 100% toimivia (HTTP 200) URL-osoitteita.


