Mikä on robots.txt?

Robots.txt on tärkeä osa hakukoneoptimointia – pieni mutta äärimmäisen tärkeä tekstimuotoinen tiedosto, joka sijaitsee verkkosivuston juurihakemistossa. Tiedoston tarkoituksena on antaa sivustoa tutkiville hakuboteille ohjeita ja tietoa siitä, mitä sivuja tai tiedostoja ne saavat tai eivät saisi indeksoida.

Sisällysluettelo

Mikä on robots.txt-tiedosto?

Robots.txt-tiedosto on verkkosivuston juurihakemistoon sijoitettu tekstitiedosto, joka ohjeistaa hakukoneiden indeksointirobotteja (kuten Googlebotia) siitä, mitä sivuja tai tiedostoja ne voivat tai eivät voi indeksoida. Tiedostoa käytetään verkkosivuston liikenteen hallintaan, epäolennaisen tai yksityisen sisällön indeksoinnin estopyynnöille sekä palvelinresurssien säästämiseen, eikä niinkään sivujen piilottamiseen hakutuloksista.

Robots.txt-tiedostoa käytetään pääasiassa estämään sivuston ylikuormittuminen turhilla pyynnöillä. Tiedosto ei siis ole se tapa, jolla sisältö pidetään poissa Googlen tuloksista. Tätä varten on “noindex”-tägi.

Miksi robots.txt-tiedosto on tärkeä?

Katsotaan esimerkki robots.txt-tiedoston toiminnasta:

— Sivusto: “Meillä on tuhansia turhia sivuja ilman SEO-arvoa.”
— Robots.txt: “Ei haittaa! Googlebot, tervetuloa crawlaamaan ne kaikki!”
— Googlebot: “Jätän väliin, crawling-budjettini teille loppui ajat sitten.”

Jos annat kaikkien, siis aivan kaikkien sisältöjen päästä läpi robots.txt-tiedoston seulan, hukkaat crawling-budjettiasi. Tällöin tärkeimmät sisältösi eivät pääse indeksiin eli Googlen tietokantaan, toisin sanoen hakutulossivulle.

Kun pyydät, ettei hakubotti indeksoi SEO-arvoltaan turhia ja merkityksettömiä sisältöjä, annat “lisätilaa” hyödyllisten sisältöjen tallentumiselle Googlen tietokantaan.

Mitkä sisällöt kannattaa sulkea indeksistä?

SEO-arvoltaan turhia sisältöjä ovat yleisimmin:

  • kirjautumissivut (wp-login, kirjaudu, jne.)
  • etsi-kenttä (search)
  • verkkokaupan facetoitu navigaatio (koko, väri, valmistaja, jne. eli facoitu navigaatio)
  • tietosuojaseloste ja käyttöehdot
  • blogien kategoriat (voivat muodostua tuplasisällöiksi)
  • blogien tägit (voivat muodostua tuplasisällöiksi)
  • pdf-tiedostot
  • ja kaikki sellainen sisältö, joka voi syödä crawling-budjettia turhaan ja vaikuttaa siten negatiivisesti tärkeiden sisältöjen indeksointiin.

Jos sisältö halutaan piilottaa Googlen tuloksista kokonaan, teet sen joko:

  • noindex-tagilla
  • tai suojaamalla sivun salasanalla.

Miten tarkistan robots.txt-tiedoston?

  • Kirjoita domainisi perään: /robots.txt
  • URL olisi tällöin muotoa: domain.fi/robots.txt

Jos käytössäsi on Google Search Console, voit testata määritetyt kiellot myös sen avulla.

Robots.txt-tiedoston perusteet

Käydään seuraavaksi läpi esimerkit robots.txt-tiedoston muodoista, komennoista ja direktiiveistä. Edetään askel askeleelta niin, että näet, mitä eri komennot tarkoittavat.

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/

  • User-agent tarkoittaa, minkä hakukoneen hakubottia puhutellaan.
  • Tähti (*) tarkoittaa, että säännöt koskevat kaikkia hakukoneita.
  • Disallow-komento kertoo hakuboteille, ettei niiden tule indeksoida tiettyä hakemistoa (kuten /wp-admin/).

Älä kuitenkaan estä kaikkia hakukoneita indeksoimasta kaikkia sisältöjä.

Jos kirjoittaisit koodin kuten alla, estäisit koko sivuston indeksoinnin kaikkine sisältöineen.

User-agent: *
Disallow: /

Kauttaviiva (/) tarkoittaa, että koko sivusto on estetty hakuboteilta.

Robots.txt-tiedosto, joka sallii kaikkien hakukoneiden indeksoida kaikki sivut, näyttää siis tältä:

User-agent: *
Disallow:

Mutta tätähän emme halua, sillä haluamme hakubotin indeksoivan vain tärkeimmät sisällöt.

Estä hakutulossivu (search bar)

Alla oleva lisäys /?s= pyytää kaikkia * hakubotteja indeksoimasta hakutulossivuja, jotka sisältävät kyselyparametrin. Nämä kannattaa poistaa, jotta et luo sivustolle kannibaali-urleja.

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /?s=

Estä kategoriat ja tägit

Kun lisäät listaan /category ja /tags, estät tälläkin tavoin tulpasisältöjen syntymisen. Kategoriat ovat blogissa esiintyviä kategorioita, tägit avainsanoja.

Huomioi, ettei näiden poissulkeminen robots.txt-tiedostolla muuta niiden toimintaa blogissa: lukija voi edelleen klikkailla kategorioita ja tägejä (jos ne ovat käytössä). Erona on se, ettei niitä päästetä indeksiin (tai ainakaan niille ei pyydetä pääsyä indeksiin).

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /?s=
Disallow: /category
Disallow: /tags

Robots.txt-tiedostoa voi kustomoida monella tavoin, myös visuaalisesti. Ehkä haluat lisätä omaasi brändisi logon, kuten Nike on tehnyt.

Esimerkki Nike-sivuston robots.txt-tiedostosta.
Esimerkki Nike-sivuston robots.txt-tiedostosta.

Jos haluat, ettei sisältö löydy ollenkaan Googlesta, käytä noindexiä

Huomaa, ettet voi käyttää sekä noindexiä ja robots.txt-tiedostoa:

  • Jos estät tietyn sivun robots.txt-tiedostossa ja laitat lisäksi sivulle noindex-tägin ikään kuin “tuplavarmistukseksi”, homma ei toimi oikein: tässä tapauksessa et anna googlebotille lupaa indeksoida sivua eli tutkia sitä.
  • Muista, ettei indeksointi tarkoita, että sisältö vielä nousee Googleen.
  • Googlebotin täytyy saada indeksoida eli tutkia sivu, jotta se tietää, että olet asettanut sille noindex-tägin.
  • Ja vain tällöin botti kunnioittaa komentoa, eikä nosta sitä Googleen.

Täältä löydät Googlen ohjeistuksen aiheen pariin.

Lue seuraavaksi, mitä XML-sivustokartat päivittävät sivustosi tiedot Googlen hakuroboteille, ja siksi niistä saa löytyä vain SEO-näkyvyydeltään relevantteja sekä 100% toimivia (HTTP 200) URL-osoitteita.

Picture of Marinella Himari
Marinella Himari
Fractional Head of SEO & European Search Awards 2026 finalist