Robots.txt-tiedosto

06/12/2024By Marinella Himari

Päivitetty: 16. joulukuuta 2024

Robots.txt-tiedosto kertoo hakuboteille, mitkä URL-osoitteet niillä on lupa tutkia, indeksoida ja nostaa hakukoneiden hakutuloksiin.
Jos annat kaikkien sisältöjen päästä läpi robots.txt-tiedoston seulan, hukkaat crawlin-budjettiasi.
Robots.txt-tiedostoa käytetään pääasiassa estämään sivuston ylikuormittuminen turhilla pyynnöillä.
Jos haluat estää tai poistaa sisällön indeksistä 100%, käytä noindex-tägiä.

Mikä robots.txt on?

Robots.txt on tärkeä osa hakukoneoptimointia – pieni mutta äärimmäisen tärkeä tekstimuotoinen tiedosto, joka sijaitsee verkkosivuston juurihakemistossa. Tiedoston tarkoituksena on antaa sivustoa tutkiville hakuboteille ohjeita ja tietoa siitä, mitä sivuja tai tiedostoja ne saavat tai eivät saisi indeksoida.

Tässä artikkelissa käsitellään robots.txt-tiedoston rakennetta ja hyödyntämistä osana teknisen SEO:n optimointia. Aloitetaan perusteista, minkä jälkeen syvennyt teknisiin yksityiskohtiin ja käytännön vinkkeihin.

Miksi robots.txt-tiedosto on tärkeä?

Katsotaan esimerkki robots.txt-tiedoston toiminnasta:

— Sivusto: “Meillä on tuhansia turhia sivuja ilman SEO-arvoa.”
— Robots.txt: “Ei haittaa! Googlebot, tervetuloa crawlaamaan ne kaikki!”
— Googlebot: “Jätän väliin, crawling-budjettini teille loppui ajat sitten.”

Jos annat kaikkien, siis aivan kaikkien sisältöjen päästä läpi robots.txt-tiedoston seulan, hukkaat crawling-budjettiasi. Tällöin tärkeimmät sisältösi eivät pääse indeksiin eli Googlen tietokantaan, toisin sanoen hakutulossivulle.

Kun estät SEO-arvoltaan turhien ja merkityksettömien sivujen indeksoinnin, annat “lisätilaa” hyödyllisten sisältöjen tallentumiselle Googlen tietokantaan.

Mikä on robots.txt-tiedoston käyttötarkoitus?

Robots.txt-tiedosto kertoo hakuboteille, mitkä URL-osoitteet niillä on lupa tutkia, indeksoida ja nostaa hakukoneiden hakutuloksiin. Tiedostolla voidaan pyytää, ettei hakubotti käytä crawling-budjettiaan turhien sivujen tutkimiseen. Turhilla sivuilla tarkoitetaan sisältöjä, joilla ei ole SEO-näkyvyydellistä arvoa.

Tiedoston tarkoitus on siis allokoida hakubotin aika näkyvyyden kannalta tärkeiden sivujen indeksointiin.

Robots.txt-tiedostoa käytetään pääasiassa estämään sivuston ylikuormittuminen turhilla pyynnöillä. Tiedosto ei siis ole se tapa, jolla sisältö pidetään poissa Googlen tuloksista. Tätä varten on noindex-tagi.

Mitkä sisällöt ovat SEO-näkyvyydeltään turhia?

SEO-arvoltaan turhia sisältöjä ovat yleisimmin:

kirjautumissivut (wp-login, kirjaudu, jne.)
etsi-kenttä (search)
filtterit (koko, väri, valmistaja, jne.)
tietosuojaseloste ja käyttöehdot
blogien kategoriat (voivat muodostua tuplasisällöiksi)
blogien tägit (voivat muodostua tuplasisällöiksi)
pdf-tiedostot
ja kaikki sellainen sisältö, joka voi syödä crawling-budjettia turhaan ja vaikuttaa siten negatiivisesti tärkeiden sisältöjen indeksointiin.

Jos sisältö halutaan piilottaa Googlen tuloksista kokonaan, teet sen joko:

noindex-tagilla
tai suojaamalla sivun salasanalla.

Näin tarkistat, löytyykö sivustoltasi robots.txt-tiedosto

Kirjoita domainisi perään /robots.txt
URL olisi tällöin muotoa: domain.fi/robots.txt

Jos käytössäsi on Google Search Console, testaa robots.txt-tiedostolla määritetyt kiellot GSC:n avulla.

Tarkista seuraavaksi indeksoituneiden sisältöjen määrä

Tarkista, onko Googlen indeksiin lipsahtanut turhia sisältöjä, joilla ei ole näkyvyydellistä arvoa. Nämä sisällöt kannattaa nimittäin poistaa indeksistä noindex-tägillä, jotta hakubotti ei käytä niiden tutkimiseen enempää aikaa.

Näin tarkistat indeksoituneiden sisältöjen määrän:

kirjoita hakukenttään site:sivustosinimi.fi
saat näkyville kaikki verkkosivustosi sisällöt, jotka ovat indeksoituneet Googleen
jos haluat etsiä tiettyä sisältöä tai aihekokonaisuutta:
- site:sivustosinimi.fi aihe
tällä tavoin saat näkyville kaikki ko. aihetta käsittelevät sisällöt.

Jos huomaat, että tuloksiin on noussut turhia sivuja, poista ne noindex-tägillä.

Robots.txt-tiedoston perusteet ABC

Käydään seuraavaksi läpi esimerkit robots.txt-tiedoston muodoista, komennoista ja direktiiveistä. Edetään askel askeleelta niin, että näet, mitä eri komennot tarkoittavat.

User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/

User-agent tarkoittaa, minkä hakukoneen hakubottia puhutellaan.
Tähti (*) tarkoittaa, että säännöt koskevat kaikkia hakukoneita.
Disallow-komento kertoo hakuboteille, ettei niiden tule indeksoida tiettyä hakemistoa (kuten /wp-admin/).

Älä kuitenkaan estä kaikkia hakukoneita indeksoimasta kaikkia sisältöjä.

Jos kirjoittaisit koodin kuten alla, estäisit koko sivuston indeksoinnin kaikkine sisältöineen.

User-agent: * Disallow: /

Kauttaviiva (/) tarkoittaa, että koko sivusto on estetty hakuboteilta.

Robots.txt-tiedosto, joka sallii kaikkien hakukoneiden indeksoida kaikki sivut, näyttää siis tältä:

User-agent: * Disallow:

Mutta tätähän emme halua, sillä haluamme hakubotin indeksoivan vain tärkeimmät sisällöt.

Estä hakutulossivu (search bar)

Alla oleva lisäys /?s= pyytää kaikkia * hakubotteja indeksoimasta hakutulossivuja, jotka sisältävät kyselyparametrin. Nämä kannattaa poistaa, jotta et luo sivustolle kannibaali-urleja.

User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /?s=

Estä kategoriat ja tägit

Kun lisäät listaan /category ja /tags, estät tälläkin tavoin tulpasisältöjen syntymisen. Kategoriat ovat blogissa esiintyviä kategorioita, tägit avainsanoja. Huomioi, ettei näiden poissulkeminen robots.txt-tiedostolla muuta niiden toimintaa blogissa: lukija voi edelleen klikkailla kategorioita ja tägejä (jos ne ovat käytössä). Erona on se, ettei niitä päästetä indeksiin.

User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /?s= Disallow: /category Disallow: /tags

Jos haluat, estä ChatGTP

Jos et halua, että ChatGTP:n botti imaisee sivustosi sisällöt ja hyödyntää niitä omissa sisällöissään, voit estää botin lisäämällä uuden komennon, kuten kuvassa alla.

User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /?s= Disallow: /category Disallow: /tags

User-agent: GPTBot Disallow: /

Kuten huomaat, tekoälybotin pääsy on estetty sivustolle käyttämällä kenoviiva-komentoa, joka estää sen pääsyn kaikkiin sisältöihin.

Hyvä tietää: Yleisesti ottaen hakubotit noudattavat ja kunnioittavat robots.txt-tiedoston määritteitä. On kuitenkin hyvä muistaa, että ainoa tapa estää sisällön nouseminen hakutuloksiin 100% on joko asettaa ko. sisällölle noindex-tägi tai vaihtoehtoisesti suojata sisältö salasanalla.

Välikevennys

Robots.txt-tiedostoa voi kustomoida monella tavoin, myös visuaalisesti. Ehkä haluat lisätä omaasi brändisi logon, kuten Nike on tehnyt.

Esimerkki Nike-sivuston robots.txt-tiedostosta.

Näin voit tarvittaessa päivittää robots.txt-tiedostoa

Helpoiten päivität robots.txt-tiedostoa AIOSEO:n avulla.

Siirry WordPressin dashboardille
Klikkaa vasemmasta pystynavigaatiosta All in One SEO > Tools
Ja sinulle aukeaa alla oleva näkymä.

Tämän jälkeen:

Varmista, että Enable Custom Robots.txt on aktiivinen
Klikkaa Lisää sääntö
Täytä tarvittavat tiedot (kuvan tapauksessa sinulle aukeaisi rivi 6)
Tallenna muutokset: Save Changes

Jos haluat, ettei sisältö löydy ollenkaan Googlesta

Käytät noindex-tägiä.

Huomaa, ettet voi käyttää sekä noindexiä ja robots.txt-tiedostoa:

Jos estät tietyn sivun robots.txt-tiedostossa ja laitat lisäksi sivulle noindex-tägin ikään kuin “tuplavarmistukseksi”, homma ei toimi oikein: tässä tapauksessa et anna googlebotille lupaa indeksoida sivua eli tutkia sitä.
Muista, ettei indeksointi tarkoita, että sisältö vielä nousee Googleen.
Googlebotin täytyy saada indeksoida eli tutkia sivu, jotta se tietää, että olet asettanut sille noindex-tägin.
Ja vain tällöin botti kunnioittaa komentoa, eikä nosta sitä Googleen.

Riippuen siitä, mitä SEO-lisäosaa käytät, yllä oleva toiminnallisuus näyttää erilaiselta.

Tässä tapauksessa käytössä on aiemmin mainitsemani AIOSEO.

Kun muokkaat mitä tahansa sisältöä backendissä eli sivuston dashboardilla, löydät AIOSEO Settings -osion tekstisisällön alta.
Klikkaa Advanced.
Use Default Settings on oletuksena aktiivinen: klikkaa se pois päältä.
Aktivoi Robots meta -otsikon alta No index.
Ja muista tallentaa ja julkaista muutokset.

Lue seuraavaksi

XML-sivustokartat päivittävät sivustosi tiedot Googlen hakuroboteille, ja siksi niistä saa löytyä vain SEO-näkyvyydeltään relevantteja sekä 100% toimivia (HTTP 200) URL-osoitteita.

Opi, miten päivität sivustokartat vastaamaan Googlen toiveita