Hakubotti eli verkkomönkijä crawlaa (tutkii eli “mönkii”) sivustoasi kerätäkseen tietoa sisällöistäsi erilaisia käyttötarkoituksia varten. Osa näistä on hyviä, osa ei-toivottuja. Paras tarkoitus on parantaa verkkosivujen asemaa hakutuloksissa. Huonoin tilanne on, että botti hyökkää sivustollesi ja anastaa arkaluontoisia tietoja.
Statistan joulukuussa (2024) julkaistun tutkimuksen mukaan suurin osa maailmanlaajuisesta verkkoliikenteestä on edelleen ihmisten tuottamaa – mutta hakubottien synnyttämä liikenne kasvaa jatkuvasti.
Lisäksi tutkimuksesta selviää, että niin sanotusti huonojen ja ei-toivottujen bottien kautta kulkevan vilpillisen liikenteen osuus maailmanlaajuisesta verkkoliikenteestä oli jopa 32%. Tämä merkitsee 1,8% kasvua edellisvuodesta.
Hakubotteja on paljon: osa hyviä, osa huonoja eli sellaisia, joiden ei toivota vierailevan omalla sivustolla.
Tämän vuoksi on tärkeää, että ymmärrät, mitkä boteista voit kutsua sivustollesi. Tämän tiedon puolestaan kerrot oikein optimoidulla robots.txt-tiedostolla sekä verkkosivuston muilla tietoturvatoimilla.
Käydään tässä artikkelissa läpi, mitä nämä hakukoneoptimointiin ja sivuston turvallisuuteen liittyvät crawlerit ovat, miten ne toimivat ja millaista tietoa ne sivustoltasi etsivät. Artikkelin lopusta voit lukea, miten suojaat verkkosivustosi ei-toivotuilta indeksoijilta.
Mikä on hakubotti eli crawleri?
Hakubotti eli crawleri (webcrawler) on automatisoitu ohjelma, joka crawlaa eli tutkii verkkosisältöjä. Tarkoituksena on kerätä tietoa useimmiten hyviin, toisinaan epäeettisiin tarkoituksiin. Hyvissä tilanteissa juuri hakubotit mahdollistavat sisältöjen nousemisen esimerkiksi Googlen hakutuloksiin.
Mihin hakubotteja eli indeksoijia käytetään?
Hakuboteilla on useita tarkoituksia:
- Hakubotit auttavat hakukoneita (kuten Google, Bing ja Yahoo) päivittämään hakutuloksiaan eli sitä, mikä sisältö näkyy milläkin sijoituksella.
- Sovelluspohjaiset botit mahdollistavat sivustojen auditoinnin eli niin kutsutun tiedonlouhinnan.
- Verkkosivuston omistajana käytät esimerkiksi Google Search Consolea, jonka avulla voit tarkistaa rikkonaiset linkit, sivuston suorituskyvyn sekä sisällön ajantasaisuuden.
- Lisäksi esimerkiksi hintavertailusivustot käyttävät hakubotteja kerätäkseen ja kootakseen tietoa useista lähteistä – ja tämä on usein esimerkki crawlerista, jonka vierailua sivustollasi voit haluta välttää.
Yleisimmät hakubotit vuonna 2025
Käydään seuraavaksi läpi yleisimmät hakubotit. Kun ymmärrät niiden toiminnan, voit optimoida paremmin sivustosi hakukonenäkyvyyttä sekä hallita palvelimen resursseja tehokkaammin (eli et hukkaa crawling-budjettiasi turhaan).
Googlebot
- Virallinen nimi: Googlebot
- Hyödyllinen.
Googlebot on Googlen ensisijainen indeksointibotti, joka skannaa verkkoa löytääkseen uutta ja päivitettyä sisältöä. Tarkoitus on tietenkin nostaa nämä sisällöt Googlen hakuindeksiin.
Primäärin indeksoijan lisäksi on olemassa muitakin botteja, kuten:
- Googlebot-Image
- Googlebot-News
- Storebot-Google
- Google-InspectionTool
- GoogleOther
- GoogleOther-Video
- ja Google-Extended.
Slurp
- Virallinen nimi: Slurp (kyllä)
- Hyödyllinen.
Slurp on Yahoon indeksointibotti. Slurp tutkii verkkosivustoja kerätäkseen tietoa Yahoon hakutuloksia sekä sen omaan toimintaan liittyviä palveluja varten.
Bingbot
- Virallinen nimi: Bingbot
- Hyödyllinen.
Vaikka Googlebot on boteista suosituin, vuonna 2024 Bingin maailmanlaajuinen markkinaosuus oli jopa 10,5%. Kun nettiä käyttää useampi miljardi ihmistä, tämä prosenttiosuus on itse asiassa melko suuri.
Applebot
- Virallinen nimi: Applebot
- Hyödyllinen Applen käyttäjille.
Applebot on Applen tuloksille dedikoitu botti, jota käytetään Sirin ja Spotlightin sisältöehdituksissa. Botin tarkoituksena on parantaa Applen hakuominaisuuksia nimenomaan sen omien laitteiden ja palveluiden sisällä.
Baiduspider
- Virallinen nimi: Baiduspider
- Hyödyllinen, jos markkinoit Kiinassa.
Baiduspider on Kiinan suurimman hakukoneen (Baidun) pääbotti, joka indeksoi pääasiassa kiinankielistä verkkosisältöä mutta myös kansainvälisiä verkkosivustoja. Mikäli liiketoimintasi yltää Kiinaan, sinun kannattaa sallia Baiduspiderin vierailu verkkosivustollasi.
Yeti
- Virallinen nimi: Yeti
- Maakohtaisesti hyödyllinen.
Yeti on Naverin eli “Etelä-Korean Googlen” käyttämä indeksointiohjelma. Naverilla on yli 42 miljoonaa rekisteröitynyttä käyttäjää, ja hakubotin tarkoituksena on toimia kuten muidenkin: kerätä tietoa ja indeksoida sisältöjä.
YandexBot
- Virallinen nimi: YandexBot
- Maakohtaisesti hyödyllinen.
YandexBot on Yandexin hakukoneen oma botti, joka mönkii sisältöjä pääasiassa Venäjällä, Kazakstanissa, Valko-Venäjällä, Turkissa ja muissa maissa, joissa asuu paljon venäjänkielisiä ihmisiä.
CCBot
- Virallinen nimi: CCbot
- Hyödyllinen.
CCbotia käyttävä Common Crawl on voittoa tavoittelematon säätiö, jonka tavoitteena on demokratisoida verkkotiedon saatavuutta tuottamalla ja ylläpitämällä avointa verkkotietovarantoa, joka on kaikkien saatavilla ja analysoitavissa.
Esimerkiksi tutkijat, yritykset ja sovelluskehittäjät voivat vapaasti käyttää näitä tietoja omassa työssään.
DuckDuckBot
- Virallinen nimi: DuckDuckBot
- Hyödyllinen.
DuckDuckBot on hakujen yksityyttä korostavan DuckDuckGo:n oma crawleri, jonka avulla hakukone indeksoi verkkosisältöjä ja noudattaa omaa yksityisyydensuojaansa koskevia periaatteita.
LinkedInBot
- Virallinen nimi: LinkedInBot
- Hyödyllinen.
Kuten muutkin sosiaalisen median crawlerit, LinkedInBotin tarkoituksena on nostaa sisältöjen artikkelikuvat (featured image) sekä metatiedot (otsikko ja lyhyt kuvaus) omalla alustallaan jaettujen sisältöjen yhteyteen. Puhutaan siis sisältöjen esikatselutiedoista.
Samalla tavoin toimivat myös Twitterbot (X), Pinterestbot sekä Facebook External Hit.
GPTBot
- Virallinen nimi: GPTBot
- Osalle hyödyllinen.
GPTBot on OpenAI:n oma botti, jonka toimintaa pidetään myös osin kiistanalaisena. Botin avulla kerätään tietoja muun muassa GPT-sarjan tekoälymallien kouluttamiseen ja parantamiseen.
Muita AI-botteja ovat muiden muassa ScraperAPI, Octoparse, ParseHub, Browse AI, Crawl4AI ja PerplexityBot.
Kuinka suojata verkkosivusto haitallisilta boteilta?
Ei-toivottu botti on ohjelmoitu suorittamaan tehtäviä, joiden tarkoitus on vahingoittaa sivustosi toimintaa; epäeettiset botit eivät kunnioita robots.txt-tiedoston sääntöjä.
Toimenpiteen voi toteuttaa huijaustaho, toisinaan myös oma kilpailija (kuten eräälle asiakkaalleni kävi).
Kuten kaikki crawlerit, myös epäeettiset sellaiset kehittyvät. Jos aiemmin huonosti käyttäytyvä botti oli suhteellisen helppo tunnistaa, nykyisin moni – niin käyttäjä kuin ohjelma – menee tahtomattaan harhaan.
Käydään ensin läpi muutama esimerkki, minkä jälkeen saat ohjeita epäeettisen crawlauksen torjumiseen.
Layer 7 DDoS
DDoS on lyhenne sanoista Distributed Denial of Service. Niin kutsutuissa Layer 7 DDoS -hyökkäyksissä bottien tarkoituksena on kuormittaa prosesseja ja niiden toimintoja niin kauan, kunnes sivustosi, sovelluksesi tai rajapintasi toiminta hidastuu merkittävästi tai kaatuu kokonaan.
Web Scraping eli sisältöjen luvaton käyttö
Scraperit imaisevat eli varastavat sivustoltasi hintatiedot, tuotekuvaukset tai muun arvokkaan sisällön ja käyttävät sitä omiin tarkoituksiinsa ilman lupaasi. Myös kilpailijat voivat käyttää näitä botteja esimerkiksi alittaakseen hintasi. Aina toisinaan näiden sivustojen sisällöt nousevat korkeammalle hakutuloksissa, mikä puolestaan heikentää omaasi – huolimatta siitä, että he käyttivät sinun sisältöjäsi ja tuotekuvauksiasi.
Klikkipetokset
Klikkaus- tai mainospetos tarkoittaa väärennettyjen klikkausten ja näyttökertojen luomista niin, että mainostaja joutuu maksumieheksi ilman, että mainos tuottaa myyntiä. Jenkeissä on tapauksia, joissa bottien toiminta on aiheuttanut yrityksille miljardeja hukkaan heitettyjä dollareita vuodessa.
Spämmi-sisältö
Spämmi-sisältö on kaikille tuttua. Näissä tapauksissa botit ryntäävät esimerkiksi blogisi kommentteihin ja täyttävät ne mainoksillaan, jotka sisältävät linkkejä epäeettisiin palveluihin (mm. Casinot) tai haittaohjelmiin. Samoin spämmibotit voivat anastaa sähköpostiosoitteita ja, noh, tiedät, mistä puhun.
Vaikka roskaposti on useimmin vain riesa, nimissäsi lähetetyt spämmiviestit voivat aiheuttaa mainehaittaa sekä ylipäätään kuluttaa resurssejasi viheliäisten bottien torjumiseen (kun vahinko on jo ehtinyt tapahtua).
ATO eli Account Takeover eli luvaton kirjautuminen sivustolle
Pahimmassa tapauksessa botti pääsee hyökkäämään sivustollesi ja ottamaan sen käyttöönsä. Näin voi tapahtua, jos esimerkiksi sivustosi lisäosat ovat päivittämättä ja botit löytävät väylän uida niiden kautta sivustollesi (ei ole kauaa, kun korjasin vastaavaa haaveria).
Näissä tapauksissa botit joko lisäävät sivustollesi omia linkkejään tai anastavat henkilökohtaisia tietoja, kuten kirjautumis-, pankki- ja luottokorttitietoja. Tätä tietoturvahyökkäystä kutsutaan englanniksi termein “credential stuffing” ja “credential cracking”.
Turvatoimet sivuston suojaamiseen
Tässä muutama tehovinkki oman sivuston suojaamiseen epäeettisiltä boteilta.
- Voit rajoittaa bottien käyntimäärää hidastamalla niiden toimintaa, jolloin sivustosi ei kaadu, jos botti yrittää imeä kerralla kaikkia tietojasi. Tässä tapauksessa haluat lisätä robots.txt-tiedostossa tietyille boteille aikarajoitteisen komennon “Crawl-delay: 10” (tai se aika, jonka valitset).
- Samoin voit rajoittaa bottien pääsyn arkaluontoisille alueille “disallow”-komennolla. Toki on muistettava, etteivät viheliäisimmät crawlerit kunnioita tätä.
- Lokia seuraamalla tiedät, jos sivustollasi tapahtuu jotain epätavallista. Seuraa siis sivuston toimintaa sekä sitä, miten sitä käytetään.
- Pidä lisäosat ja teemat aina ajantasalla, sillä päivittämättöminä ne ovat tietoturvariski – ja juuri tällä tavoin botit voivat uida sivustollesi.
- Varmista, että sivustosi jokainen sisältö on suojattu HTTPS-komennolla. Vaikka päädomainisi olisi, on hyvin mahdollista, että jokin sisällöistäsi on edelleen HTTP-muotoinen.
Mikäli haluat varmistaa, ettei sivustollesi ole kertynyt teknistä SEO-velkaa ja virheitä, jotka voivat aiheuttaa tietoturvariskin, ota yhteyttä. Tehdään sivustollesi auditointi ja varmistetaan, että kaikki toimii, kuten pitää.
Tiedä ennen muita.
Datajournalismia ja näkökulmia algoritmimuutoksista AI-optimointiin. Tilaa SEO-uutiset kuukausikoosteena sähköpostiisi.