Cosine Similarity: matemaattinen kaava modernin SEO-strategian takana

Päivitetty: 15.04.2026

Cosine Similarity on matemaattinen mittari, joka todentaa, miten Google voi tai ei voi ymmärtää sisältösi merkityksen ilman avainsanojen ylikäyttöä.

Monet puhuvat “topikaalisesta auktoriteetista” (Topic Authority) ja semanttisesta hausta, mutta harva tietää, mitä näiden termien konehuoneessa todella tapahtuu. Modernin hakukoneoptimoinnin ytimessä ei ole enää pelkkä avainsanojen laskeminen vaan Cosine Similarity (kosini, cos, trigonometrinen funktio).

Mikä on Cosine Similarity?

Yksinkertaisesti sanottuna Cosine Similarity on mittari, jolla vertaillaan kahden vektorin välistä etäisyyttä ja suuntaa. Tekstianalyysissä ja tekoälyssä dokumentit muutetaan numeerisiksi vektoreiksi moniulotteisessa avaruudessa.

Perinteinen haku (keyword matching) katsoo vain, esiintyykö sama sana tekstissä. Cosine similarity taas mittaa suuntaa, ei pituutta.

Kuvitellaan kaksi dokumenttia (embeddings) vektoreina: mitä pienempi niiden välinen kulma (θ) on, sitä samankaltaisempia ne ovat.
Jos kulma on 0°, kosini on 1 (täydellinen vastaavuus).
Jos kulma on 90°, kosini on 0 (ei mitään yhteistä).

Käytännössä tämä tarkoittaa, että jos kirjoitat artikkelia perhokalastuksesta ja toista uistelusta, ne ovat vektorina hyvin lähellä toisiaan (pieni kulma), vaikka niissä käytettäisiin eri sanastoa. Jos taas kirjoitat SEO-strategiasta, se osoittaa aivan eri suuntaan, ja samankaltaisuus on lähellä nollaa.

Miksi upotukset (embeddings) ratkaisevat perinteiset SEO-haasteet?

Perinteinen avainsanoihin perustuva analyysi jättää huomiotta semanttiset suhteet. Sivu, joka käsittelee ”kalastusta”, ja toinen sivu, joka käsittelee ”veneilyä”, eivät näytä olevan yhteydessä toisiinsa yksinkertaisen tekstivertailun perusteella, mutta upotukset tunnistavat, että ne kuuluvat samaan semanttiseen alueeseen.

Tämä vastaa kolmeen tärkeään SEO-tarpeeseen:

Semanttiset sisältöaukot: tunnistaa puuttuvat aiheet sisältöstrategiassasi.
Todellinen kaksoiskappaleiden tunnistus: löytää sivut, jotka käsittelevät samoja käsitteitä sanamuodosta riippumatta.
Sisällön relevanssin pisteytys: mittaa, kuinka hyvin sivut vastaavat kohdeaiheita.

Miksi minun pitäisi välittää tästä?

Google käyttää algoritmeja, kuten BERT ja RankBrain, ymmärtääkseen aihepiirejä. Cosine similarity on tekninen selitys sille, miten tämä ymmärrys rakentuu.

1. Semanttinen haku ja "aihe-avaruus"

Google ei etsi vain sanaa “kalastus”. Se vertailee sivusi vektorisijaintia suhteessa muihin “ulkoilu”- ja “harrastus”-aiheisiin sivuihin. Jos sisältösi “massa” sijoittuu oikeaan kohtaan aihe-avaruutta, sijoituksesi nousevat.

2. Topical Authorityn rakentaminen

Ymmärtämällä kosinisamankaltaisuutta voit siirtyä avainsanojen jahtaamisesta kohti topikaalista auktoriteettia. Tavoitteenasi on luoda sisältöverkosto, jonka kaikki vektorit (eli aiheklusterit) osoittavat mahdollisimman tarkasti samaan suuntaan kuin kohderyhmäsi hakuintentio.

3. Content Gap -analyysin uusi taso

Perinteinen avainsanatutkimus paljastaa puuttuvat hakusanat. Cosine-ajattelu taas analysoi puuttuvat käsitteet (entities). Jos kilpailijasi kirjoittama klusteri mainitsee laajasti aiheeseen liittyviä termejä, ja jos sinä “jumiudut” vain yhteen avainsanaan (+ ehkä yhteen rinnasteiseen avainsanaan), vektorien välillä on suuri kulma. Google tulkitsee, ettei sisältösi ole yhtä kattava vastaus aiheeseen.

Käytännön askeleet: näin hyödynnät tätä työssäsi

Miten muutat tämän matematiikan paremmiksi sijoituksiksi?

Hienosäädä aihepiiri (topical focus): Jos edustat SaaS-yritystä, joka myy projektinhallintaohjelmistoa, kaiken sisällön on oltava matemaattisesti lähellä tätä ydintä. Jos kirjoitat liian yleisistä aiheista (kuten “säästövinkit”), yrityksen “aihevektori” hämärtyy ja auktoriteetti laskee.
Strateginen sisäinen linkitys: Linkitä keskenään sivuja, joiden välillä on korkea kosinisamankaltaisuus. “Miten valita perhovapa” tulisi linkittää artikkeliin “Parhaat perhosiimat” – ei perunan kasvatukseen. Tämä vahvistaa semanttista jatkuvuutta.
Hyödynnä työkaluja oikein: Työkalut kuten SurferSEO tai Clearscope laskevat käytännössä kosinisamankaltaisuutta. Ne vertaavat kirjoitustasi top-10 tuloksiin ja kertovat, mitä termejä sinun pitää lisätä, jotta “vektorisi” siirtyisi lähemmäksi kärkisijoja.

Esimerkki “Predictable Revenue in SaaS” -rakenteesta:

Pilarisivuksi valitaan Comprehensive Guide to Predictable Revenue (vektori: keskipiste)
Klusterisivu A: Sales Pipeline Velocity (korkea “similarity” eli samankaltaisuus pilarisivun kanssa)
Klusterisivu B: Churn Rate Impact on ARR (korkea samankaltaisuus pilarin kanssa).

Kun koko sivustosi kaikkine sisältöineen osoittaa samaan suuntaan, Googlen on mahdollista luokitella sivustosi ja brändisi juuri oman aiheesi asiantuntijaksi.

Optimoinnin iloa!

Marinella Himari

Marinella Himari on 18 vuotta hakukoneoptimoinnin parissa työskennellyt senioritason SEO-konsultti ja itsenäinen SEO-tutkija, joka kirjoittaa LinkedInissä julkaistavaa kontroverSEO-uutsiskirjettä. Himari on European Search Awards 2026 -voittaja ja Semrushin Ambassador.