Mikä on llms.txt-tiedosto?
Unelmatilanteessa llms.txt voisi antaa verkkosivuston omistajalle mahdollisuuden vaikuttaa suoraan siihen, mitä tietoa tekoälyjärjestelmät sivustolta käyttävät ja näyttävät. Tekstitiedostoa voidaan hyödyntää osana AEO:ta (Answer Engine Optimization).
Llms.txt-tiedosto (virallinen sivusto) on uusi vielä vakiintumaton standardi, joka robots.txtin ja XML-sivukarttojen tavoin sijoitetaan verkkosivuston juurihakemistoon.
Sivustollasi se näkyisi näin: domain.fi/llms.txt
Uuden protokollan tarkoituksena on auttaa suuria kielimalleja (LLM) ymmärtämään paremmin, mitkä sivuston osat ja sisällöt ovat tärkeimpiä, kontekstirikkaita ja parhaiten sopivia tekoälyn tuottamille vastauksille.
Idea taustalla on kaunis ja hyvä. Ja liian helppo manipuloida.
Jos uusi strandardi virallistettaisiin, se voisi käytännössä toimia tekoälyjärjestelmien oppaana ja kertoa, mitkä sisällöt (tiivistelmät, UKK:t, palvelukuvaukset, jne.) juuri tältä sivustolta kannattaisi nostaa esiin.
Käydään tässä artikkelissa läpi, mitä llms.txt-tiedosto tarkoittaa ja miksi siitä ja sen käytöstä ollaan niin montaa mieltä.
Miten llms.txt toimii teknisesti?
Llms.txt on yksinkertainen Markdown-muotoinen tekstitiedosto, joka sijoitetaan verkkosivuston juurihakemistoon kuten robots.txt tai XML-sitemap. Tekstitiedosto toimii tekoälymallien ohjeistuksena kertoen selkeästi ja tiiviisti, mitkä sivuston osat ovat tärkeimpiä.
Kun suuri kielimalli (LLM), kuten ChatGPT tai Gemini, hakee tietoa verkkosivustolta, tiedonkeruu tapahtuu indeksointipyynnöllä (ping), jonka avulla AI-sovellus jäsentää sivuston sisältöjä.
Jos LLM lukisi llms.txt-tiedoston ensin, se voisi kohdentaa indeksoinnin ja siihen kuluvat resurssit suoraan niihin URL-osoitteisiin ja tietoihin, joita tiedostossa korostetaan.
Näin kielimalli säästäisi laskentatehoa ja aikaa, minkä lisäksi käyttäjälle näytetty vastaus perustuisi paremmin valikoituun, olennaiseen sisältöön.
Tämä voisi myös helpottaa myös sisällöntuotantoa, sillä llms.txt-tiedostolla voidaan suodattaa ja kuratoida verkkosivuston sisältöjä LLM:n näkökulmasta, jolloin vältetään turhan laaja tai epäolennaisten sivujen käsittely.
Ylläpitoa tämä silti vaatisi, ja se tapahtuisi manuaalisesti tiedostoa päivittämällä.
Esimerkki llms.txt-tiedostosta (älä käytä sellaisenaan)
# Verkkosivustosi nimi
Yritys x suunnittelee ja rakentaa verkkosivustoja yli 20 vuoden kokemuksella + muu markkinointipuhe itsestä.
## Palvelut
Tässä listattuna tärkeimmät palvelumme:
– **Verkkosivujen kehitys**: Tiivis palvelukuvaus.
– **Verkkokauppojen rakentaminen**: Tiivis palvelukuvaus.
– **Verkkosivujen ylläpito**: Tiivis palvelukuvaus.
## Sivuston kielet
Suomi, Englanti
## Päänavigaation linkit
- [Koti](/): xxx
- [Meistä](/tietoa-meista/): xx
- [Palvelut](/verkkosivu-palvelut/): xx
## Sitemap
https://xx.fi/post-sitemap.xml
https://xx.fiom/page-sitemap.xml
## Yhteystiedot
– [Yhteydenottosivu](/ota-yhteytta/): Varaa aika konsultaatioon.
Miksi llms.txt-standardi kehitettiin?
Suuret kielimallit ovat riippuvaisia verkkosivustojen tiedoista, mutta sisältömassat rajoittavat niitäkin: jopa tekoälylle on hankala analysoida montaa laajaa sivustoa saman aikaisesti.
Standardin kehittäjä, Jeremy Howard on data-tieteilijä, tekki-tiedon popularisoija, yrittäjä ja ansioitunut AI-kouluttaja, joka tunnetaan parhaiten fast.ai-organisaation perustajana.
Peruskysymys uuden standardin takana tulee tässä: kun kerta optimoinnissa on tarkoitus palvella lukijaa hyvällä ja hyödyllisellä sisällöllä, miksi samaa ei tarjottaisi LLM-malleille niin, että tiivis asiantuntijatieto on niputettu yhteen selkeästi luettavaan dokumenttiin.
Tiedoston tarkoituksena on indeksoida verkkosivustoja niin, että nykyinen LLM:ille syntyvä resurssien kulutus vähenee eli tieto saadaan parsittua nopeammin.
Mikä on llms.txtin tulevaisuus?
- Google ei käytä eikä omien sanojensa mukaan aio käyttää llms.txt-tiedostoa reaaliaikaisessa verkkohaussa tai AI Overview -sijoituksessa.
- Tämä ei silti tarkoita, etteivätkö muut AI-sovellukset lähtisi hyödyntämään llms.txtiä.
- Ray Martinez julkaisi kuvakaappauksen lokitiedostoistaan, joka osoittaa, kuinka OpenAI indeksoi hänen LLMS.txt-tiedostoaan noin 15 minuutin välein. Lainaus X-julkaisusta: ”Lokitiedostojen analyysi osoittaa, että OpenAI indeksoi LLMs.txt-tiedostoani muutamilla sivustoilla. Se pingaa palvelimiamme 15 minuutin välein etsien tuoreita tietoja.”
- AI-sovellus Windsurf on ottanut mallin käyttöön ja raportoinut, että llms.txt auttaa vähentämään tokenien käyttöä ohjaamalla agentit suoraan relevantteihin päätepisteisiin, mikä säästää sekä aikaa että crawling-budjettia (aikaa, jonka hakubotti ryömii sivustollasi).
- Generatiivisen hakukoneoptimoinnin (GEO) [GEO:sta voi olla montaa mieltä, mutta ei keskitytä siihen tässä artikkelissa] mittareiden seurantaan erikoistunut yritys Profound on kerännyt tietoja, jotka osoittavat, että Microsoftin, OpenAI:n ja muiden yritysten AI-mallit indeksoivat aktiivisesti sekä llms.txt- että llms-full.txt-tiedostoja.
- Silti Search Engine Journalin artikkelissa todettiin, kuinka eräs (esimerkkejä on enemmänkin) alusta isännöi yli 20 000 verkkotunnusta ja ettei mikään tekoälyagentti tai botti lataa LLMs.txt-tiedostoja, vaan tämän tekevät ainoastaan BuiltWithinin kaltaiset niche-botit.
Debatti on ilmassa: onko llms.txt todella hyödyllinen vai ei?
Ahrefsin sisältömarkkinoinnin johtaja Ryan Lawin mukaan (vapaat suomennokset): “Mielestäni ei, ei vielä.”
“Ei ole näyttöä siitä, että llms.txt parantaisi tekoälyn hakutoimintoa, lisäisi liikennettä tai parantaisi mallin tarkkuutta. Eikä yksikään palveluntarjoaja ole sitoutunut sen jäsentämiseen. Mutta se on myös erittäin helppo asentaa. — Siitä ei ehkä ole havaittavaa hyötyä, mutta ei myöskään riskiä. Jos LLM:t lopulta noudattavat sitä standardina, varhaisessa vaiheessa käyttöönotosta voi olla pieniä etuja.” (Lähde)
Ja:
“Mielestäni llms.txt on saamassa suosiota, koska me kaikki haluamme vaikuttaa LLM-näkyvyyteen, mutta meillä ei ole siihen tarvittavia työkaluja. Siksi tartumme ideoihin, jotka tuntuvat antavan hallintaa.” (Lähde)
Googlen advokaatti John Mueller totesi (vapaa suomennos):
“Tietääkseni yksikään tekoälypalvelu ei ole ilmoittanut käyttävänsä LLMs.TXT-tiedostoa (ja palvelimen lokitiedostoista näkee, että ne eivät edes tarkista sitä). Minulle se on verrattavissa avainsanojen metatagiin – tämä on se, mitä sivuston omistaja väittää sivustonsa olevan… (Onko sivusto todella sellainen? No, voit tarkistaa sen. Siinä tapauksessa, miksi et tarkistaisi sivustoa suoraan?)” (Lähde)
Yhteenveto
- Yksikään suurista tekoälypalveluista, kuten Anthropic, OpenAI ja Google, ei ole ilmoittanut tukevansa ehdotettua llms.txt-standardia.
- Google ei aio ottaa llms.txt-tiedostoa käyttöön.
- Llms.txt ei ole keino hallita tekoälybotteja.
- Llms.txt on keino näyttää pääsisältö tekoälyboteille.
- Llms.txt on vain ehdotus, eikä se ole laajalti käytetty ja hyväksytty standardi.
- Osa AI-sovelluksista on kuitenkin nähnyt tuloksia.
- Jos standardi vakiintuu, ensimmäisten joukossa oleminen voi kenties merkitä jotain (tai sitten ei).
Search Engine Journalin Robert Monttia lainatakseni:
“Mikä estäisi julkaisijaa tai hakukoneoptimoijaa näyttämästä yhtä sisältöä LLMs.txt-tiedostossa roskapostia lähettäville tekoälyagenteille ja toista sisältöä käyttäjille ja hakukoneille? Tällä tavalla on liian helppoa tuottaa roskapostia, mikä on käytännössä LLMs-tiedostojen peittelyä.”
Tulevaisuuden näkymät ja haasteet
Tällä hetkellä mikään suuri tekoälypalvelu ei ole sitoutunut virallisesti käyttämään llms.txt-tiedostoa, mutta useita LLM-kehittäjiä kiinnostaa sen potentiaali.
Jos standardi vakiintuu, se voisi:
- Parantaa merkittävästi verkkosivustojen näkyvyyttä tekoälypalveluissa.
- Tarjota uuden tavan ja kenties oikeasti GEO-termin arvoisen tavan toteuttaa generatiivista hakukoneoptimointia.
- Vaatia julkaisujärjestelmiltä automaattisen ja reaaliaikaisen päivityksen hallintaa.
- Herättää tarpeen uudelleenvalvonnan tavoille väärinkäytösten ja tiedon peittelyn estämiseksi.
Riskejä on, kuten mahdollisuus siihen että llms.txt-tiedostoon voidaan ohjata väärää tai harhaanjohtavaa sisältöä, jolloin tekoäly vastaisi epätarkasti tai roskapostimaisesti.
Seurataan tilannetta, sillä kuten tiedämme, SEO elää ja kehittyy, AI vielä sitäkin nopeammin.


