Lähteiden kuolema, uniikin sisällön loppuunkierrätys ja valheellisen tiedon levittäminen: Tekoälyn riskit hakukoneiden maailmassa

20. heinäk.

Synkimmissä arvioissa internet menee tekoälyn vauhdittaman sisällöntuotannon myötä rikki. Kun kerran uniikki sisältö kierrätetään chattibotilta toiselle, putoaa myös hakukoneiden ansaintalogiikalta pohja. Tarkastelemme tässä kirjoituksessa tekoälyn riskejä hakukoneiden näkökulmasta.

Kuten kaikki uudet teknologiat, on myös tekoäly saanut osakseen suunnattoman määrän hypetystä - ja toisaalta myös kauhistelua.

Kiinnostavaa on ollut, että jarruja tekoälyn kehittämistahdille ovat vaatineet myös sen kehittäjät itse. Maaliskuussa 2023 tuhatpäinen joukko teknologia-alan vaikuttajia, muun muassa Elon Musk ja Applen toinen perustaja Stephen Wozniak vaativat avoimessa kirjeessä, että tekoälyjärjestelmien kehittäminen tulee keskeyttää ainakin puolen vuoden ajaksi. ChatGPT:n kehittäneen Open AI -yrityksen toimitusjohtaja Sam Altman on perännyt kiireellistä sääntelyä ja lainsäädäntöä suitsimaan tekoälyn käyttöä.

Generatiivisen tekoälyn riskien on katsottu kytkeytyvän muun muassa yksityisyyden- ja tietosuojaan, tekijänoikeuteen ja virheellisen tiedon levittämiseen. Eettisiä kysymyksiä nousee myös siitä, mitä toimintoja voidaan antaa tekoälyn tehtäväksi ja kuka kantaa vastuun, mikäli tekoäly tekee virheen. Myös turvallisuuden ja demokratian näkökulmasta on huolenaiheita. Tekoälyn vaikutukset esimerkiksi asevarustelussa sekä julkisen keskustelun ohjaajana voivat olla arvaamattomia ja pahimmillaan vaarallisia.

Miten generatiivinen tekoäly näkyy hakukoneissa? Googlen SGE ja tekoälyn tuottama internetsisältö

Tämä kirjoitus tarkastelee tekoälyn mukanaan tuomia riskejä hakukoneiden kontekstissa.

Internetin alkuajoista lähtien hakukoneet ovat olleet merkittävä tiedonvälityksen portinvartija: internet vapautti tiedonvälityksen, mutta tietoa on yksiselitteisesti liikaa, että sen jäljille pääsisi ilman hakukoneen apua.

Hakukoneista suurin ja vaikutusvaltaisin on Google, jolla on maailmanlaajuisesti - vähän laskentatavasta riippuen - noin 90 prosentin markkinaosuus. Suurin osa käyttäjien internetsessioista alkaa Google-haulla ja ne tulokset, jotka sijoittuvat heikosti Google-haussa, jäävät vaille liikennettä.

Googlen on katsottu tulleen tekoälykehitykseen kilpailijoitaan jäljessä, mutta se on jo vuosien ajan kehittänyt omia mallejaan, muun muassa LaMDA, PaLM 2 ja MUM. Kehitystyön pohjalta julkaistiin tänä keväänä chattibotti Google Bard. Se on paraikaa testivaiheessa, mutta myös Google-haun tulevaisuus.

Googlen aikomus on tuoda tekoälyn tuottamat vastaukset keskeiselle paikalle, hakutulossivun yläosaan, muiden vastausten yläpuolelle. Jotta tekoälyn tuottamia vastauksia voi nähdä, pitää antaa suostumus. Kun sen antaa, saa tiettyjen hakujen yhteyteen uuden laatikon nimeltään Search Generative Experience eli lyhyesti SGE. SGE:ssä on tekoälyn tuottama vastaus, jonka aineistona on koko Googlen indeksi.

Tekoälyn uudet sovellutukset ovat jännittäviä, mutta eivät riskittömiä. Listaamme alla neljä uhkakuvaa, jotka liittyvät tekoälyyn ja hakukoneisiin.

Riski #1: Uniikin sisällön loppuunkierrätys

Yksi ilmeinen riski tekoälyn käytön yleistyessä on uniikin ja uuden sisällön radikaali väheneminen, internetin täyttyminen hyödyttömällä tekstiroskalla.

Sisällöntuotanto on työlästä ja aikaavievää, kuten sen kuuluukin olla. Jos tahtoo tarjota mitään arvokasta luettavaa tai katseltavaa verkkosivustonsa yleisölle, pitää sitä varten nähdä vaivaa. Uniikki sisältö - uutiset, blogiartikkelit, arviot, käyttöohjeet, mielipidekirjoitukset, oppimateriaalit, viihdetekstit - vaativat syntyäkseen paneutumista ja asiantuntemusta.

Monien laajojen verkkosivustojen ongelma on jo pitkään ollut niin kutsuttu “ohut sisältö” eli mittava joukko sivuja, joilla ei ole mitään tai hyvin vähän arvokasta, uniikkia sisältöä. Tällaiset sivut tarjoavat käyttäjille vain vähän arvoa eikä niistä saa pisteitä hakukoneiltakaan eli on vaikeaa sijoittua hyvin hakukonetuloksissa, jos sivuston sisältö on ohutta.

Google korostaa omassa ohjeistuksessaan, että hyvä sisältö noudattaa niin sanottua E-E-A-T-kaavaa (lyhenne sanoista Experience, Expertise, Authoritativeness ja Trustworthiness) eikä hyvillä verkkosivustoilla ole ohuita sivuja. Uusin iskulause on “hyödyllisen sisällön tarjoaminen” - elokuun 2022 Helpful Content -algoritmipäivityksen myötä Google korosti entisestään hyödyllisyyttä laadun mittarina ja sijoituksia ohjaavana tekijänä.

Generatiivinen tekoäly kuitenkin haastaa sisällöntuotannon tarjoamalla määrää laadun korvikkeeksi. Siinä missä ennen käytettiin suuret määrät aikaa ja rahaa esimerkiksi verkkokaupan kategoriasivujen tekstien kirjoittamiseen, nyt voidaan painaa nappia ja muutaman komennon avulla pyytää tekoälyä kirjoittamaan tuhansille sivuille sen sisältöä kuvaavat tekstit.

Tekoälysovellukset, ChatGPT etunenässä, mahdollistavat tekstin massatuotannon. Se ei ulotu vain verkkokauppoihin, vaan myös uutismedioihin, harrastelijafoorumeihin sekä arviosivustoihin. Verkkosivustojen omistajille tekoälyn vauhdittama tekstintuotanto on kaksiteräinen miekka - sen avulla voidaan toki saada nopeasti ja halvalla sisältöä, mutta mitä todellista arvoa se tuottaa verkkosivuston kävijöille, jos se ei ole uniikkia?

Google on sanonut Search Central -blogissaan, että se ei sinänsä paheksu tekoälyn tuottamaa tekstiä tai pidä sitä huonompana kuin ihmisen tuottamaa. (Googlen John Mueller tosin totesi paria kuukautta myöhemmin, että tekoälyn tuottamaa tekstiä voidaan kohdella automaattisesti generoituna sisältönä eli spämminä ja siten se voidaan tulkita ohjeistuksen vastaiseksi toiminnaksi.) Tekoälyn tuottaman tekstin on kuitenkin vaikea olla kovin kokemukseen pohjautuvaa, asiantuntevaa, auktoritatiivista ja luotettevaa - eli niitä attribuutteja, joita Google sanoo arvostavansa. Pintapuolisesti tekoälyn tuottama teksti näyttää laadukkaalta, mutta tekoäly voi hyödyntää vain sille annettua datasettiä (oli se sitten rajattu aineisto tai koko internet) eikä sen tarjoama tieto ole siten koskaan uutta tai uniikkia, saatika sitten kokemukseen pohjautuvaa. Tieto, jota tekoäly hyödyntää, on ihmisten tarjoamaa.

Pahimmissa dystopioissa tekoälyvastaukset lainaavat toisiaan eri sanankääntein ja koko internet autioituu tyhjänpäiväiseksi tekstisopaksi, joka ei tarjoa mitään uutta tai jännittävää sisältöä. James Vincent kuvailee tällaista uhkakuvaa The Verge -lehdessä julkaistussa artikkelissaan “AI is killing the old web, and the new web struggles to be born”. Merkkejä on jo olemassa. On puhuttu muun muassa Amazonin ja TikTokin sisällön heikkenemisestä (niistä puhutaan Vincentin artikkelissa termeillä “junkification” ja “enshittification”), eivätkä Google Bardin tuottamat tekoälyvastauksetkaan aina kovin laadukkailta vaikuta. Merkittävien verkkoalustojen kuten Redditin ja StackOverflow’n moderaattorit suhtautuvat penseästi tekoälyvastausten hyväksymiseen alustoilleen - yksi syy on laadun puute ja toinen on epäreilu monetisaatio, josta myöhemmässä kappaleessa lisää.

Hakukoneiden - ja koko internetin arvo - heikkenee, jos käyttäjät eivät saa sieltä uutta ja uniikkia tietoa.

Riski #2: Lähteiden kuolema

Googlen SGE-vastaukset eroavat ChatGPT:n vastauksista siinä, että ne näyttävät mitä lähteitä niiden tuottamiseen on käytetty. AI Snapshotin tuottamaa tekstiä voi tarkastella lause lauseelta siten, että kustakin lauseesta pääsee tutkimaan lisää tietoa aiheesta.

Google ei kuitenkaan varsinaisesti puhu lähteistä, vaan tiedon vahvistamisesta. Se käyttää englanninkielen sanaa “corroborate” eli vahvistaa, tukea - linkit tekoälyvastauksen alla “vahvistavat” sen oikeellisuuden.

Silti Google-haun näyttämiä tekoälyvastauksia on jo syytetty plagiarismista. Googlen tekoälyn tuottamat vastaukset ovat usein sanasta sanaan kopioitu muilta verkkosivustoilta ja leikkaa-liimaa-tekniikalla yhdistelty tiiviiksi tekstiksi. Avram Piltch näytti tästä esimerkkejä Tom’s Hardware -lehdessä julkaistussa artikkelissaan.

Lähteet, joihin vastaus perustuu, ovat vastauksen alapuolella ja jäävät mitä todennäköisimmin klikkaamatta. Näin Google hyötyy muiden sivustojen tuottamasta sisällöstä ja jättää ne vaille liikennettä - mikä tietysti vaikuttaa niiden liiketoimintaan.

Samankaltainen toiminta on ollut osa Googlen toimintalogiikkaa jo vuosien ajan, kun se on hyödyntänyt pääasiassa Wikipedian tuottamaa tietoa Knowledge Panel -vastauksissa. Wikipedia on ollut asiasta käärmeissään ja pitkän väännön päätteeksi Google ryhtyi maksamaan sille sisällön käytöstä vuonna 2022. Ajatus siitä, että Google maksaisi kaikille internetin sivustoille niiden sisällön käyttämisestä hakutulossivulla, olisi kuitenkin mahdoton.

Tekoälyn tuottaman internetsisällön yleistyessä nousee myös kysymys alkuperäislähteistä. Esimerkiksi Google voi lainata tietyn verkkosivuston tietoja hakutulossivullaan ja linkittää sinne, mutta jos kyseinen verkkosivusto on tuottanut valtaosan sisällöstään keskustelevan tekoälyn kuten ChatGPT:n avulla, ei alkuperäisen lähteen jäljille pääse millään, sillä ChatGPT ei osoita lähteitään. Missään ei myöskään välttämättä ole mainintaa siitä, että sisältö on tekoälyn tuottamaa. Kuka tiedon on tarjonnut ja mistä sen voisi tarkistaa - näihin kysymyksiin ei ole vastausta.

Riski #3: Sisällöntuottaja jää vaille taloudellista korvausta

Kun tekoälyn tuottaman bulkkisisällön määrä kasvaa internetissä, muuttuu oikea uniikki laatusisältö entistä arvokkaammaksi. Tätä laatusisältöä tahtovat hyödyntää kaikki - mukaan lukien hakukoneet.

Käynnissä onkin kehitys, jossa verkkosivustot pyrkivät suojelemaan omaa uniikkia sisältöään ja rajoittamaan sen saatavuutta muiden hyödynnettäväksi. Nyt on jo merkkejä siitä, että merkittävät internetsivustot eivät tahdo antaa sisältöään Googlen tai muiden teknologiayhtiöiden käytettäväksi.

Syy on seuraava: kun hakukone näyttää sivustojen luomaa tietoa enenevissä määrin omalla alustallaan, vähenee sivustojen liikenne ja sitä myötä niiden liiketoiminta heikkenee. Tämä saattaa johtaa tilanteeseen, jossa sivustot estävät hakukoneboteilta pääsyn sivustolleen ja kieltävät niiden tuottaman sisällön käytön hakukoneiden tuottamissa vastauksissa. Toisaalta sivustot saattavat sisältöpääomaansa suojellakseen jopa sulkea julkisen pääsyn sivustolleen, siirtää sen kirjautumisen taakse ja ryhtyä laskuttamaan sen käytöstä.

Tämä saattaisi johtaa radikaaliin verkon uudelleenjärjestäytymiseen, jossa Googlella ei olisi enää materiaalia, mitä tarjota hakukoneen käyttäjille - ja näin näivettyisi se liiketoiminta, jolle koko sen menestys on luotu.

Datapääsyn rajoittaminen kuulostaa hurjalta, mutta tätä on väläytellyt jo esimerkiksi pörssiin listautumista valmisteleva keskustelualusta Reddit (joka on myös yksi maailman suosituimmista verkkosivustoista). Se on nostanut rajapinnan käytön hintoja merkittävästi tänä kesänä. Redditin perustaja ja toimitusjohtaja Steve Huffman on todennut, että Redditin dataomaisuus on tavattoman arvokas, eikä ole mitään syytä sille, miksi Redditin pitäisi antaa tämä data ilmaiseksi muiden yritysten - sellaisten kuten Google tai Meta - hyödynnettäväksi.

Redditin lausunto on ymmärrettävä, mutta mitään sädekehää se ei ansaitse. Redditin data on käyttäjien vuosien saatossa tuottamaa, ei yhtiön itsensä. Reddit tahtoo monetisoida tämän datan itse sen sijaan, että se antaisi teknologiajäteille mahdollisuuden rahastaa sillä. Tästä ovat olleet tuohtuneita myös Redditin käyttäjät, jotka ovat osoittaneet mieltään “sähkökatkoksilla” eli arkistoimalla subreddit-ketjuja.

Riski #4: Väärän tiedon levittäminen

Kuka tahansa tekoälysovelluksilla vähän jo leikkinyt on huomannut, että tekstiä tulee kyllä tehokkaasti, mutta faktojen suhteen on toisinaan vähän niin ja näin.

Tämän sai tuntea nahoissaan nolosti myös Google itse, kun se esitteli keskustelubotti Bardia ensimmäistä kertaa helmikuussa. Demossa Bard kertoi, että James Webb -avaruusteleskooppi otti ensimmäiset kuvat aurinkokunnan ulkopuolisesta planeetasta. Tieto oli väärin, asiantuntijat huomauttivat. Ensimmäiset kuvat aurinkokunnan ulkopuolisesta planeetasta oli nimittäin ottanut chileläinen Very Large Telescope -teleskooppi.

Tapaus oli Googlelle kiusallinen, mutta ei mitenkään tavaton tekoälylle. Tekoäly perustuu sen käytössä olevaan dataan, jota se saattaa uudelleenkäyttää ja yhdistää virheellisesti. Kun tiedonmurusia eri yhteyksistä yhdistelee ymmärtämättä tarkemmin niiden kontekstia, lopputulos voi olla virheellinen tai harhaanjohtava.

Tekoälyn tuottamassa tekstissä hankalaa on se, että siinä olevia virheitä on usein vaikea tunnistaa. Teksti on muodoltaan usein virheetöntä, kieli on sujuvaa ja sisältö hyvin jäsenneltyä. Virheiden tunnistaminen vaatii asiantuntemusta ja paneutumista. Esimerkkejä hankalasti huomattavista virheistä antoivat muun muassa James Vincent ja Avram Piltch aiemmin mainitussa artikkeleissaan. James Vincent oli pyytänyt retkeilyeksperttiä arvioimaan AutoGPT:n tuottamaa raporttia retkeilyjalkineista. Tuomio: tyhjää sanahelinää, joka jättää olennaisia näkökulmia huomiotta ja todennäköisesti johtaisi vääränlaisen jalkineen valintaan. Avram Piltch puolestaan kyseli Bardilta eri prosessoreiden ominaisuuksista, ja sai virheellisiä ja puolivillaisia vastauksia.

On myös alueita, joilla on vaikea määritellä, mikä tieto on oikein ja mikä väärin. Google onkin sanonut, että se ei tahdo tuoda tekoälyvastauksia kysymyksiin, joihin on vaikea antaa objektiivinen vastaus. Jotkin alueet, kuten vaikkapa sensitiiviset lääketieteelliset kysymykset tai eettiset kysymykset, ovat kokonaan poissa pelistä - niihin Google ei tahdo tarjota tekoälynsä tuottamia vastauksia ollenkaan.

Googlen uusia tekoälyominaisuuksia pääsee kokeilemaan Search Labsin kautta rekisteröitymällä. Toiminallisuus on toistaiseksi saatavilla vain Yhdysvalloissa, mutta sitä pyritään laajentamaan muille markkina-alueille pian.

Tämä kirjoitus oli Intention kesän aikana julkaiseman tekoälyyn liittyvän artikkelisarjan kolmas ja viimeinen osa. Lue aiemmat artikkelit tekoälyn vaikutuksista hakutulossivuun ja SEO- ja SEM-ammattilaisten työhön Intention blogista.

Artikkelin kuva: Unsplash/Markus Spiske