Saneluagentin tekeminen on kuuntelun muotoilua – miksi tekoälylle puhuminen ei ole vain kirjoittamista

Olet ehkä kokeillut käyttää tekoälyä asioiden saneluun lenkillä tai kokouksen jälkeen, ja huomannut sen tekevän aivan uskomattoman virheettömiä kirjauksia. Kaikissa tilanteissa se ei silti riitä. Ihmisten välisessä vuorovaikutuksessa paras kuuntelija on se, joka kykenee ymmärtämään, mikä monipolvisessa puheessasi on oikeasti olennaista ja mihin pitää tarttua.

Myös saneluagentin todellinen arvo syntyy siitä, millaiseksi sen kyky kuunnella ihmistä on muotoiltu. Meidän on aika päivittää käsityksemme siitä, mitä ”sanelu” digitaalisella aikakaudella on. Se ei ole enää vain ”näppäimistö, jota käytetään äänellä”.

Sanelu on nykyään kuuntelun muotoilua.

Oleelliset erot voisi tiivistää näin:

  • Kirjoittamisessa ihminen jäsentää ajatuksensa itse ennen kuin ne päätyvät tekstiksi.
  • Perinteisessä sanelussa puhe vain muutetaan sanoiksi näytölle.
  • Saneluagentissa järjestelmälle annetaan tehtäväksi tunnistaa puheesta olennainen, jättää epäolennainen taustalle ja muotoilla lopputulos juuri siihen käyttöön, jota varten puhut.
Article content
Miltä tuntuisi sanella seuraava sähköpostisi kylpyammeesta käsin? Kuva on luotu Google Geminillä.

Tekoälysanelulla on pitkä historia

Miltä sinusta tuntuisi sanella seuraava sähköpostisi tai jopa kokonainen kirjasi kylpyammeesta käsin?

Tekoälysanelu voi tuntua uudelta keksinnöltä, mutta ajatus sen taustalla on ikivanha. 1900-luvun tunnetuin brittiläinen poliitikko, pääministeri Winston Churchill oli tavallaan oman aikansa ”sanelun power user” jo kauan ennen nykyistä puheentunnistusta ja kielimalleja.

Hän saneli puheita, muistioita ja kokonaisia kirjahankkeita sihteereilleen käytännössä missä vain: sängystä, työhuoneesta, jopa kylvystä käsin. Churchillin sihteerit toimivat aikansa älykkäänä välikerroksena. He kuuntelivat, tulkitsivat, jäsensivät ja muokkasivat mutisevankin puheen loogiseksi tekstiksi.

Venäläinen klassikkokirjailija Fjodor Dostojevski puolestaan teki oman aikansa tuottavuusloikan jo vuonna 1866. Hän oli mahdottoman deadlinen ja pelivelkojen paineissa, ja jos uusi romaani ei valmistuisi ajoissa, hän menettäisi oikeudet teoksiinsa vuosiksi.

Silloin hän vaihtoi menetelmää ja alkoi sanella pikakirjoittajalle, joka kirjasi puheen muistiin ja kirjoitti sen puhtaaksi. Näin syntyi Pelurit-romaani 26 päivässä.

Voisiko olla, että Pelurit ei ollutkaan vain yksittäinen saneluprojekti, vaan kirjailijan uralla käänteentekevä kohta, jossa sanelu auttoi sekä selviämään veloista että ajattelemaan vapaammin? Monet kirjailijan tunnetuimmista teoksista julkaistiin tämän jälkeen.

Entä tänä päivänä?

Nykyinen kielimalli ottaa samalla idealla vastaan keskeneräisen, puhutun ajatuksen ja auttaa muotoilemaan siitä ymmärrettävän tekstin. Se mahdollistaa ajatuksen tulevan ulos juuri siinä muodossa kuin se ihmisessä syntyy, poukkoilevana mutta elävänä virtana.

Ja toisaalta, jos Churchill olisi elänyt tekoälysanelun aikana, ehkä kylpyammeen vieressä lehtiön kanssa odottava sihteerikään ei olisi pannut pahakseen, jos työnkuva olisi ehtinyt hieman kehittyä. Tekoälysanelu muuttaa siis varmasti myös työtä.

Historian ensimmäinen saneluagentti

Jos mennään vielä kauemmas, 1200-luvulle asti, dominikaanimunkki Tuomas Akvinolaisen valtava tuotanto syntyi osin niin, että hän saneli kirjureilleen, ja elämäkertatiedot kuvaavat jopa tilanteita, joissa hän saneli usealle kirjurille yhtä aikaa eri aiheista.

Oliko hänellä historian ensimmäinen saneluagentti?

Article content
Oliko Tuomas Akvinolaisella historian ensimmäinen saneluagentti? Yksityiskohta Carlo Crivellin maalauksesta San Domenicon alttaritaulussa vuodelta 1476. Lähde: Wikipedia.

Ajatus on ainakin tuttu. Yksi ihminen purkaa ajatteluaan ääneen, ja ympärillä oleva järjestelmä muuttaa sen useaksi rinnakkaiseksi työvirraksi.

Ihmisellä on siis ollut jo pitkään tarve erottaa ajattelun virta sen lopullisesta kirjallisesta muodosta. Uutta on se, että kuuntelijan rooli on siirtymässä ihmiseltä ohjelmistolle.

Mutta miten tuo kuuntelija opetetaan ymmärtämään, mikä puheessa on tarkoituksellista, olennaista ja käyttökelpoista?

Saneluagentti on älykäs suodatin

Kun puheentunnistusta alettiin tosissaan kehittää menneinä vuosikymmeninä, insinöörit halusivat vain ja ainoastaan koneen kuulevan sanoja. Aivan viime vuosiin saakka sanelusovellusten ainoa tehtävä oli toimia eräänlaisena putkena, eli puhut toiseen päähän, ja toisesta päästä putoaa sanatarkka teksti näytöllesi.

Tässä on kuitenkin yksi massiivinen ongelma. Ihmisen luonnollinen puhe on hidasta, poukkoilevaa ja uskomattoman sotkuista. Se on täynnä täytesanoja, inhimillisiä itsekorjauksia, sivuraiteita ja puolivalmiita ajatuksia.

Raakapuheen muuttaminen raakatekstiksi sellaisenaan ei useinkaan säästä aikaa, se vain siirtää kognitiivisen taakkasi myöhemmäksi. Sinun täytyy silti siivota, jäsentää ja muokata tekstiä kokouksen, koiralenkin tai tiukan ideointihetken jälkeen.

Modernit tekoälyagentit ja taustalla pyörivät laajat kielimallit toimivatkin putken sijaan eräänlaisena suodattimena. Ne kykenevät erottamaan signaalin kohinasta. Se, mitä oikeasti tarkoitit, mitä päätit ja mikä on tärkeää, erotetaan siitä, miten sekoilit sanoissasi, epäröit asian kanssa tai kiersit samaa ajatusta useasta suunnasta.

Tässä sanelu ei enää vain korvaa kirjoittamista. Saneluagentti osallistuu itse jäsentämiseen, kun se toimii ohjeidesi perusteella sen suhteen, mikä säilytetään, mikä tiivistetään, mikä järjestetään uudelleen ja mitä koko puheesta lopulta syntyy.

Mutta jotta tämä suodatin toimii oikein juuri sinun työssäsi, se täytyy muotoilla oikein.

Minkälaisen kuuntelijan asiantuntija tarvitsee?

Psykologiassa, pedagogiikassa ja viestinnässä puhutaan säännöllisesti erilaisista kuuntelun tyypeistä, kuten empaattinen, kriittinen tai informatiivinen kuuntelu.

Kun rakennat tekoälyagenttia esimerkiksi konfiguroimalla ChatGPT:tä tai luomalla kustomoidun GPT:n työhösi, teet täsmälleen näitä samoja valintoja antamalla sille käyttöohjeet eli system promptin. Tässä tapauksessa et siis ohjelmoi agenttia lainkaan puhumaan, vaan ohjelmoit sen kuuntelemaan oikein.

Mieti omia kriittisiä työtehtäviäsi. Minkälaisen ”ammattilaisen” tai ”persoonan” haluat ottamaan monimutkaista puhettasi vastaan eri tilanteissa?

1. Lempeä terapeutti (Empaattinen ja salliva kuuntelu)

Kuvittele, että olet lenkillä ja koetat keksiä ratkaisua todella monimutkaiseen strategiseen ongelmaan. Haluat vain puhua ääneen, antaa tajunnanvirran laukata ja assosioida täysin vapaasti. Jos kone on ohjelmoitu liian ”fiksuksi” tai kriittiseksi, se leikkaa parhaat, oudoimmat ja luovimmat ideasi pois turhana kohinana.

Tähän hetkeen tarvitset agentin, jolle on kerrottu selvästi:

”Kuuntele tajunnanvirtaani. Älä tuomitse, älä normalisoi äläkä yritä typistää sitä liikaa. Kokoa rönsyistä kolme pääteemaa, mutta säilytä ehdottomasti oma värikäs kielenkäyttöni ja tunnetilani.”

2. Kriittinen tutkija (Analyyttinen kuuntelu)

Olet asiantuntija, joka yrittää muotoilla apurahahakemusta, vaativaa raporttia johtoryhmälle tai pitkää blogikirjoitusta. Ajatuksesi hyppivät asiasta toiseen, ja asiatanssisi on täynnä tyypillistä alan jargonia.

Nyt tarvitset kuuntelijan, joka ohittaa kaiken turhan sentimentaalisuuden:

”Kuuntele tämä pitkä puheeni. Poimi sieltä vain ja ainoastaan loogiset argumentit ja todennettavat faktat. Sivuuta kaikki sivupolut ja mielipiteeni. Muotoile puheesta kylmän analyyttinen ja tiukasti rakenteellinen asiateksti.”

3. Järjestelmällinen sihteeri (Kattava ja jäsentelevä kuuntelu)

Kävelet uuvuttavasta asiakastapaamisesta taksille ja sanelet nopeasti puhelimeesi kaiken, mitä palaverissa luvattiin puolin ja toisin hoitaa. Et missään nimessä halua luettavaksesi pitkää tekstiseinää.

Haluat huippuluokan sihteerin:

”Kuuntele tämä raporttini. Generoi minulle välittömästi vain kaksi asiaa: 1) Ystävällinen sähköpostiluonnos asiakkaalle lähetettäväksi, ja 2) Ranskalaisilla viivoilla lista asioista, jotka minun pitää huomenna ensimmäisenä tehdä tai delegoida omalle tiimille.”

Tämä tulevaisuuden näkymä on muuten jo vahvasti täällä, ja se näyttäytyy tällä hetkellä ehkä kaikista selvimmin kognitiivisesti kuormittuneiden lääkäreiden työpöydillä ja sairaaloissa.

Tätä kehitystä avaa käytännön tasolla myös Ääniäly-podcastin jakso, jossa Länsi-Uudenmaan hyvinvointialueen Kehitys- ja innovaatioyksikön Digiasioinnin muutosasiantuntija Emilia Nybonn kuvaa, miten tekoälyavusteinen äänikirjaaminen toimii arjessa.Mitä on äänikirjaaminen tekoälyavusteisesti? Emilia Nybonn kertoo Ääniäly-podcastissa.

Kuuntele Ääniäly-podcastissa:

🔊✨ Ääniäly-podcast Spotifyssa

🔊✨ Ääniäly-podcast Apple Podcastsissa

Mitä on äänikirjaaminen tekoälyavusteisesti?

Sote-kontekstissa saneluagentit näkyvät tekoälyavusteisessa äänikirjaamisessa. Se tarkoittaa prosessia, jossa ohjelmisto kuuntelee ammattilaisen sanelua tai potilaan ja ammattilaisen välistä luonnollista keskustelua.

Tekoäly muuntaa puheen tekstiksi ja hyödyntää suuria kielimalleja tuottaakseen tekstistä jäsennellyn, rakenteisen kirjausluonnoksen.

Äänikirjausratkaisuja käytetään vastaanottohuoneissa, kotikäynneillä, puhelimitse tapahtuvassa asiakasohjauksessa, digitaalisissa chat-palveluissa, Teams-tapaamisissa ja verkostopalavereissa.

Tekoäly ei tee päätöksiä eikä arvioi hoidon tarvetta. Se ei myöskään tuota lopullista potilastietomerkintää, vaan toimii älykkäänä digitaalisena avustajana, joka tiivistää olennaisen tiedon ammattilaisen tarkistettavaksi.

Työnkulku etenee käytännössä siten, että ammattilainen kertoo potilaalle tai asiakkaalle aina tapaamisen aluksi tekoälyn käytöstä kirjaamisen apuna, mikä on lakisääteinen edellytys nauhoittamiselle. Asiakkaalla on oikeus kieltäytyä nauhoituksesta ilman, että kieltäytyminen vaikuttaa millään tavalla hänen saamaansa palveluun tai hoitoon.

Jos suostumus saadaan, ohjelmisto muuntaa käydyn keskustelun tekstiksi ja tekoäly tekee kirjauksesta rakenteisen luonnoksen. Ammattilainen tarkistaa ja täydentää luonnoksen aina itse ennen tietojen tallennusta, eikä tekoäly tee päätöksiä tai muuta kirjattavia asioita toisiksi.

Ääniäly-podcastin tuoreessa jaksossa haastateltu Länsi-Uudenmaan hyvinvointialueen asiantuntija Emilia Nybonn kuvaa, että juuri tämä työnkulku on tärkeä ymmärtää oikein.

Kyse ei ole siitä, että tekoäly ottaisi kirjausvastuun ammattilaiselta, vaan siitä, että se auttaa kokoamaan keskustelusta luonnoksen, jonka sisällöllinen vastuu ja lopullinen tarkistus pysyvät edelleen ihmisellä. Siksi teknologiaa kannattaa ajatella ennen kaikkea kirjaamisen apuvälineenä, ei itsenäisenä toimijana.

Miksi ja missä tekoälyavusteista äänikirjaamista kokeillaan?

Ylivoimaisesti suurin, toistuvasti ja luotettavasti raportoitu hyöty on ajan säästö. Kirjaamiseen kuluva aika on pudonnut parhaimmillaan tunneista kymmeniin minuutteihin päivässä. Tämä poistaa kognitiivisesti kuluttavan ”toisen vuoron”, eli sen, kun ammattilainen joutuu tekemään rästikirjauksia työpäivän päätteeksi.

Läpinäkyvyys asiakkaalle ja kohtaamisen laatu paranevat myös huomattavasti, kun lääkäri tai hoitaja voi pitää yllä katsekontaktia näppäimistön ja ruudun tuijottamisen sijaan. Tämä inhimillinen hyöty on noussut esiin niin lääkärien vastaanotoilla kuin nuorten sosiaalityössä.

Menetelmä nousi Suomessa vuoden 2024 aikana Suomen itsenäisyyden juhlarahasto Sitran ja sosiaali- ja terveysministeriön (STM) rahoittamien pilottien myötä. Vuoden 2025 aikana DigiFinlandin koordinoima SOTE-tekoälyn ekosysteemi jakoi kolmen miljoonan euron rahoituksen näiden ratkaisujen alueelliseen laajentamiseen.

Nyt keväällä 2026 kokeiluista ollaan siirtymässä laajamittaisiin tuotantokäyttöönottoihin ja organisaatiotason kilpailutuksiin, ja samalla myös pilottivaiheessa olevien alueiden joukko on laajentunut.

Jo pidemmällä oleviin kokeilijoihin kuuluu esimerkiksi Länsi-Uudenmaan hyvinvointialue (LUVN), joka toteutti onnistuneen pilotin juuri Sitran tuella vuonna 2024. Alue sai vuonna 2025 merkittävän lisärahoituksen STM:ltä ratkaisun kilpailuttamiseen hyvinvointialuetasoisena, jatkuvana palveluna.

Ensimmäisistä kokeiluista onkin siirrytty jo katsomaan tulevaisuuteen, sillä LUVN viestii vahvasta strategisesta sitoutumisesta, jossa tekoälykirjaaminen nähdään pysyvänä tapana ratkaista sote-alan resurssihaasteita. TKI-johtaja Johan Sanmark on todennut rahoituspäätösten yhteydessä uskovansa vakaasti teknologian kykyyn sujuvoittaa ammattilaisten arkea ja korostanut LUVN:n halua toimia kansallisena edelläkävijänä. Myöskin kokeilusta kerätyt opit, hyvät toimintatavat ja huomioitavat rajoitukset jaetaan aktiivisesti muiden hyvinvointialueiden kanssa päällekkäisen kehitystyön välttämiseksi.

Miltä tekoälyavusteinen äänikirjaaminen tuntuu arjessa?

Hyvinvointialue on kehittänyt tekoälykirjausten sovelluksen yhdessä suomalaisen terveysteknologiayritys Gosta Labs Oy:n kanssa.

Kokeilu aloitettiin Länsi-Uudenmaan terveysasemilla kesällä 2024, mutta käyttökohteet ja ammattiryhmät ovat laajentuneet merkittävästi lyhyessä ajassa, kun tekoälykirjaus on sittemmin viety lukuisiin eri palveluihin.

Tällä hetkellä Gosta-sovellusta käyttävät LUVN:n omien tietojen mukaan lääkärit, sairaanhoitajat, fysioterapeutit, toimintaterapeutit, psykologit ja sosiaalihuollon ammattilaiset.

Emilia Nybonnin mukaan juuri tämä ammattiryhmien kirjo auttaa ymmärtämään, miksi tekoälyavusteinen äänikirjaaminen ei ole yksi ja sama ratkaisu kaikille.

Lääkärin, fysioterapeutin ja sosiaalihuollon ammattilaisen työ, kieli ja kirjausten rakenne poikkeavat toisistaan niin paljon, että myös järjestelmän ohjaamisen on oltava erilaista. Käytännössä tämä tarkoittaa sitä, että mallille annetaan ammattiryhmä- ja palvelukohtaista ohjeistusta siitä, millaisia otsikoita, termejä ja rakenteita kussakin tilanteessa odotetaan. Juuri tällainen räätälöinti vähentää manuaalisen editoinnin tarvetta ja tekee luonnoksista aidosti käyttökelpoisia arjen työssä.

Samalla se paljastaa myös yhden keskeisen rajoituksen. Vaikka tekoäly voi auttaa muistamaan keskustelusta asioita, jotka ihmiseltä saattaisivat myöhemmin unohtua, se ei aina tulkitse erikoistermejä, kielten sekoittumista tai ammattisanastoa täydellisesti.

Erityisesti terveydenhuollossa vastaan tulee ilmaisuja, joita käytetään rinnakkain suomeksi, englanniksi ja latinaksi. Tällaisissa kohdissa ammattilaisen tarkistus ei ole muodollinen vaihe, vaan koko ratkaisun turvallisen käytön ydin.

LUVN tarjoaa myös tällä hetkellä Suomen kenties dokumentoiduimman ja avoimimmin viestityn esimerkin teknologian jalkauttamisesta julkiseen terveydenhuoltoon ja sosiaalityöhön omilla verkkosivuillaan.

Oleellista on, että saneluagentti on opetettu kuuntelemaan oikeita asioita oikeassa muodossa oikealle ammattiryhmälle ja että ihminen tietää täsmälleen, missä kohtaa järjestelmän työ päättyy ja hänen oma vastuunsa alkaa.

Juuri tästä kuuntelun muotoilussa on kyse myös paljon sote-ympäristöä laajemmin.

Kognitiivisen taakan massiivinen helpotus asiantuntijatyössä

Tällainen ajattelutavan muutos puheentunnistuksesta kohti kuuntelun muotoilua voi siis tarjota merkittävän kognitiivisen helpotuksen monille asiantuntijoille.

Kun todella alat luottaa siihen, että ”kuuntelijasi” ymmärtää kontekstin ja sen, mitä etsit, voit vihdoin rentoutua laitteiden äärellä. Sinun ei enää tarvitse yrittää puhua valmista, täydellisesti jäsenneltyä kirjakieltä suoraan mikrofonille.

Voit puhua juuri kuten ihminen puhuu, paljastaen epävarmuutesi ja poukkoilusi, ja antaa koneen tehdä sen työn, jossa se on nykyään uskomattoman paljon ihmistä parempi, eli tiedon rakenteistamisessa ja järjestämisessä.

Monien nykyisten ratkaisujen vahvuus on nopeassa käyttöönotettavuudessa. Sen sijaan että jäätäisiin odottamaan vuosia täysin alakohtaisen järjestelmän valmistumista, kokeiluja voidaan käynnistää hallitusti jo nykyisten generatiivisten tekoälymallien päälle rakennetuilla ratkaisuilla. Näin käytännön hyötyjä ja rajoja päästään arvioimaan oikeassa työssä eikä vain suunnitelmatasolla.

Vastuu ei katoa. Hyvä saneluagentti ei vapauta ajattelusta, vaan siirtää työn painopistettä. Sinun ei tarvitse enää käyttää energiaa kaikkeen muotoiluun yksin alusta asti, mutta sinun täytyy silti päättää, millaista kuuntelua tilanteessa tarvitset, millainen lopputulos on riittävän hyvä ja mitä et halua koneen puolestasi ratkaisevan.

Sanelu digitaalisena käyttöliittymänä on vihdoin kasvanut aikuiseksi.

Joten seuraavan kerran, kun avaat sanelusovelluksen, äänimuistion tai tekoälyagenttisi puhelimestasi, älä enää mieti, mitähaluat sen sanatarkasti kirjoittavan puolestasi.

Mieti sen sijaan tarkkaan, miten haluat sen kuuntelevan sinua tänään.

Posted in

Vastaa

Discover more from Mikko Lohenoja

Subscribe now to keep reading and get access to the full archive.

Continue reading