Voiko ääniagentin muotoilla työpariksi?

Tiiviisti

Äänellä keskustelevia tekoälyagentteja voidaan nykyään rakentaa helposti erilaisiin tilanteisiin.
Muotoilimme viisi ääniagentin versiota samasta aiheesta. Kokeilu havainnollistaa, miten äänitekoälyagentti muuttuu yleisavustajasta osaavaksi asiantuntijaksi.
Hyvän ääniagentin laatu rakentuu roolista, puheen rytmistä, äänen sävystä ja yhteisestä taustakontekstista.

Äänellä keskustelevat tekoälyagentit yleistyvät nyt vauhdilla. Niitä voidaan helposti rakentaa asiakaspalveluun, oppimisen tueksi, omaksi työpariksi, kokouksiin, sparraukseen ja ajattelun tueksi.

Ajatus kuulostaa yksinkertaiselta, eli käyttäjä puhuu, ja tekoäly vastaa puhumalla takaisin. Mutta kaikkein tärkeintä on agentin muotoilu oikeaan tehtävään, mikä on yhtä lailla tärkeää tekstipohjaisessa tekoälyagentissa.

Tuotteistettu ääniagentti ei silti ole vain äänellä maustettu tekstichat. Onnistuneessa muotoilussa ratkaiseviksi nousevat myös esimerkiksi rytmi ja vuorottelu, vastauksen luonteva pituus sekä puheäänen sopivuus.

Ääniäly-podcastissa kuullaan viisi demokeskustelua samasta perusideasta äänellä käytettävästä keskusteluagentista. Kaikissa näytteissä käydään keskustelua samasta laajasta teemasta, oppimisesta työelämässä.

Tämä kokonaisuus on tehty yhteistyössä Haaga-Helia ammattikorkeakoulun Osaamisen ytimessä -podcastin kanssa. Tekoälyagentin kanssa äänikeskustelijana demoissa on Osaamisen ytimessä -podcastin juontaja Elina Iloranta. Myöhemmin myös Osaamisen ytimessä -sarjassa kuullaan jakso, jossa näitä havaintoja puretaan tarkemmin.

Kuuntele kokonaisuus Ääniäly-podcastissa, tai erillisinä klippeinä artikkelista alta.

🔊✨ Ääniäly-podcast Spotifyssa

🔊✨ Ääniäly-podcast Apple Podcastsissa

Versiossa 1 on puhuva oletusagentti

Ensimmäinen versio oli keskusteluagenttipalvelun oletusasetuksilla luotu asiakaspalvelija, joka vastaa hyvin pitkälti sellaista kokemusta, jossa keskustelet ääneen tekoälyn kanssa esimerkiksi ChatGPT:n tai Google Geminin äänitilassa, ilman että palvelu tietää sinusta mitään lähtötietoja.

Tämä lähtöpiste havainnollistaa, kuinka paljon oletusasetukset määrittävät keskustelun lajia. System prompt, eli palvelun perusohje oli “You are a helpful assistant” ja aloitusviesti oli myös valmis oletusmuotoinen englanninkielinen tervehdys.

Äänenä oli palvelun ehdottama ääni ”Eric”, ja taustalla toimi palvelun ehdottama edullinen ja äänikeskusteluun sopivan nopea oletuskielimalli Gemini 2.5 Flash.

Kaikissa näissä keskustelutallenteissa vastausviivettä on hieman lyhennetty jälkikäteen kuunneltavuuden parantamiseksi, sillä tarkoituksena on havainnollistaa eri tavoin muotoiltujen agenttien keskustelun sisällön eroavaisuuksia, ei niinkään yksittäisen palvelun teknistä suorituskykyä.

Kuuntele version 1 keskustelu:Versiossa 1 on puhuva oletusagentti

Versiossa 2 kieli korjataan, mutta rooli ei muutu

Toisessa versiossa agentti muutettiin suomenkieliseksi. Se on jo paljon, ja keskusteluun sisäänpääsy helpottuu heti. Lokalisointi ei silti vielä tee agentista hyvää keskustelijaa. Vaikka kieli on nyt oikea, keskustelun laji on yhä pitkälti sama.

Kuuntele version 2 keskustelu:Versiossa 2 kieli korjataan, mutta rooli ei muutu

Versiossa 3 rooli tekee keskustelijan

Kolmannessa versiossa agentille annettiin tarkka rooli suomenkielisenä työelämän oppimisen ja osaamisen kehittämisen vertaissparraajana. Sen tehtäväksi määriteltiin käyttäjän ajattelun jäsentäminen.

Samalla sille asetettiin myös rajoja. Se ei saisi kuulostaa opettajalta, luennoitsijalta, terapeutilta tai asiakaspalvelijalta. Vastauksista pyydettiin puheelle sopivia, napakoita ja mielellään yhden ydinajatuksen ympärille rakentuvia.

Tässä myös taustalla oleva kielimalli vaihtui Geministä hieman kalliimpaan Claude Sonnet 4.6:een.

Kuuntele version 3 keskustelu:Versiossa 3 rooli tekee keskustelijan

Versiossa 4 on sama ajattelu, mutta eri sosiaalinen tuntu

Neljännessä versiossa varsinainen tekstimuotoinen roolitus pysyi samana kuin versiossa 3, mutta muutos tapahtui ääni-ilmaisun tasolla.

Ääni vaihtui valmiista miesäänestä erikseen roolia varten muotoiltuun suomenkieliseen naisääneen, jonka persoonaksi määriteltiin ajatteleva, lämmin ja hieman leikkisä asiantuntijasparraaja.

Lisäksi puheeseen lisättiin ilmaisullista ohjausta: ajattelevasti, lämpimästi, vakavasti, uteliaasti, pieni naurahdus, lyhyt tauko.

Näitä voisi pitää kosmetiikkana, mutta keskustelussa ne ovat osa personointia joka muokkaa sosiaalista tilannetta. Ääni on osa merkitystä, ja vaikuttaa siihen, miten huumori, vakavuus, terävyys, riski ja lämpö koetaan.

Kuuntele version 4 keskustelu:Versiossa 4 on sama ajattelu, mutta eri sosiaalinen tuntu

Versiossa 5 konteksti muuttaa keskustelun lajia

Viides versio säilytti kaiken edellisestä: sama ääni, sama rooli, sama puhetapa, sama kielimalli, mutta agentin tietopohjaa rikastettiin aiempien, juontajalle itselleen tuttujen Osaamisen ytimessä -podcastin aiempien jaksojen litteroinneilla.

Toisin sanoen agentti ei enää keskustellut vain yleisen kielimallin osaamisen eli ”kielellisen keskiarvoennustamisen” varassa, vaan sillä oli käytössään valmiiksi jaettua taustakontekstia, aiemmin käsiteltyjä teemoja, havaintoja, nimiä ja keskustelun historiaa.

Sen myötä ääniagentti alkaa muistuttaa oikeasti työhön perehdytettyä työparia. Ilman tällaista taustaa agentti voi olla hyvä keskustelija ns. kahvihuonetasolla. Kontekstin kanssa siitä voi tulla keskustelija, joka kantaa mukanaan yhteistä muistia. Se voi tehdä synteesiä, yhdistää irrallisia havaintoja, jatkaa kesken jäänyttä ajattelua ja viedä keskustelua kohti käytäntöä.

Kuuntele version 5 keskustelu:Versiossa 5 konteksti muuttaa keskustelun lajia

Mitä opimme nyt ääniagenttien rakentamisesta?

Jos tästä kokonaisuudesta pitäisi nostaa yksi keskeinen havainto, se olisi, että ääniagentti kannattaa muotoilla tietynlaiseksi keskustelutilanteeksi. Ääniagentin suunnittelun pitäisi alkaa kysymällä mitä tämän agentin on tarkoitus tehdä tässä hetkessä, tietyssä prosessissa tai työvaiheessa:

Onko se avustaja, joka auttaa etsimään tietoa?
Onko se sparraaja, joka auttaa jäsentämään ajatuksia?
Onko se fasilitaattori, joka tuo keskusteluun sen, mikä muuten jää piiloon?
Onko se muistava työpari, joka pystyy jatkamaan siitä, mihin viimeksi jäätiin?

Niistä muodostuu koko käyttökokemuksen rakenne.

Ääniagenttien kohdalla roolitus vaikuttaa vielä enemmän kuin kirjoittavissa chat-käyttöliittymissä, koska ääni on lähtökohtaisesti sosiaalinen tilanne, jossa vaikuttaa rationaalisen sisällön lisäksi myös alitajuisesti koettava äänimuotoilu. Ääneen puhuttu vastaus luo suhdetta, rytmiä ja tunnetta siitä, millaisessa tilanteessa nyt ollaan.

Tästä syystä hyvä ääniagentti syntyy siitä, että koko keskustelu muotoillaan alusta asti ääntä, vuorottelua ja ihmisen kokemusta varten.

Entäs se kielimallin valinta?

Tässä kokeilussa myös kielimalli vaihtui matkan varrella, ja sillä on ilman muuta merkitystä. Ensimmäisissä versioissa käytettiin Gemini 2.5 Flashia, joka on hyvin järkevä valinta silloin, kun haetaan kevyttä, nopeaa ja kustannustehokasta mallia.

Myöhemmissä versioissa siirryttiin Claude Sonnet 4.6:een, joka näyttäytyy tässä aineistossa vakaampana silloin, kun agentille annetaan tarkkaa roolitusta, sävyohjausta ja pidempiä keskustelullisia tavoitteita.

Mutta silti olisi liian helppoa sanoa, että tässä olisi vain nähty yhden kielimallin paremmuus toiseen verrattuna. Mallin vaihto yksin ei selitä suurinta osaa muutoksesta. Kielimalli on ikäänkuin auton moottori, mutta käyttäjän kokema laatu syntyy koko ajoneuvosta.

Suurimmat erot syntyivät siitä, että agentin työtä rajattiin askel askeleelta tarkemmin:

Ensin kieli.
Sitten rooli.
Sitten ääni-identiteetti.
Sitten konteksti.

Ääniagentin suunnittelu on siis pelkän kielen ja kielimallin valitsemisen ohella suurimmaksi osaksi enemmän vuorovaikutuksen suunnittelua, palvelumuotoilua ja ääni-identiteetin suunnittelua. Usein se on myös muistia, kontekstia ja yhteistä jatkumoa koskeva valinta.

Tämä viiden version kaari pyrkii havainnollistamaan nämä erot, ja sen, kuinka oikein suunniteltu ääniagentti on sellainen, että se tuntuu ymmärtävän, millaiseen keskusteluun se on kutsuttu mukaan.

Ääniäly-podcastin rinnalla tämä kokonaisuus on tehty yhteistyössä Haaga-Helia ammattikorkeakoulun Osaamisen ytimessä -podcastin kanssa. Myöhemmin Osaamisen ytimessä -sarjassa kuullaan myös oma jaksonsa, jossa tämän kokeen herättämiä ajatuksia ja päätelmiä käsitellään tarkemmin.

Uusimmat

Aiheet

Tykkää tästä:

VastaaPeruuta vastaus

Uusimmat

Aiheet