Minkälainen Siri olisi täydellisenä, ja onko se sitä syksyllä?

Tiiviisti

Apple valmistelee Sirille suurta uudistusta tulevaan iOS-päivitykseen. Ääniavustajasta on tarkoitus tehdä keskusteleva agentti.
Muutos on merkittävä, koska Siri on pitkään jäänyt jälkeen alkuperäisistä lupauksistaan. Uusi Siri nojaa kielimalleihin, laitteen tietoihin ja suojattuun pilveen.
Apple aikoo tuoda Sirille oman sovelluksen iOS-päivityksessä. Siellä käyttäjä voi jatkaa keskustelua puheella tai tekstillä.

Siri on Applen ääniavustaja, joka on elänyt osana arkeamme ja laitteitamme lähes viisitoista vuotta. Voit pyytää sitä asettamaan ajastimen, soittamaan yhteystiedolle, lähettämään viestin, hakemaan tietoa tai ohjaamaan laitteen toimintoja ilman, että avaat itse jokaista sovellusta erikseen.

Sen elinkaaren aikana siitä on kasvanut pelkkää puhekäyttöliittymää paljon suurempi ilmiö. Se on lähes kaikille meille tuttu esimerkki siitä, kun kone puhuu ihmiselle – hyvässä ja pahassa. Siri on kuin kuningatar parlamentaarisessa järjestelmässä: näkyvä ja ikoninen, mutta vailla todellista valtaa.

Siri onkin tarjonnut armottoman peilin teknologian todellisille rajoitteille. Miksi muuten ylistetty käyttöjärjestelmä tuntuu edelleen kadottavan punaisen langan, kun siltä kysyy yksinkertaisen jatkokysymyksen?

Nyt tulevan syksyn 2026 ja lähestyvän iOS 27 -käyttöjärjestelmäpäivityksen kynnyksellä, Sirin ympärillä kuhisee pitkästä aikaa.

Teknologiamedian huhut ja Applen virallinen kehittäjädokumentaatio vihjaavat, että Siriä valmistellaan siirtymään kohti kontekstia ymmärtävää ja sovellusten yli toimivaa agenttia. Tarkka iOS 27 -paketti on Applen osalta kuitenkin vielä julkistamatta, siitä saadaan lisätietoa ehkä kesäkuun alkupuolella.

Jos siirtymä kankeasta ääniavustajasta proaktiiviseksi keskusteluagentiksi olisi vihdoin tapahtumassa, on houkuttelevaa ajatella jo etukäteen, minkälainen tuo ”täydellinen Siri” oikeastaan olisi käyttäjän arjessa?

Toimintokoneen unohtunut alkuperäisidea

Voidaksemme ymmärtää Sirin tulevaisuutta ja paineita, joita päivitykseen kohdistuu, on palattava ajassa taaksepäin.

Kun Siri julkaistiin alkuperäisenä Applen ulkopuolisena sovelluksena helmikuussa 2010, sen taustalla oli SRI Internationalista ponnistanut Siri Inc. ja laajempi ajatus oppivasta, toimintoja järjestävästä avustajasta.

Alkuperäisen tekoälyprojektin, Yhdysvaltain puolustusministeriön DARPAn rahoittaman CALO-tutkimushankkeen (Cognitive Assistant that Learns and Organizes), tavoitteena oli nimenomaan oppiva ja asioita aktiivisesti järjestävä agentti. Tämä alkuperäinen Siri osasi jo kytkeä useita verkkopalveluita toisiinsa taustalla. Käyttäjä saattoi yhdellä pyynnöllä varata ravintolapöydän, kutsua taksin ja tarkistaa alueen elokuvanäytökset.

Kun Apple osti Sirin ja toi sen iPhone 4S -malliin lokakuussa 2011, teknologiamaailma oli hetken aikaa haltioissaan. Siri loi ensimmäistä kertaa kuluttajahistoriassa uskottavan illuusion älykkäästä ja ymmärtävästä tietokoneesta, joka on aina valmiina palvelemaan laitteen omistajaa.

Applen CEO-kaari ja unelma puhuvasta koneesta

Sirin aikajana on poikkeuksellisen latautunut. Apple esitteli iPhone 4S:n ja siihen liitetyn Sirin lokakuussa 2011 – vain päivää ennen Applen toisen perustajan, tunnetuimman toimitusjohtajan Steve Jobsin kuolemaa.

Siri jäi alusta asti eräänlaiseen välitilaan. Se oli Jobsin Applelle ostama ja vahvasti tulevaisuuteen osoittanut käyttöliittymä, mutta sen varsinainen elämä Applen sisällä jäi kokonaan uuden toimitusjohtajan Tim Cookin aikakaudella rakennettavaksi.

Jobsin Apple-historiassa Sirillä oli myös mahdollisesti pidempi ja symbolinen, ehkä henkilökohtainen merkitys.

Kun Macintosh esiteltiin tammikuussa 1984, Jobs ei halunnut laitteen olevan pelkkä tekninen tuote, vaan persoonaa kantava kone. Macintosh ei vain käynnistynyt lavalla, vaan esitteli itse itsensä syntetisoidulla puheella:

“Hello, I am Macintosh.”

Jobs halusi nimenomaan, että Macintosh olisi ensimmäinen tietokone, joka esittelee itse itsensä.

Tämä ei ollut vielä keskustelevaa tekoälyä, eikä edes puheella ohjattava käyttöliittymä. Se oli käsikirjoitettu esittelyhetki, jossa MacinTalk-puhegeneraattori antoi koneelle äänen.

Silti se kertoi Jobsin tavasta ajatella tietokonetta, jonka tulisi olla esine, johon käyttäjä saattoi muodostaa suhteen.

Jobs ymmärsi myös varhain, että puheella toimiva kone tulisi olemaan vaikea toteuttaa. Jo vuonna 1983 hän puhui siitä, että todellinen haaste ei ole vain äänen tunnistaminen, vaan kielen merkityksen ymmärtäminen. Tekoälyn ja kielimallien aikana tämä kuulostaa erityisen ajankohtaiselta.

Ihmisten välinen keskustelu on kontekstia, korjauksia, nyökkäyksiä, tarkennuksia ja jatkuvaa vuorovaikutusta. Myös Sirin lupaus syntyi siitä, että se ymmärtäisi, mitä ihminen yrittää saada aikaan.

Tässä voi olla yksi syy siihen, miksi Siri ei sitten Tim Cookin johtamalla Applella koskaan näyttänyt nousevan aivan kaiken keskiöön, vaikka Jobsille Siri mahdollisesti osui luontevasti pidempään käyttöliittymän filosofian jatkumoon, josta hän oli haaveillut jo 1980-luvulta asti.

Tim Cookin Apple taas rakentui ennen kaikkea sen vahvuuden varaan, että yhtiö hioi laitteita, siruja, palveluita, yksityisyyttä, toimitusketjuja ja ekosysteemiä menestyksekkäästi.

Oikeasti toimiva Siri olisi vaatinut Applelta jatkuvasti oppivaa, kontekstia keräävää, sovellusrajoja ylittävää ja osittain pilvipohjaista agenttilogiikkaa. Siksi Sirin ongelma oli myös se, että Sirin alkuperäinen lupaus oli organisatorisesti hankala. Aidosti agenttimainen Siri ei olisi ollut pelkkä iPhonen ominaisuus. Se olisi ollut uusi tapa käyttää koko Apple-ekosysteemiä.

Olisi siksi liian suoraviivaista väittää, että Siri jäi puolitiehen juuri Jobsin kuoleman vuoksi tai että Cookin Apple olisi yksinkertaisesti laiminlyönyt sen.

Ajoitus on kuitenkin symbolisesti vahva, etenkin kun nyt sama tarina saakin kiinnostavasti uuden käänteen. Vuodesta 2011 eli koko Sirin elinkaaren ajan toimitusjohtajana toiminut Tim Cook siirtyy Applen hallituksen executive chairman -rooliin ja John Ternus aloittaa toimitusjohtajana syyskuun alussa 2026.

Sirin pitäisi vihdoin lunastaa alkuperäinen lupauksensa juuri silloin, kun Apple pitkästä aikaa siirtyy jälleen yhden johtajakauden yli seuraavaan.

Kun illuusio murtui

Apple siis tuotteisti alkuperäistä Siri-visiota huomattavasti rajatumman ääniavustajan. Julkisten lähteiden perusteella taustalla oli sekä teknisiä että tuote- ja alustastrategisia rajoitteita. Siri jäi pitkälti ennalta rakennettujen toimintopolkujen varaan sen sijaan, että se olisi vapaasti yhdistellyt palveluita ja oppinut uusia toimintatapoja.

Seuraavan vuosikymmenen aikana Applen laitteiden määrä kasvoi voimakkaasti, mutta Sirin kehitys laahasi perässä. Asiantuntijoiden mukaan taustalla vaikutti merkittävä tekninen velka, ohjelmiston perusarkkitehtuuri oli jäykkä.

Sirin tiimi yritti paikkailla kapeita, yksittäisiä kysymyksiä ratkovia polkuja sen sijaan, että järjestelmä olisi kyennyt jatkuvaan pilvipohjaiseen oppimiseen ja iterointiin. Samaan aikaan kilpailijat, erityisesti Amazon vuonna 2014 julkaistulla Alexalla, rakensivat ääniohjauksen ympärille nopeasti laajan ekosysteemin ja suuren kehityskoneiston.

Siri alkoi kerätä mainetta pettymyksenä. Sen odotusarvot oli viritetty älykkääseen agenttiin, mutta todellisuudessa käyttäjät oppivat luottamaan siihen lähinnä keittiön ajastimien asettamisessa ja auton navigaattorin äänenä.

Ääniäly-termit tutuksi: Avustajasta agentiksi

Keskustelu ääniavustajista ja tekoälystä ylipäätään menee usein sekaisin, koska alan terminologiaa käytetään huolimattomasti. Jotta syksyn 2026 lupauksen mittakaava hahmottuu, alan keskeiset käsitteet on syytä erottaa toisistaan tarkasti:

Puhekäyttöliittymä (Voice UI): Rajapinta, jossa ihminen käyttää järjestelmää puhumalla ja saa vastauksen usein puheena takaisin. Yksinkertaisimmillaan se tarkoittaa sitä, että ihmisen tuottama puhe muutetaan tekstiksi koneelle ja koneen luoma teksti syntetisoidaan takaisin puheeksi. Modernimmissa järjestelmissä mukana voi olla myös äänen suoraa käsittelyä, vuorottelun hallintaa, taukojen tulkintaa ja muuta puhekeskustelun muotoilua. Puhe on poikkeuksellisen nopea tapa syöttää laitteelle tietoa, mutta toisaalta helposti hidas ja kognitiivisesti raskas tapa vastaanottaa monimutkaista informaatiota.
Perinteinen ääniavustaja: Tähän kategoriaan putoaa ensimmäisen sukupolven Siri. Järjestelmä odottaa käyttäjältä kapeaa, selkeää komentoa (”Soita äidille”) ja laukaisee siihen koodatun suoraviivaisen toiminnon. Sillä on hyvin heikko muisti, eikä se ymmärrä edellisen ja seuraavan lauseen välistä loogista yhteyttä.
Kielimalli (Large Language Model, LLM): Tekoälyn päättely- ja kielenmuodostuskerros, joka tuottaa jatkoa sille annetulle syötteelle ”token” kerrallaan. Kielimalli ei yksinään vielä tee asioita käyttäjän laitteella, vaan toiminnallisuus syntyy vasta, kun se kytketään työkaluihin, sovelluksiin, tietoihin ja käyttöoikeuksiin.
Keskusteluagentti: Se kokonaisuus, johon Apple Intelligence ja iOS 27 huhujen mukaan tähtäävät. Keskusteluagentti yhdistää kielimallin luovan päättelykyvyn laitteen omiin tietoihin ja sovellusten rajapintoihin. Se ymmärtää dialogin historian, sietää inhimillisiä kielioppivirheitä tai korjauksia kesken lauseen ja pystyy ketjuttamaan eri toimintoja itsenäisesti ymmärryksensä pohjalta.

Miltä ”täydellinen Siri” tuntuisi?

Käyttöliittymän täydellisyys tarkoittaa ennen kaikkea kitkan poistamista ja kontekstin aukotonta hallintaa. Käytännön tasolla tämä täydellinen Siri toimisi seuraavien periaatteiden mukaisesti:

Henkilökohtainen relevanssi ja muisti: Sinun ei koskaan tarvitse selittää asioita alusta. Jos sanot agentille: ”Lähetä Sarille se kuva eiliseltä lounaalta”, järjestelmä tietää välittömästi kuka Sari on, tunnistaa lounaskuvat tekoälyn avulla ja tekee toimenpiteen saumattomasti taustalla.
Toiminta sovellusten yli: Perinteinen Siri osasi avata yksittäisen sovelluksen ja jättää loput käyttäjän huoleksi. Täydellinen Siri osaa toimia sovelluksen sisällä ja niiden välillä rajapintojen avulla. Se kykenee esimerkiksi kopioimaan sähköpostissa olevan matkavarauksen tiedot, luomaan niistä tapahtuman kalenteriin ja asettamaan automaattisen reittioppaan ilman, että käyttäjä avaa yhtäkään sovellusta.
Luonnollinen virheistä toipuminen: Ihminen kommunikoi harvoin täydellisillä, katkeamattomilla virkkeillä. Epäröimme, korjaamme itseämme (”Ei kun anteeksi, laita sittenkin se tapaaminen perjantaille”) ja pidämme taukoja. Täydellinen agentti sietää tätä epätäydellisyyttä ilman, että prosessi kaatuu tai alkaa alusta.
Oikea-aikaisuus ja viiveen hallinta: Kenties kriittisin yksittäinen ominaisuus on latenssi. Jos ääniavustajan reaktio venyy selvästi yli sekunnin ilman luontevaa palautetta, illuusio välittömästi mukana olevasta agentista alkaa säröillä ja interaktio tuntuu raskaalta työltä.

Yksityisyyden haasteen ratkaiseminen

Suurin yksittäinen este edellä kuvatulle täydelliselle tekoälylle on infrastruktuurissa ja tietosuojassa. Kielimallit vaativat paljon laskentatehoa, joka asuu tyypillisesti suurissa palvelinkeskuksissa.

Tämä on ollut myrkkyä Applen ”yksityisyys edellä” -filosofialle. Jos agentin pitää lukea henkilökohtaisia sähköpostejasi ymmärtääkseen mitä haluat, tuota dataa ei voida kenenkään turvallisuusstandardien mukaan lähettää avoimiin kolmansien osapuolten pilvipalveluihin.

Tähän umpikujaan Apple on esittänyt poikkeuksellisen ratkaisun, Private Cloud Compute (PCC) -teknologian. PCC on eristetty pilviarkkitehtuuri, joka hyödyntää laitteiden sisällä toimivasta teknologiasta tuttua suojausta, mutta vie sen palvelintasolle.

Kun laitteen oma, paikallinen teho (on-device processing) ei riitä monimutkaisen pyynnön käsittelyyn, järjestelmä voi lähettää pyynnön kannalta rajatun datan Private Cloud Compute -palvelimelle. Applen lupauksen mukaan tätä dataa ei tallenneta, sitä ei aseteta Applen saataville, ja se poistetaan käsittelyn jälkeen.

Apple otti jopa harvinaisen askeleen avaamalla tämän arkkitehtuurin riippumattomien tietoturvatutkijoiden tarkastettavaksi, taatakseen järjestelmän pitävyyden. Tämä innovaatio on ehdoton edellytys sille, että Apple voi ylipäätään siirtyä turvallisesti kohti täyttä agenttisuutta.

Mitä iOS 27 ja Gemini oikeasti ehkä tuovat?

Katseet ovat siis nyt siirtyneet kesäkuun odotettuun WWDC-konferenssiin ja syksyllä ilmestyvään iOS 27 -käyttöjärjestelmään. Mitä voimme odottaa silloin kerrottavan tulevasta Siri-päivityksestä?

Odotukset uudesta chatbot-käyttöliittymästä ovat vahvoja. On uskottavasti raportoitu, että Siri saa erillisen sovelluksen. Tässä käyttöliittymässä käyttäjä voisi selata aiempia keskusteluja, muokata tekstejä lennosta ja käydä monivaiheisia, ChatGPT-tyyppisiä dialogeja niin puheella kuin kirjoittamalla.

Toinen massiivinen muutos liittyy Googlen Gemini-kumppanuuteen. Apple näyttää tehneen strategisen valinnan: sen ei tarvitse rakentaa kaikkea yleistiedon kielimallikyvykkyyttä yksin, vaan se voi nojata Geminin kaltaiseen ulkoiseen mallipohjaan ja säilyttää samalla kontrollin käyttöliittymästä, laitteista ja yksityisyysarkkitehtuurista.

Raporttien mukaan Apple hyödyntää Geminin mallia myös omien ”Apple Foundation Models” -pienmallien tislaamiseen (distillation).

Tämä tarkoittaisi, että kun kysyt Siriltä monimutkaista yleistieto- tai tutkimuskysymystä, iOS 27 voisi hyödyntää Gemini-teknologiaan perustuvaa vahvempaa mallikerrosta, ylläpitäen kuitenkin yksityisyyden vahvojen rajapintojen kautta.

Lisäksi huhutaan, että Apple saattaa avata laajemman kolmansien osapuolten tekoälylaajennusten markkinapaikan (Extensions) App Storeen, jolloin käyttäjät voisivat asettaa vaikkapa Anthropicin Clauden tietynlaisten tutkimustehtävien hoitajaksi Sirin sisällä.

Merkittävä teknologinen askel olisi myös monikomento-ominaisuuksien (Multi-Command) ketjuttaminen. Raporttien perusteella Siri voisi iOS 27:n myötä purkaa monimutkaisen lauseen – ”Kerro sää kohteessa, laita viesti Petrille että myöhästyn hieman, ja laita soimaan uusin uutispodcast” – alitehtäviksi ja suorittaa ne peräkkäin ilman ihmisen apua.

Vaikka villeimmät huhut povaavat täyttä ja virheetöntä autonomiaa, Applen konservatiivinen kehitysfilosofia tarkoittaa todennäköisesti sitä, että kriittisimmissä vaiheissa järjestelmä pyytää yhä käyttäjältä vahvistuksen (human in the loop).

Pienet valinnat ja suuri illuusio

Sirin historia osoittaa, kuinka vaikeaa on ohjelmoida luonnollista inhimillistä kanssakäymistä koneelle. Apple on joutunut rakentamaan omaa siru-, sovellusrajapinta- ja pilviarkkitehtuuriaan poikkeuksellisen pitkälle, jotta henkilökohtainen tekoäly voisi toimia laitteen, sovellusten ja yksityisyyden rajapinnoilla uskottavasti.

Mutta kuten kuka tahansa käyttöliittymäsuunnittelija tai puheteknologian insinööri tietää, massiivinen tekoälyinfra on vasta puoli ruokaa.

Kun teknologia vihdoin toimii taustalla saumattomasti, keskusteluagentin lopullinen laatu ja käyttäjän kokema luottamus syntyvätkin lopulta täysin toisaalla.

Ne syntyvät sekunnin murto-osan mittaisista miettimistauoista, agentin valitsemasta kielellisestä sanastosta, äänensävyn empaattisuudesta ja siitä, kuinka sujuvasti ohjelmisto kykenee myöntämään omat inhimilliset virheensä.

Toisin sanoen, ne syntyvät muotoilusta.

Miten puhuvan tekoälyn rooli, kieli ja vastaustyyli sitten muotoillaan niin, ettei järjestelmä tunnu vain ylivoimaisen fiksulta hakukoneelta, vaan aidosti luottamuksen arvoiselta kumppanilta?

Ensi viikolla jatkamme uutiskirjeessämme tästä keskusteluagenttien muotoilun teemasta.

Uusimmat

Aiheet

Tykkää tästä:

VastaaPeruuta vastaus

Uusimmat

Aiheet