Kohti suomenkielisiä keskustelumalleja: tule kehittämään tekoälyä

Erilaiset generatiiviset kielimallit ovat olleet huomion keskipisteenä noin vuoden ajan ChatGPT:n tultua laajan yleisön käyttöön. Tekoälystä on keskusteltu runsaasti uutisissa, ja monet tahot, yliopistot mukaan luettuina, ovat järjestäneet keskustelutilaisuuksia esimerkiksi opiskelijavilpistä ja työelämänäkymistä. Kansallisesta näkökulmasta kielimallien kehitystyö ja käytännön pelisäännöt ovat olleet keskeisiä teemoja, sillä meiltä puuttuu suomalaiseen kulttuuriin ja kieleen täsmätuotteena laadittu kielimalli.

Turun yliopiston kieliteknologian tutkimusryhmä TurkuNLP vastaa nyt tarpeeseen suomenkielisestä tekoälystä. Ryhmä on nimittäin juuri julkaissut Avoin Avustaja -verkkoalustan suomeksi keskustelevan kielimallin kehittämistä varten. Avoin Avustaja pohjautuu aiempaan LAION AI:n avoimen lähdekoodin Open Assistant -projektiin, joka päättyi aikaisemmin tänä vuonna. Tämä hanke keräsi vapaaehtoisten käyttäjien tuottamaa keskusteludataa monilla eri kielillä. Projektissa tuotettu data oli kuitenkin pääosin englanninkielistä eikä vastaavanlaista dataa ole saatavilla suomeksi. Tästä syystä ryhmä päätti luoda täysin suomenkielisen vastineen verkkoalustaa hyödyntäen. Kuten Open Assistant, myös Avoimen Avustajan ohjelmakoodi sekä tuotettu data ovat vapaasti ladattavissa ja käytettävissä avoimesta lähteestä.

Kieli- ja käännöstieteiden laitoksen tämän syksyn Korpuksia ja kieliteknologiaa -kurssilla opiskelijat pääsivät osallistumaan hankkeen pilottivaiheeseen. Heidän tarkoituksenaan oli muun muassa arvioida jonkun muun tekemiä kysymys-vastaus pareja. Kun tehtävän kanssa oli saanut työskennellä luennolla, palaute oli, että opiskelijat pitivät tehtäviä hauskoina ja mielenkiintoisina. Positiivista oli myös se, että sai työskennellä aidon hankkeen parissa. Yksi opiskelija kommentoi arviointitehtävään, että oli aivan mahtavaa, että kysymykseen “Miten menen työmatkat Turun ja Helsingin välillä?” järjestelmästä löytyi vastaus “Suosittelen menemään julkisilla”. Opiskelijan mukaan tämä keskustelu edusti luontevaa idiomaattista suomenkielistä kielenkäyttöä – usein kun malleista hänen mukaansa aistii englanninkieliset rakenteet niiden taustalla.

Laajalti tunnetut sovellukset kuten ChatGPT ja Bing AI ovat suljettua lähdekoodia, ja niiden kehitysprosessista tiedetään hyvin vähän. Tästä poiketen TurkuNLP kutsuu vapaaehtoisia käyttäjiä nyt mukaan ainutlaatuiseen mahdollisuuteen osallistua suomenkielisen tekoälyn kehittämiseen. Avoimen Avustajan käyttö ei edellytä erityistä teknistä osaamista, ja se on avoin kaikille asiasta kiinnostuneille.

Verkkoalustalle rekisteröidytään sähköpostia käyttämällä osoitteessa https://avoin-avustaja.fi.

Viestien tuottamiseen ja arviointiin liittyvä ohjeistus löytyy osoitteesta https://github.com/TurkuNLP/Open-Assistant/wiki.

Lisätietoja: TurkuNLP, turkunlp.org

Kirjoittajat ovat TurkuNLP-ryhmän jäseniä Turun yliopistosta.