Tekninen toteutus Publishertools Oy:n palveluille

Business Tampereen "Älykkäämpi organisaatio" -tapahtumasarjan viimeisimmässä tilaisuudessa käsiteltiin perinteisten toimialojen murrosta tekoälyn aikakaudella. Minun osuuteni esityksestä oli raottaa konepeltiä teknisen toteutuksen yltä.

Tunnistetut tarpeet

Kustannusosakeyhtiö Siltalassa tunnistettiin tarve kehittää työkalu, joka voisi automatisoida kustantamiseen liittyviä prosesseja sekä parantaa kirjan näkyvyyttä. Kirjan näkyvyyden parantamiseen tähtää metatiedon rikastaminen. Äänikirjojen tuottamiseen liittyviä töitä voitaisiin automatisoida ja ihmistyön tarvetta vähentää ääninäyttelijälle annettavissa lukuohjeissa.

Kuva 1. Hankkeen alussa tunnistetut tarpeet

Molemmat tarpeet on ratkaistavissa erikoistuneilla tekoälyalgoritmeilla, jotka tuottavat ehdotuksia kirjan sisällön perusteella.

Lähes kahden vuoden aikana aloituksesta tarpeita on tunnistettu lisää. Kirjan sisältöä on ennen julkaisua täydennetty henkilö- ja asiasanahakemistoilla. Nämä tyypillisesti tietokirjoihin liittyvät sisällöt on toimitettu täysin käsityönä. Kirja pitää olla tässä vaiheessa jo taitettuna, jotta sivunumerot olisivat tiedossa. Lisäksi EU:n saatavuusdirektiivi asettaa vaatimuksia sähköisiin kirjoihin, joita ei ole aiemmin huomioitu. Tämä tekee uusien sähkökirjojen tuottamisesta hiukan työläämpää ja tullee ilmeisesti vaatimaan myös aiemmin julkaistujen sähkökirjojen muokkausta.

Kuva 2. Tämänhetkinen näkemys kustannusalan tarpeista.

Ratkaisu metatiedon rikastamiseen.

Kirjan metatiedot, joilla tähdätään näkyvyyden parantamiseen, käsittävät sekä avainsanat että kirjan thema-koodiluokituksen. Näillä metatiedoilla pyritään auttamaan erilaisia verkkokauppoja ja hakukoneita kohdistamaan tuote sen lukijaan.

Tekninen toteutus lähtee liikkeelle syötteen tyypin valinnasta. Mahdollisia vaihtoehtoja on kirjailijalta saatava käsikirjoitus, painokelpoinen PDF tai sähkökirjojen EPUB-formaatti.

Kirjailijan tuottama käsikirjoitus ei ole yksi ja vakiintunut formaatti, koska yleisiä työkaluja on useita. Lisäksi työkalut mahdollistavat vielä varsin laajan kirjon sisällön esittämiseen. Alkuperäisten käsikirjoitusten saatavuus osoittautui yllättäen melko haastavaksi. Kustantaja ei välttämättä säilytä kirjan käsikirjoitusmuotoa enää sen jälkeen kun painokelpoinen PDF tai taittotiedosto on valmistunut.

Painokelpoinen PDF vaikuttaa olevan se arkistoitava versio. PDF-formaatin purkaminen on omalla tavallaan haastavaa, koska sille on tehty kiinteä sivutus. Sivutuksen yhteydessä sanoja on jaettu riveille ja sivuille. Lisäksi sivutuksessa on voitu tehdä muitakin taiteellisia tehokeinoja mm. anfangit. Näiden muutosten ohjelmallinen peruuttaminen ei kaikissa tilanteissa välttämättä tuota alkuperäistä tekstiä.

Sähköinen EPUB-formaatti olisi rakenteeltaan lähimpänä ohjelmistosuunnittelijan toiveita. Se taas ei sovellu tarkoitukseen, koska kaikista kirjoista ei tuoteta EPUB-formaattia. Lisäksi se tuotetaan vasta taittotiedoston jälkeen, joten se olisi saatavissa myöhemmin kirjan elinkaaren aikana.

Päädyimme näistä vaihtoehdoista valitsemaan painokelpoisen PDF-formaatin. Jälkikäteen ajateltuna päätös olisi edelleen sama, jos olisimme lähtöpisteessä.

Kuva 3. Metatietojen rikastaminen prosessina

Metatietojen rikastamisen välitavoitteena on tulosten saatavuus Storian (ent. Kirjavälitys) järjestelmissä. Täältä metatiedot päivittyvät kirja- ja verkkokauppoihin sekä hakukoneiden saataville.

Kuva 4. Metatietojen rikastaminen toteutuksineen

Käyttäjältä vaaditaan huomiota prosessin käynnistämiseksi. Tämä tapahtuu syöttämällä PDF-muotoinen kirja järjestelmään. Seuraavaksi PDF-muotoinen kirja muutetaan raakatekstiksi. Open source pohjaiset PDF-kirjastot riittävät tähän tarkoitukseen hienosti.

Avainsanojen ja themakoodien ehdottaminen toteutetaan näihin tarkoituksiin erikseen koulutetuilla Annif-malleilla. Annif on useamman tekoälyalgoritmin yhdistelmä, joka on lähtöisin Suomen kansalliskirjaston tutkijoilta. Tästä yhdistelmästä on metatiedon rikastamiseen koulutettu kaksi erillistä mallia.

Kun mallit ovat tuottaneet avainsana- ja themakoodi-suositukset, käyttäjän tehtävänä on täydentää ja vahvistaa nämä. Tämän jälkeen integraatio siirtää päivittyneet tiedot Storian tietokantaan.

Lukuohje ääninäyttelijän tueksi

Äänikirjan tuottaminen vaatii kirjan lisäksi ohjeet. Nähtävästi varsin yleistä on, että ääninäyttelijä saa nipun paperia. Näyttelijän vastuulle jää tämän jälkeen löytää ohjeistetut kohdat kirjasta ja noudattaa ohjeita soveltuvin osin.

Tavoitteena oli tuottaa ääninäyttelijälle näkymä kirjaan, jossa huomiota vaativat sanat ja sanonnat ovat luontaisena osana kerrontaa. Lukuohjeen tuottajalle järjestelmä tarjoaa apua huomioitavien kohtien tunnistamisessa sekä niiden lausumisessa.

Kuva 5. Lukuohjeen tuottaminen kirjan perusteella

Lukuohjeen tuottaminen lähtee liikkeelle PDF-muotoisen kirjan muuntamisella raakatekstiksi. Raakatekstistä tunnistetaan vierassanat, jotka poikkeavat kieleltään kirjan kielestä. Näille vierassanoille suoritetaan kielen tunnistus. Kun virrasta poikkeavat sanat ja niiden kieli on tunnistettu, voidaan tuottaa varsinainen lukuohje. Tämä tapahtuu tuottamalla vierassanasta foneettisen aakkoston (IPA - International Phonetic Alphabet) mukainen esitys. Tätä esitystä voidaan käyttää joko ääniesimerkin tai kirjallisen esimerkin, lukuohje, tuottamiseen.

Foneettisen aakkoston (IPA) esitys on kyseistä aakkostoa tuntemattomalle melkoisen vaikea, joten maallikolle sopivampi muoto on tarpeen. Tässä sovelluksessa muoto on käyttäjäpalautteen perusteella määritelty.

Kuva 6. Lukuohjeen tuottaminen tarkemmalla tasolla

Lukuohjesovelluksessa on kaksi käyttäjäroolia. Toinen rooli on lukuohjeen tuottaja ja toinen ääninäyttelijä. Lukuohjeen tuottaminen lähtee liikkeelle PDF-muotoisen kirjan syöttämisellä järjestelmään. Tässä yhteydessä ilmoitetaan kirjan todennäköisin vieraskieli. Tätä tietoa käytetään, mikäli vierassanan kieltä ei tunnisteta.

Kirjan käsittely alkaa järjestelmässä PDF-muodon purkamisessa raakatekstiksi. Avoimen lähdekoodin kirjastot eivät suoraan riittäneet tähän tarkoitukseen, joten toiminnallisuus vaati oman toteutuksen.

Raakatekstin jälkeen tekstivirrasta tunnistetaan vierassanat. Tähän tarkoitukseen meillä on tuotantokäytössä yksi malli, jonka rajat tiedämme tulleen jo vastaan. Kehitysputkessa meillä on toinen malli, jolla rajat ovat paljon kauempana. Vierassanan tunnistuksessa tärkeää on löytää vierassanan perusmuoto. Suomen kielessä on tyypillistä, että vierasperäisiä sanojakin taivutetaan suomen kielen sääntöjen mukaan.

Kun raakatekstivirrasta on tunnistettu vierassanat tai sanonnat, tulee niiden alkuperäkieli tunnistaa. Tähänkin käyttöön on tuotantokäytössä malli, jonka rajat alkavat tulla vastaan. Sen korvaajaksi on suunnitteilla kehittyneempi malli, jonka on määrä parantaa tulosta merkittävästi. Mikäli malli ei kieltä kuitenkaan tunnista, käytetään kirjan syöttämisen yhteydessä annettua oletusvieraskieltä.

Kun vierassana tai sanonta ja sen kieli on ratkaistu, voidaan tämän perusteella tuottaa foneettisen aakkoston kuvaus. Kuvaus on IPA-muotoinen ja sinällään varsin yleinen. Tämä muoto ei kuitenkaan ole tuttu monille ääninäyttelijöille, joten lukuohjeen muodostamiseksi olemme kehittäneet muunnoksen tavallisempaan aakkostoon.

IPA kuvauksen pohjalta pystytään myös tuottamaan äänimuotoinen esimerkki. Tähän tarkoitukseen käytetään Microsoftin Azuren tarjoamaa valmista ”Azure AI Speech”-palvelua.

Tämä prosessointi suoritetaan, kun kirja on lukuohjeen tuottajan toimesta syötetty järjestelmään. Lukuohjeen tuottajalla on tämän jälkeen mahdollisuus tarkistaa ja tarvittaessa muokata tai täydentää ohjetta. Lukuohjeen tuottaja lähettää järjestelmän kautta ääninäyttelijälle ja mahdollisille tarkastajille henkilökohtaiset linkit, joilla pääsevät lukuohjetta käyttämään.

Ääninäyttelijällä on oma hyvin pelkistetty käyttöliittymä, jonka tarkoituksena on toimia digitaalisena näkymänä kirjan sisältöön. Yksittäisten vierassanojen ja -sanontojen yhteyteen tarjotaan lukuohjeita ja myös ääniesimerkki on lukijan käytettävissä. Lukuohjetta ei ole tässä vaiheessa enää tarkoitus muokata, joka mahdollistaa tarpeettomien toimintojen riisumisen käyttöliittymästä. Näin pelkistämällä saadaan käyttöliittymään lisää selkeyttä. Ääninäyttelijöiltä on saatu hyvin positiivista palautetta.

Jatkokehitys

Tässä tekstissä on kuvattu kaksi käyttökohtaa kirjan kustantamisen työkaluiksi. Nämä ovat tuotantokäytössä ja niitä kehitetään eteenpäin pitkälti käyttäjäpalautteen pohjalta. Kehityskohteena on myös muita edellä mainittuja työkaluja. Kiireellisin tarve on sähkökirjojen epub-formaatin tuottaminen EU:n saatavuusdirektiivin mukaisena.

Tekninen toteutus Publishertools Oy:n palveluille

Kimmo Hakkarainen

Sinua voisi kiinnostaa myös nämä blogikirjoituksemme

Kirja-alan murros ja Publishertools Oy:n synty

Perinteiset toimialat tekoälyn murroksessa