Sadarbojoties valodas tehnoloģiju uzņēmumam "Tilde" un radošo industriju komunikācijas platformai FOLD, portāla uzkrātais saturs pārtaps valodas korpusā ar vairāk nekā 10 500 paralēliem teikumiem latviešu un angļu valodā un tiks publicēts atvērto datu portālos, palīdzot uzlabot mašīntulkošanas tehnoloģiju radošajām industrijām.
Mūsdienās mašīntulkošana jeb teksta automātiska tulkošana kļuvusi par neaizstājamu palīgu valodas barjeru mazināšanā un produktīvākā tulkošanā. Lielajām Eiropas valodām kā angļu, spāņu un franču jau ir pieejams spēcīgs mašīntulkošanas atbalsts, taču arī latviešu valoda var lepoties ar kvalitatīvām valodas tehnoloģijām. Lielo datu laikmetā dalīšanās ar datiem un informāciju rada auglīgu vidi jaunām idejām un palīdz attīstīt tehnoloģijas. Arī interneta mediju saturs ir vērtīgi dati, kurus iespējams izmantot, piemēram, valodas tehnoloģiju pilnveidošanai.
"Mašīntulkošanas sistēmas mācās no valodas korpusiem, kuri sastāv no vārdu un teikumu pāriem, piemēram, teikumam latviešu valodā tiek piemeklēts tā tulkojums angļu valodā. Jo vairāk un dažādākus valodas datus sistēma apgūst, jo precīzāk tā spēj tulkot. Tādēļ valodas korpusu savākšana ir būtiska valodas tehnoloģiju izstrādes daļa, un tulkota satura apzināšana un koplietošana kļūst par normu mūsdienu satura apritē," skaidro Roberts Rozis, "Tildes" valodas resursu pārvaldnieks, "portāls FOLD regulāri publicē saturu par aktuālo Latvijas un ārvalstu radošajās industrijās, turklāt saturs tiek veidots ļoti līdzīgs latviešu un angļu valodā. Tādēļ uzkrātie valodas dati ir izcils resurss valodas korpusa veidošanai. Tos apstrādājot, tiks iegūti vairāk nekā 10 500 paralēlie teikumi."
Uzņēmums "Tilde" strādā gan pie mašīntulkošanas sistēmu izstrādes, gan pareizrakstības, balss atpazīšanas un balss sintēzes rīkiem. Tehnoloģiju pilnveidošanai talkā tiek ņemti neironu tīkli un mākslīgais intelekts, kuru apmācīšanai tiek izmantots liels apjoms datu. Populārās mašīntulkošanas sistēmas kā "Google Translate" labi tiek galā ar ikdienā biežāk lietoto vārdu krājumu un fokusējas uz lielajām valodām, taču "Tilde" strādā pie tā, lai mašīntulks būtu pieejams arī latviešu valodai, tai skaitā nozarēm ar tām raksturīgo terminoloģiju un valodas lietojumu. Tādēļ regulāri tiek meklēti starpnozaru partneri, kas ir gatavi dalīties ar uzkrātajiem valodas datiem.
"Jau sākotnēji nolēmām, ka FOLD saturu veidosim reizē latviešu un angļu valodā, lai par Latvijas radošajām industrijām varētu lasīt arī cittautieši, un rūpēsimies par to, lai rakstu valoda būtu pareiza. Radošajās industrijās, kurās no angļu valodas vai ik dienu ienāk jauni termini, veidot latviešu valodā saprotamus teikumus bieži vien ir izaicinoši. Tas, ka mūsu tulkotie raksti izrādījušies noderīgi arī mašīntulkošanas sistēmu attīstībai, ir pozitīvs novērtējums FOLD tekstu kvalitātei, un esam ļoti priecīgi, ka varam palīdzēt pilnveidot latviešu valodas tehnoloģijas,"uzsākto sadarbību komentē FOLD dibinātāja Evelīna Ozola.
"Tilde" aicina arī citus uzņēmumus un organizācijas dalīties uzkrātajos valodas datos un piedalīties mašīntulkošanas tehnoloģijas attīstīšanai latviešu valodai.
FOLD — fold.lv
Tilde — tilde.lv
Sagatavoja:
Evelīna Ozola, FOLD
evelina@fold.lv