Outomatiese spraak- en sleutelwoordherkenning in Afrikatale

  • 0

Inleiding

Die Syferseinverwerkingsgroep (SSV) aan die Universiteit Stellenbosch se Departement Elektriese en Elektroniese Ingenieurswese bestudeer ’n wye verskeidenheid seine. Daar is onder andere al gekyk na spraak, snorkgeluide, hoesklanke, olifantgeluide, bewegingspatrone van renosters en mikroskopiebeelde. Afgesien van die bestudering van seine het die groep ook al verskeie metodes ontwikkel om seine op te vang en om in die natuur energie vir sensors te voorsien, soos kinetiese energie-insameling vir sensors wat deur diere gedra word. Met die wynlande in die nabyheid het die groep ook al sensornetwerke en dataprosesseringstrategieë geskep om die welstand van wingerde te monitor in ’n poging om druiweoes-opbrengste te verbeter. Nog ’n onderwerp wat aandag geniet, is die ondersoek na metodes om grafika in digitale dokumente vir siggestremde lesers toeganklik te maak.

Natuurlike taalverwerking

Tot redelik onlangs was geoutomatiseerde natuurlike taalbegrip en -generering slegs moontlik in wetenskapsfiksie. Die situasie het egter radikaal verander en deesdae het baie dienste en toestelle spraakkoppelvlakke (speech interfaces). Sulke koppelvlakke laat gebruikers toe om spraak te gebruik om vrae te vra of om hul behoeftes letterlik uit te spreek. Sommige toestelle gebruik outomaties-gegenereerde spraak om gebruikers van antwoorde te voorsien. Maar baie meer as seinprosessering is nodig om outomaties deur middel van natuurlike taal te kan kommunikeer.

Om byvoorbeeld die vermoëns van die bekende wetenskapsfiksierekenaars soos HAL in die fliek 2001 Space Odyssey en Star Trek se Computer te ontwikkel, vereis ’n ingewikkelde kombinasie van prosesse soos spraakherkenning, natuurlike taalbegrip, liplees, natuurlike taalgenerering en spraaksintese. HAL en Computer doen ook inligtingontsluiting (om vas te stel waar tekstuele hulpbronne lê), inligtingonttrekking (die opdiep van tersaaklike feite vanuit dié tekstuele bronne) en maak dan ook afleidings om ’n gepaste antwoord te kan genereer. Elke stap van dié proses behels verskillende velde van kundigheid en skep ’n magdom tegniese uitdagings.

Die menslike taaltegnologie waarop die SSV-groep fokus, is outomatiese spraakherkenning (automatic speech recognition of ASR) en sleutelwoordherkenning (keyword spotting of KWS). ASR-stelsels skakel menslike spraak om in teks terwyl KWS-stelsels groot volumes spraak fynkam om vas te stel of spesifieke woorde of frases in ’n klankgreep voorkom al dan nie. ASR-tegnologie fasiliteer onder meer toepassings soos digitale assistente, outomatiese dikteestelsels en stemsoekfunksies. KWS word onder meer deur mediamoniteringsmaatskappye gebruik om te bepaal watter onderwerpe in radio-uitsendings genoem word of om vas te stel of spesifieke woorde of name in gesprekke opduik.

Die era van groot data en diepleer (deep learning) het in verskeie velde tot groot vooruitgang gelei, insluitend in ASR en KWS. Baie van die tegnieke wat as toonaangewend beskou word, maak egter staat op reuse hoeveelhede data en uitgebreide rekenaarkrag. Suid-Afrika se 11 amptelike tale – en baie ander tale in die wêreld – het ongelukkig nie baie hulpbronne tot hul beskikking nie. Vir hierdie tale beteken dit dat hulpbronne soos geannoteerde spraak, teksdata en woordeboeke uiters beperk is of glad nie bestaan nie. In baie lande waar dit die geval is, het navorsers ook nie toegang tot kragtige rekenaars nie. Daarom is een van die uitdagings van die groep om ASR- en KWS-tegnologie te ontwikkel vir tale waarvoor daar baie min of geen geannoteerde data beskikbaar is. Nog ’n uitdaging is om sulke stelsels te ontwikkel en aan te wend in omgewings waar rekenaarhulpbronne beperk is.

Outomatiese sleutelwoordherkenning in hulpbron-arm tale

In lande met goed-gevestigde internet-infrastruktuur het sosiale media ’n algemeen aanvaarde platform vir die deel van menings geword. In sommige dele van die wêreld is internet-infrastruktuur egter swak ontwikkel en dít sluit die moontlikheid uit om meningspeilings deur tegnologie te doen. Gemeenskapsradio-inbelprogramme is op sulke plekke ’n manier vir mense om hul menings en kwellings te lug. Volgens UNESCO is radio in ontwikkelende lande steeds die mees betroubare en bekostigbare medium om inligting te bekom en te deel. In Uganda byvoorbeeld, soos in baie lande in Oos-Afrika, word radiostasies gebruik as ’n sosiale kommunikasiekanaal en daar word geskat dat tussen 20 000 en 25 000 mense daagliks aan radio-kletsprogramme deelneem.

Die SSV-groep, in samewerking met die Verenigde Nasies (VN), se Pulse Lab in Kampala, Uganda werk tans aan die ontwikkeling van ’n radio-soekstelsel wat noodhulp- en ontwikkelingsprojekte van die VN ondersteun. Die stelsel monitor gemeenskapsradio-uitsendings vir trefwoorde wat verband hou met spesifieke onderwerpe soos natuurrampe, siektes of ander krisisse. Die stelsels wat reeds ontplooi is, verleen aktief steun aan die VN se werk in Afrika

Die digitale soekstelsels wat tans gebruik word, is almal ontwikkel vir tale wat min toegang tot hulpbronne het in terme van wat nodig is om outomatiese analisestelsels te ontwikkel. Die tale wat ondersoek is sluit Acholi, Luganda, Ugandese Engels en Somali in. Daar word steeds gesteun op ’n sekere hoeveelheid geannoteerde data in die betrokke taal, hoewel heelwat minder as ontwikkelde tale. Dit is omdat hulle die konvensionele benadering tot sleutelwoordherkenning volg, wat behels om ASR te gebruik om netwerke te genereer wat dan weer deursoek word om te bepaal of sekere sleutelwoorde in die data voorkom of nie. Hierdie afhanklikheid van geannoteerde spraak blyk ’n ernstige struikelblok te wees wanneer vinnige ingrype vereis word, want die ontwikkeling van só ’n korpus is altyd tydrowend en vereis gespesialiseerde taalkundigheid. In sulke uiterste situasies waar die hulpbronne beperk is en waar ASR nie beskikbaar is en nie ontwikkel kan word nie, bied ASR-vrye sleutelwoordherkenning ’n oplossing. Dié groep het ’n nuwe argitektuur ontwikkel wat sleutelwoord-spesifieke herkenning bewerkstellig deur net enkele gesproke voorbeelde van die betrokke woorde te gebruik.

Die samewerkingsprojek met die VN duur voort en die span beplan om die omvang van die werk te vergroot om die wêreldwye respons tot die COVID-19-pandemie te ondersteun. In April 2020 het die VN se Global Pulse-projek binne ’n week miljoene anonieme menings geanaliseer wat op radio in Sentraal-Uganda uitgesaai is. Hulle het die outomatiese radiomoniteringstegnologie gebruik om sowat 100 transkripsies te verkry wat COVID-19-sleutelwoorde bevat. Alhoewel die omvang van die aanvanklike navorsing klein was, is dit genoegsaam om te bewys dat die analise van gemeenskapsradio-diskoers die COVID-19-respons kan rugsteun.

Outomatiese herkenning van kodewisselingspraak

Nog ’n uitdaging waarmee die SSV-groep gemoeid is, is pogings om bestaande ASR-stelsels se vermoë te verbeter om sinsnedes waar sprekers tale afwissel te kan prosesseer. Hierdie verskynsel word kodewisseling of kodemeng genoem en die meeste ASR-stelsels maak nie voorsiening vir hierdie tipe meertaligheid nie. Hulle is gewoonlik ontwerp om een taal akkuraat te prosesseer en hul doeltreffendheid neem drasties af wanneer gebruikers meer as een taal aanwend. As ’n veeltalige land is Suid-Afrika een van die plekke waar mense dikwels meer as een taal in ’n gesprek gebruik, of selfs in ’n sin. Die groep is daarom besig om ’n databasis saam te stel van meertalige kodewisselingspraak wat die manier hoe Suid-Afrikaners praat reflekteer. Die data sal gebruik word om bestaande sisteme se prosesseringsvermoë te verbeter ten opsigte van spraak waarin kodewisseling voorkom. Die moeilikste deel van ASR-ontwikkeling vir dié soort spraak is dat daar so min opleidingsdata beskikbaar is – nie alleen vir die individuele tale nie, maar ook vir die verskillende taalkombinasies. Om slegs ’n klein datastel beskikbaar te hê, beperk die diepleertegnieke wat gebruik kan word om herkenningstelsels te bou.

Omdat kodewisseling spontaan gebeur, kom dit nie sommer voor in nuus- of aktualiteitsprogramme wat dikwels ’n bron van spraakdata is nie. Om dieselfde rede kom kodewisseling ook nie eintlik in geskrewe taal voor nie. Boonop is daar nog min begrip van die meganismes wat taalwisseling onderlê en dit kompliseer die ontwikkeling van stimuli wat natuurlike taalwisseling in spraak sou kon ontlok. Al hierdie faktore dra by tot die uitdaging om outentieke data wat kodewisseling bevat in te samel. Selfs wanneer kodewisselingspraak beskikbaar is, is annotering moeilik omdat meer gespesialiseerde linguistiese vaardighede vereis word as vir enkeltalige spraak. Meertalige annoteerders word benodig om tale te kan identifiseer en om die spraak korrek te kan segmenteer. Ortografiese transkripsie is ingewikkeld omdat dit verskynsels soos intrawoord-kodewisseling moet kan kodeer. Die proses vereis die ontwikkeling van nuwe konvensies en hulpmiddels vir konsekwente en akkurate annotasies.

Die SSV-groep het ontdek dat Suid-Afrikaanse sepies ’n uitstekende bron is van spraak waarin kodewisseling voorkom. Die sepies wat vir die span toegang gegee het om hul kykstof vir navorsing te gebruik, het ’n daaglikse kykerstal van tussen vier en agt miljoen mense. Dié reekse is ’n goeie weerspieëling van Suid-Afrika as ’n veeltalige en multikulturele land, omdat hulle doelbewus geskep is om die breë gemeenskap te verteenwoordig – nie net demografies nie, maar ook in terme van taal en sosiale-interaksie-tendense. Die temas wat in die episodes opduik, handel dikwels oor aktuele kwessies, soos hoe om in die verkiesing te stem, openbare gesondheid asook politieke en ekonomiese nuus.

Die aanvanklike pogings om die klankgrepe van sepie-episodes met die ooreenstemmende draaiboek te belyn het getoon dat akteurs dikwels improviseer. Die spraak en die voorbeelde van kodewisseling wat dit bevat kan dus as spontaan beskou word. Die SSV-groep het die spraakpatrone van hierdie sepies gebruik om ’n korpus van meer as 23 uur se kodewisselingspraak saam te stel. Dié korpus bevat voorbeelde van kodewisseling tussen Engels en Zoeloe, Xhosa, Tswana en Sotho. Taalwisseling kom meestal tussen Engels en een van die inheemse tale voor, maar die data sluit ook voorbeelde in van wisselings tussen ander inheemse tale.

’n Tipiese sepie-episode is omtrent 20 minute lank, maar slegs sowat agt minute van die episode bevat spraak. Om die spraaksegmente in elke episode te identifiseer is ’n tydrowende proses, veral as die redigering met die hand gedoen word. Gelukkig het die groep wat aan die radio-fynkamstelsel gewerk het ’n soortgelyke uitdaging gehad – voor hulle na sleutelwoorde kon begin soek, moes hulle weet watter dele van die uitsending spraak bevat en watter nie. Die stelsel wat hulle geskep het om dié taak te outomatiseer kon ook gebruik word om te bepaal watter segmente van ’n sepie spraak bevat en watter nie. Die spraaksegmente wat op dié manier geïdentifiseer is, is gebruik om die stelsel se werking te verbeter deur opleiding onder deeltydse toesig te implementeer. Dit beteken dat die beste beskikbare stelsel gebruik is om nuwe spraaksegmente te transkribeer en die outomaties-getranskribeerde data is weer as nuwe opleidingsdata gebruik. Dié proses kan iteratief herhaal word en ook toegepas word op toenemende grootdatastelle om die volume beskikbare geannoteerde data te vergroot en om ASR dienoorkomstig te versterk. Die groep poog tans om al dié tegnieke te verfyn en te verbeter.

Superverwerking-rekenaarsentrum

Die tegnieke wat beskikbaar is om beide ASR en KWS te implementeer maak staat op patroonherkenning en tans gebruik die meerderheid patroonherkenningstelsels diep neurale netwerke om modelle te skep van die eienskappe en patrone wat hulle moet herken. Om hierdie netwerke binne ’n redelike tyd te leer en verskeie eksperimente te doen om die stelselkonfigurasies te optimeer vereis aansienlike rekenaarhulpbronne en -krag. Toegang tot die fasiliteite van Suid-Afrika se Superverwerking-rekenaarsentrum (Centre for High Performance Computing of CHPC) het die groep in staat gestel om meer komplekse stelsels in te span en om nog meer eksperimente te kan doen. Vervolgens kon die span ’n wyer verskeidenheid aspekte in groter detail bestudeer.

Bedankings

Die SSV-groep wil graag die (voormalige) Departement van Kuns en Kultuur van die Suid-Afrikaanse regering bedank vir die befondsing van die samestelling van die eerste Suid-Afrikaanse korpus van veeltalige kodewisseling-sepiespraak. Hulle is ook dank verskuldig aan e.tv en Yula Quinn van Rhythm City, sowel as die SABC en Human Stark van Generations: The Legacy vir hulp met sepiedata. Hulle is ook dankbaar vir die ondersteuning van Nvidia vir die skenking van GPU-toerusting.

 

Hierdie artikel is deel van die miniseminaar "Die Vierde Nywerheidsrevolusie" wat in samewerking met die SA Akademie vir Wetenskap en Kuns, die ATKV en Solidariteit Navorsingsinstituut aangebied word. Lees al die bydraes hier:

Miniseminaar: Die Vierde Nywerheidsrevolusie

 

  • 0

Reageer

Jou e-posadres sal nie gepubliseer word nie. Kommentaar is onderhewig aan moderering.


 

Top