SÍM

Samstarf um íslenska máltækni

Pípa til prufu (e. example pipeline)

Máltækniafurðir eru saman settar af fjölmörgum minni einingum. Allt eftir tilgangi vinnslunnar eru viðeigandi tól valin sem hvert leysa ákveðið verkefni. Hér á eftir fara dæmi um vinnslulínur, sem allar hefjast á grunngreiningu texta.

Upprunalegur texti

Við ætlum að greina eftirfarandi texta (texti-1):

Íslensk stjórnvöld hafa ekki sýnt neinn sjálfstæðan metnað um að draga úr losun gróðurhúsalofttegunda, að mati formanns Ungra umhverfissinna sem er staddur
á COP26-loftslagsráðstefnunni sem hófst í Skotlandi í dag. Ríki heims ræða hvernig þau ætla að ná markmiðum Parísarsamkomulagsins um að halda hnattrænni 
hlýnun innan 2°C og helst 1,5°C á þessari öld miðað við fyrir iðnbyltingu á COP26-ráðstefnunni.

Og þennan texta (texti-2):

Staða okkar í dag er sú að við komumst ekki einu sinni á topp 500 í heiminum á SCImago-listanum. Þar erum við í 644. sæti. Það er hræðilegt. Björn Rúnar 
segir að sömu sögu sé að segja af öðrum listum. Allt sé á sömu leið: Landspítalinn hefur hrapað niður lista.

1. Skipting í setningar og tóka

Mörg máltæknitól vinna setningu fyrir setningu og því er yfirleitt fyrsta skrefið að skipta lengri textum upp í setningar. Virðist í fljótu bragði einfalt verkefni þar sem setningar enda á punkti, spurningarmerki eða upphrópunarmerki (. ? !). Skiptum upphafi texta-2 upp í setningar eftir punktum:

Staða okkar í dag er sú að við komumst ekki einu sinni á topp 500 í heiminum á SCImago-listanum.
Þar erum við í 644.
sæti.
Það er hræðilegt.

Til þess að geta skipt texta rétt upp í setningar þarf að greina hvenær punktur táknar lok setningar og hvenær hann gegnir öðru hlutverki, t.d. í skammstöfunum, dagsetingum o.s.frv. Þess vegna þarf að þróa textatilreiðara fyrir hvert tungumál, sem ræður við að greina þessi atriði. Textatilreiðari máltækniáætlunar Tokenizer skiptir textum upp í setningar, ofangreint dæmi lítur þá þannig út:

Staða okkar í dag er sú að við komumst ekki einu sinni á topp 500 í heiminum á SCImago-listanum .
Þar erum við í 644. sæti .
Það er hræðilegt .
Björn Rúnar segir að sömu sögu sé að segja af öðrum listum .
Allt sé á sömu leið : Landspítalinn hefur hrapað niður lista .

Það sem tilreiðarinn gerir um leið og hann skiptir texta niður í setningar, er að skipta setningunum upp í tóka. Eins og sést á dæminu hér að ofan hefur tilreiðarinn bætt inn bili á undan punktum og tvípunkti. Úttak tilreiðarans á tóka-formi getur þá litið svona út:

['Staða', 'okkar', 'í', 'dag', 'er', 'sú', 'að', 'við', 'komumst', 'ekki', 'einu', 'sinni', 'á', 'topp', '500', 'í', 'heiminum', 'á', 'SCImago-listanum', '.']
['Þar', 'erum', 'við', 'í', '644.', 'sæti', '.']
['Það', 'er', 'hræðilegt', '.']
['Björn', 'Rúnar', 'segir', 'að', 'sömu', 'sögu', 'sé', 'að', 'segja', 'af', 'öðrum', 'listum', '.']
['Allt', 'sé', 'á', 'sömu', 'leið', ':', 'Landspítalinn', 'hefur', 'hrapað', 'niður', 'lista', '.']

2. Málfræðileg mörkun

Málfræðileg mörkun (e. PoS-tagging) merkir stök orð með upplýsingum um orðflokk, fall, kyn, tölu o.þ.h. Slíkar upplýsingar eru oft mjög gagnlegar til þess að færa textagreininguna frá því að vinna með ákveðna strengi til almennrar greiningar út frá orðflokkum og slíkum upplýsingum. Ýmis tól krefjast þess einnig að inntakið sé málfræðilega markað (sjá t.d. þáttun hér að neðan). Málfræðilegur markari fyrir íslensku gerir þetta fyrir okkur (setning 2 og 3 úr texta-2):

Þar	aa
erum	sfg1fn
við	fp1fn
í	af
644.	ta
sæti	nheþ
.	pl
Það	fphen
er	sfg3en
hræðilegt	lhensf
.	pl

3. Lemmun

Íslenska er beygingartungumál, þ.e. form orða breytist oft eftir hlutverki þeirra í setningu og/eða tengslum þeirra við önnur orð í setningunni. Sígilda dæmið úr fallbeygingarþjálfuninni, hestur, hefur 15 mismunandi beygingarmyndir (hestur, hest, hesti, hests, ...). Í textagreiningu eru orð oft talin á einhverju stigi greiningarinnar. Það getur skipt máli að telja allar beygingarmyndir orðs þannig að þær eigi saman, t.d. þannig að í textanum Þessi hestur heitir Gráni. Ég hef aldrei sé fallegri hest. teljum við orðið hestur tvisvar, en ekki hestur einu sinni og hest einu sinni. Væri það gert, sæi greininginn ekkert sameignlegt með þessum tveimur setningum. Til þess að geta talið orð út frá grunnformum þeirra (flettimyndum, lemmum) og t.d. unnið tölfræði út frá því eða undirbúið inntak fyrir þjálfun líkana, notum við lemmunarvirknina í markaranum.

<Lemmatized output>

4. Uppfletting í BÍN

Beygingarlýsing íslensks nútímamáls, BÍN, hefur verið geysivinsæll uppflettivefur um beygingar íslenskra orða um árabil. Innan máltækniáætlunar hefur vinna við BÍN haldið áfram, með það að markmiði að auka notagildi hennar enn í máltækni. Gagnagrunnurinn hefur nú verið gerður einstaklega léttur í meðförum með BINpackage. Mörg máltæknitól nýta sér nú þegar að fletta upp í BÍN til þess að hjálpa við til við greiningar, finna mögulega orðflokka, beygingar eða til þess að aðstoða við að meta líkurnar á því að orð sé gilt í íslensku. Eftirfarandi dæmi sýnir mögulega orðflokka orða ásamt grunnmynd:

Íslensk: {('íslenskur', 'lo')}
stjórnvöld: {('stjórnvald', 'hk'), ('stjórnvöld', 'hk')}
hafa: {('haf', 'hk'), ('hafa', 'so')}
ekki: {('ekki', 'ao'), ('ekki', 'kk')}
sýnt: {('sýnn', 'lo'), ('sýna', 'so'), ('sýndur', 'lo')}
neinn: {('neinn', 'fn')}
sjálfstæðan: {('sjálfstæður', 'lo')}
metnað: {('metnaður', 'kk'), ('metna', 'so')}
um: {('um', 'st'), ('um', 'fs'), ('um', 'ao')}
að: {('að', 'fs'), ('að', 'ao'), ('að', 'nhm'), ('að', 'st')}
draga: {('draga', 'so'), ('drag', 'hk'), ('draga', 'kvk'), ('dragi', 'kk')}
úr: {('úr', 'hk'), ('úr', 'kk'), ('úr', 'ao'), ('úr', 'fs')}
losun: {('losun', 'kvk')}
gróðurhúsalofttegunda: {('gróðurhúsalofttegund', 'kvk')}

5. Setningagreining, þáttun

Oft er grunn textagreiningu lokið með tilreiðingu, mörkun og/eða lemmun, með upplýsingar sem þar fást er t.d. hægt að þjálfa alls kyns tölfræðileg líkön og tauganet. Frekari upplýsingar um strúktur setninga, sem fæst með þáttun (e. parsing) koma þó oft að miklu gagni t.d. í málrýni. Máltækniáætlunin skilar tveimur gerðum þáttara: djúpþáttarinn Greynir, sem fullþáttar setningar og sýnir hvernig allir liðir hennar tengjast, og svo grunnþáttarinn IceParser, sem skiptir setningunni upp í liði, án þess að sýna hvernig þeir tengjast innbyrðis. Grunnþáttarinn getur einnig sýnt setningahlutverk einstakra liða, þ.e. frumlag, sagnlið, andlag.

Djúpþáttun Það er hræðilegt.` (á vefsíðu Greynis er hægt að sjá myndræna framsetningu á setningatrjám)

S0
+-S-MAIN
  +-IP
    +-NP-SUBJ
      +-pfn_hk_et_nf: 'Það'
    +-VP
      +-VP-AUX
        +-so_et_p3: 'er'
      +-NP-PRD
        +-lo_sb_nf_et_hk: 'hræðilegt'
+-'.'

Grunnþáttun Staða okkar í dag er sú að við komumst ekki einu sinni á topp 500 í heiminum á SCImago-listanum

{*SUBJ> [NP Staða nven ] {*QUAL [NP okkar fp1fe ] } }
[PP í ao [NP dag nkeo ] ]
[VPb er sfg3en ]
{*COMP< [NP sú faven ] }
[SCP að c ]
{*SUBJ> [NP við fp1fn ] }
[VP komumst sfm1fþ ]
[AdvP ekki aa ]
[MWE_AdvP einu foheþ sinni nheþ ]
[PP á ao [NP topp nkeo 500 ta ] ]
[PP í aþ [NP heiminum nkeþg ] ]
[PP á aþ [NP SCImago-listanum nkeþgs ] ]
. .

7. Málrýni

Málrýni, eða stafsetningar- og málfræðileiðréttingahugbúnaður, nýtist fólki við öll almenn skrif. Einnig getur málrýni komið að gagni í öðrum máltæknihugbúnaði, til dæmis til þess að leiðrétta leitarorð fyrir leitarvélar. Dæmi: Björn Rúnar segjir að sömu sögu sé að segja af öðrum litsum

Björn Rúnar 
segir      Orðið 'segjir' var leiðrétt í 'segir'
að         
sömu       
sögu       
sé         
að         
segja      
af         
öðrum      
listum     Orðið 'litsum' var leiðrétt í 'listum'
.          

8. Vélþýðingar

Sjálfvirkar þýðingar nýtast sérlega vel til þess að gefa hugmynd um efni texta á öðru tungumáli og eins til þess að flýta fyrir vinnu þýðenda. Á vefsíðunni Vélþýðing er hægt að prófa þýðingar milli íslensku og ensku, en uppsetning og keyrsla á vélþýðingarlíkönum krefst mikils reikniafls og tilraunir því best framkvæmdar gegnum vefþjónustu.

Íslensk stjórnvöld hafa ekki sýnt neinn sjálfstæðan metnað um að draga úr losun gróðurhúsalofttegunda, að mati formanns Ungra umhverfissinna sem er staddur 
á COP26-loftslagsráðstefnunni sem hófst í Skotlandi í dag. 
Ríki heims ræða hvernig þau ætla að ná markmiðum Parísarsamkomulagsins um að halda hnattrænni hlýnun innan 2°C og helst 1,5°C á þessari öld miðað við fyrir 
iðnbyltingu á COP26-ráðstefnunni.

The Icelandic government has shown no independent ambition to reduce greenhouse gas emissions, according to the chairman of the Young Environment 
at the COP26 climate conference which started today in Scotland.
World States Discuss How They Will Reach Paris Agreement Goals to Keep Global warming within 2°C and preferably 1.5°C this century 
compared to pre-industrial times at the COP26.

9. Talgreining

Með talgreiningu breytum við tali í texta. Uppsetning á talgreiningarþjónustu krefst nokkurrar kunnáttu en hér er hægt að prófa íslenskan talgreini.

10. Talgerving

Með talgervingu breytum við texta í tal. Uppsetning á talgervingarþjónustu krefst nokkurrar kunnáttu en hér er hægt að prófa íslenskan talgervil