SÍM

Samstarf um íslenska máltækni

Greypingar: Prófunarsett og gagnasöfn

Þessi hirsla hýsir gagnasöfn sem meta getu orðvigralíkana til þess að átta sig á merkingarfræði og orðhlutafræði íslensku, auk forþjálfaðra greypinga sem hafa verið metnar með téðum gagnasöfnum.

Prófunarsettið er annarsvegar þýðing á Multi-SimLex, og hinsvegar íslenskt beygingar- og afleiðsluprófunarsett byggt á BATS (Bigger Analogy Test Set).

Hvað er orðagreyping?

Orðagreyping (e. word embedding) er framsetning orða sem vigra. Vigrarnir eru búnir til með því að keyra til þess gerð algrím á miklu magni texta og niðurstaðan verður sú að orð sem notuð eru á svipaðan hátt fá svipaða framsetningu. Vigrar skyldra eða tengdra orða hafa því svipuð gildi en einnig lýsa sambærileg vensl milli orða sér oft á svipaðan hátt. Þannig má t.d. greina vensl land - höfuðborg út frá því að orð eins og Frakkland - París, Þýskaland - Berlín, Ítalía - Róm sýna sambærileg tengsl í vigurrúminu.

Orðagreypingar nýtast því í greiningu texta af ýmsu tagi þar sem hægt er að greina merkingu og vensl út frá tölulegri framsetningu orðaforðans.

Tenglar:

Ordgreypingar_embeddings, GitLab Greypingar Profunarsett, GitLab