Greypingar: Prófunarsett og gagnasöfn
Þessi hirsla hýsir gagnasöfn sem meta getu orðvigralíkana til þess að átta sig á merkingarfræði og orðhlutafræði íslensku, auk forþjálfaðra greypinga sem hafa verið metnar með téðum gagnasöfnum.
Prófunarsettið er annarsvegar þýðing á Multi-SimLex, og hinsvegar íslenskt beygingar- og afleiðsluprófunarsett byggt á BATS (Bigger Analogy Test Set).
Hvað er orðagreyping?
Orðagreyping (e. word embedding) er framsetning orða sem vigra. Vigrarnir eru búnir til með því að keyra til þess gerð algrím á miklu magni texta og niðurstaðan verður sú að orð sem notuð eru á svipaðan hátt fá svipaða framsetningu. Vigrar skyldra eða tengdra orða hafa því svipuð gildi en einnig lýsa sambærileg vensl milli orða sér oft á svipaðan hátt. Þannig má t.d. greina vensl land - höfuðborg
út frá því að orð eins og Frakkland - París, Þýskaland - Berlín, Ítalía - Róm
sýna sambærileg tengsl í vigurrúminu.
Orðagreypingar nýtast því í greiningu texta af ýmsu tagi þar sem hægt er að greina merkingu og vensl út frá tölulegri framsetningu orðaforðans.
Tenglar:
Ordgreypingar_embeddings, GitLab Greypingar Profunarsett, GitLab