SÍM

Samstarf um íslenska máltækni

Málfræðilegur markari fyrir íslensku (Part-of-Speech (PoS) tagger for Icelandic)

Málfræðilegur markari fyrir íslensku markar íslenskan texta með málfræðilegum upplýsingum eins og t.d. orðflokki, falli og persónu, samkvæmt markaskrá (e. tagset):

mörkun

Uppsetning og notkun:

Til að nota tólið með forþjálfuðu líkani setjum við það upp með
pip install git+https://github.com/cadia-lvl/POS.git@v3.0.0

Til að prófa getum við t.d. sótt example.txt skrána sem er í hirslu tólsins (Gott að hafa hana í sér möppu og opna skel þar).

Svo getum við keyrt tólið:
pos tag example.txt tagged.txt sjá nánar á hirslu tólsins.

Þá sjáum við hvert orð markað:
dæmi 1

Tólið má einnig nota sem Python einingu (e. module).

Docker:

Hægt er að setja tólið upp í Docker umhverfi (sjá leiðbeiningar fyrir uppsetningu Docker á hinum ýmsu stýrikerfum).

Til að prófa getum við t.d. sótt example.txt skrána sem er í hirslu tólsins (Gott að hafa hana í sér möppu og opna skel þar).

Tólið krefst þess að inntaksskrá sé í UTF-8 kóðun, með einn tóka í hverri línu og setningaskil sýnd með auðri línu.
Skoða má skrána example.txt til að sjá rétt uppsetta textaskrá.

Docker-mynd tólsins þarf um 6-7 GB af geymsluplássi og mælt er með minnst 4 GB af vinnsluminni. Til að sækja tólið og jafnframt keyra það í framhaldinu notum við eftirfarandi skipun:
docker run -v $PWD:/data haukurp/pos:1.0.0 /data/example.txt /data/tagged.txt

dæmi 2

Eftir það má skoða skrána tagged.txt sem er með málfræðilegum mörkum fyrir hvert orð, skipt með dálkstaf (e. Tab Character).

Tenglar:

POS tagger for Icelandic. GitLab