SÍM

Samstarf um íslenska máltækni

Skiptir

Skiptir er orðskiptingatól fyrir íslensku sem er notað innan verkefna SÍM (Samstarf um íslenska máltækni). Tólið er notað til að skipta orðum eftir nýjustu orðskiptingamynstrum fyrir íslensku.
Vefviðmót fyrir tólið er einnig í boði.

Hvað er orðskipting?

Orðskipting skilgreinir hvar má skipta orðum í hluta, t.d. milli lína:
orð-skipt-ing
Þessar skilgreiningar eru notaðar í ýmsum tólum, m.a. fyrir leiðréttingu stafsetningar og málfars.

Uppsetning:

Tólið (og Pyphen sem það byggir á) er skrifað í Python 3 og því þarf að vera með það uppsett. Flest stýrikerfi í dag nema Windows eru þegar með Python uppsett. Hægt er að ná í Python fyrir Windows hér
Eftirfarandi notkunarleiðbeiningar gera þó ráð fyrir Linux.

Hægt er að sækja tólið í þjappaðari skrá af GitLab síðunni, eða með skipanalínutólinu git:

git clone https://gitlab.com/icelandic-lt/nlp/skiptir.git

Notkun:

./skiptir.py [--mode MODE] [--hyphen HYPHEN]
Tólið les frá inntaki (e. standard input) og prentar orðskiptan texta í úttaki (e. standard output).

MODE (í. háttur) er sjálfgefinn sem ‘pattern’, sem notar Pyphen með nýjustu orðskiptingamynstrum fyrir íslensku.
Aðrir hættir eru ekki studdir eins og er.

HYPHEN (í. bandstrik) er sérvalið skiptingatákn, t.d. · eða -.
Sjálfgefið skiptingatákn er skiptivísir (e. soft hyphen) (U+00AD).

Dæmi:

Einfalt prufudæmi er að keyra tólið í skipanalínu:
./skiptir.py
og skrifa inn texta og ýta á enter, og ljúka svo með lausnarrununni (e. escape sequence) CTRL + d.
dæmi 1

Tólið er þó hannað til að taka við textaskrám og prentar þá skipt úttak textaskrár í skipanagluggann. Skráin input.txt fylgir með tólinu og er notuð hér sem dæmi:
./skiptir.py < input.txt
dæmi 1

Einnig er hægt að beina úttaki í skrá (og skoða skrána svo, t.d. með tólinu cat):
./skiptir.py < input.txt > output.txt
dæmi 1

Til að nota annað skiptingatákn, t.d. stjörnu (*), er --hyphen stiki notaður:
./skiptir.py --hyphen '*'
dæmi 1