Skiptir
Skiptir er orðskiptingatól fyrir íslensku sem er notað innan verkefna SÍM (Samstarf um íslenska máltækni). Tólið er notað til að skipta orðum eftir nýjustu orðskiptingamynstrum fyrir íslensku (sjá á CLARIN.is og GitLab).
Vefviðmót fyrir tólið er einnig í boði.
Hvað er orðskipting?
Orðskipting skilgreinir hvar er leyfilegt að skipta orðum í hluta, t.d. milli lína:
Þessar skilgreiningar eru notaðar í ýmsum tólum, m.a. fyrir leiðréttingu stafsetningar og málfars.
Notkun:
./skiptir.py [--mode MODE] [--hyphen HYPHEN]
Tólið les frá inntaki og prentar orðskiptan texta í úttaki.
MODE (háttur) er sjálfgefinn sem ‘pattern’, sem notar Pyphen með nýjustu orðskiptingamynstrum fyrir íslensku.
Aðrir hættir eru ekki studdir eins og er.
HYPHEN (bandstrik) er sérvalið skiptingatákn, t.d. · eða -.
Sjálfgefið skiptingatákn er skiptivísir (e. soft hyphen) (U+00AD).
Dæmi:
Einfalt prufudæmi er að keyra tólið í skipanalínu:
./skiptir.py
og skrifa inn texta og ýta á enter, og ljúka svo með lausnarrununni (e. escape sequence) CTRL + d
:
Tólið er þó hannað til að taka við textaskrám og prentar þá skipt úttak textaskrár í skipanagluggann. Skráin input.txt fylgir með tólinu og er notuð hér sem dæmi:
Einnig er hægt að beina úttaki í skrá (og skoða skrána svo, t.d. með tólinu cat
):
Til að nota annað skiptingatákn, t.d. stjörnu (*), er --hyphen
stiki notaður: