SÍM

Samstarf um íslenska máltækni

Íslenskar villumálheildir

Almenn íslensk villumálheild (IceEC)

Íslenska villumálheildin er safn texta á nútímaíslensku þar sem stafsetningar- og málfarsvillur eru merktar og flokkaðar. Textarnir eru flokkaðir eftir textategund. Þessi útgáfa inniheldur málsgreinar úr nemendaritgerðum, fréttum af vefmiðlum og greinum af Wikipedia.

Villumálheildirnar eru notaðar til þess að flokka og finna dæmi um algengar villur og aðstoða við forgangsröðun við þróun málrýnihugbúnaðar. Öll skjöl í málheildinni eru á XML (Extensible Markup Language) formi.

Íslensk L2 villumálheild

Íslenska L2 villumálheildin er safn texta á nútímaíslensku sem hafa verið skrifaðir af annarsmálshöfum íslensku.

Íslensk lesblinduvillumálheild

Íslenska lesblinduvillumálheildin er safn texta á nútímaíslensku sem hafa verið skrifaðir af lesblindum málhöfum með íslensku sem móðurmál.

Íslensk barnavillumálheild

Íslenska barnavillumálheildin er safn texta á nútímaíslensku sem hafa verið skrifaðir af börnum á aldrinum 10-15 ára með íslensku sem móðurmál.

Dæmi:

iceerrorcorpus
Í þessu dæmi úr málheildinni má sjá að í upprunalegum (original) texta er eintala þar sem á að vera fleirtala (singular4plural), og leiðrétt orð (corrected).

Tenglar:

GitLab. IceErrorCorpus. GitLab. Íslensk L2 villumálheild. GitLab. Sérhæfðar íslenskar villumálheildir