SÍM

Samstarf um íslenska máltækni

Íslenskar sérhæfðar villumálheildir

Íslensku sérhæfðu villumáheildirnar eru þrjár talsins:

  • Íslenska L2 villumálheildin
  • Íslenska lesblinduvillumálheildin
  • Íslenska barnamálsvillumálheildin.

Allir textar í öllum þremur villumálheildum hafa verið merktir fyrir villum, t.d. hvað varðar stafsetningu, málfræði og fleira.
Villumálheildir eru notaðar til að finna villur í rituðum texta, t.d. í villuleitarforritum.
Öll skjöl í málheildinni eru á xml (Extensible Markup Language) formi.

Dæmi:

iceerrorcorpus
Í þessu dæmi úr Íslensku villumálheildinni (IceEC) má sjá að í upprunalegum (original) texta er eintala þar sem á að vera fleirtala (singular4plural), og leiðrétt orð (corrected).

Heimildir:

GitLab. IceErrorCorpusSpecialized.