Šolar: Slovenian Learner corpus of school essays

Corpus Šolar is an error-annotated Slovenian corpus of authentic texts written by pupils and students in Slovene primary and secondary schools. This learner corpus contains 1 million words in 2703 texts and was collected and processed in 2009­ and 2010. The language errors marked in texts and integrated into the corpus were created by teachers in the class. This feature enables users to see feedback from teachers on students’ use of language. The corpus contains a rich list of metadata, e.g. types of corrections, texts (essay, exam, etc.), class, region, school, or subject. These pieces of information have been gained from the original website https://www.slovenscina.eu/korpusi/solar (available in Webarchive as of November 2024).

Type of school

Number of texts

Percentage

Primary school

505

18,7 %

Secondary “academic”

1.172

43,3 %

Secondary “technical”

843

31,2 %

Secondary vocational

183

6,8 %

Part-of-speech tagset and lemmatization

This Slovene learner corpus Šolar is part-of-speech tagged with the following Slovenian tagset summary indicating the part of speech and grammatical category. The corpus texts also contain lemmatization when each word form from the corpus is assigned to its base form (lemma).

Access policy

The corpus is only available to the users of the University of Ljubljana – Center for Language Resources and Technologies. For more details, you can contact Simon Krek .

This is a list of error codes used in the Slovenian learner corpus Šolar.

Z-Locilo
Besedisce
Oblika
S-Odvec
Z-Crkovanje
Z-MalaVelika
S-Izpust
S-BesedniRed
Z-SkupajNarazen
S-Struktura
Z-Stevilka
Z-Krajsava
Z

Search the Slovenian Šolar corpus

Sketch Engine offers a range of tools to work with this Slovenian Learner corpus.

Tools to work with the Slovenian learner corpus Šolar

A complete set of Sketch Engine tools is available to work with this Slovene Learner corpus of proofreading and translations:

  • word sketch – Slovenian collocations categorized by grammatical relations
  • thesaurus – synonyms and similar words for every word
  • keywordsterminology extraction of one-word and multi-word units
  • word lists – lists of Slovenian nouns, verbs, adjectives etc. organized by frequency
  • n-grams – frequency list of multi-word units
  • concordance – examples in context
  • text type analysis – statistics of metadata in the corpus

Tadeja Rozman, Mojca Stritar in Iztok Kosem (2012): Šolar – korpus šolskih pisnih izdelkov. V: T. Rozman, I. Krapš Vodopivec, M. Stritar, I. Kosem: Empirični pogled na pouk slovenskega jezika. Ljubljana: Trojina, zavod za uporabno slovenistiko.

Iztok Kosem, Tadeja Rozman in Mojca Stritar (2011): How do Slovenian primary and secondary school students write and what their teachers correct: a corpus of student writing. V: Proceedings of The Corpus Linguistics Conference 2011 (Birmingham, 20-22 July 2011). Birmingham: University of Birmingham.

Iztok Kosem, Sara Može (2011): Rešitve slovničnih zagat na dosegu miške: analiza napak v besedilih učencev in dijakov za potrebe elektronskega slovničnega vira. V: S. Krajnc (ur.) Meddisciplinarnost v slovenistiki, (Obdobja, Simpozij, = Symposium, 30). Ljubljana: Znanstvena založba Filozofske fakultete, str. 249-257.

AUTHORS AND COLLABORATORS

Concept and specifications: Simon Krek, Marko Stabej, Tadeja Rozman, Špela Arhar, Irena Krapš Vodopivec

Text acquisition: Tadeja Rozman and teachers:

Vanja Benko (OŠ Prežihovega Voranca, Ravne na Koroškem)
Barbara Bolarič (Gimnazija Šentvid)
Tatjana Dorman (Srednja šola za gostinstvo in turizem Maribor)
Katja Dragar in David Puc (Škofijska klasična gimnazija Ljubljana)
Andreja Dvornik in Tatjana Rupnik Hladnik (OŠ Poljane Ljubljana)
Nataša Felc in Vanda Trošt (OŠ Spodnja Idrija)
Janja Florjančič, Valentina Madjar Sitar, Katja Jović in Nada Fortuna Makar (Srednja zdravstvena in kemijska šola Novo mesto – Šolski center NM)
Vesna Gubenšek Bezgovšek (Srednja ekonomska šola Celje)
Polona Gujtman Maučec (OŠ II Murska Sobota)
Terezija Gujtman (OŠ III Murska Sobota)
Mojca Hafner in Mija Injac Ožbolt (Srednja ekonomska šola Ljubljana)
Tatjana Hafner (OŠ Sava Kladnika Sevnica)
Irena Hočevar, Tanja Luštek in Marinka Cerinšek (OŠ Frana Metelka Škocjan)
Ksenija Horvat (Srednja šola za farmacijo, kozmetiko in zdravstvo Ljubljana)
Irena Humar Kobal in Petra Gabriel (OŠ Dornberk)
Silva Kastelic, Katja Peršič in Lidija Jesenovec (Srednja zdravstvena šola Ljubljana)
Marjana Klemenčič Glavica, Darja Mlakar in Peter Prhavc (Gimnazija Ledina)
Petra Knapič (OŠ Jurija Vege Moravče)
Romana Kokošar (Gimnazija Jurija Vege Idrija)
Katja Koren Valenčič (Srednja šola Postojna – Šolski center Postojna)
Sanja Kostanjšek, Gordana Stepanovska, Jožica Jožef Beg, Tina Cvijanović, Magdalena Udovč, Barbara Grabnar Kregulj in Zlata Kocjan (Srednja elektro šola in tehniška gimnazija – Šolski center NM)
Nataša Kralj (Srednja elektro-računalniška šola Maribor)
Irena Krapš Vodopivec, Tatjana Božič in Bojana Kompara (Škofijska gimnazija Vipava)
Bernarda Kričej (Srednja šola Zagorje)
Jelka Kvartič (Gimnazija Velenje)
Katja Lasbaher (Srednja šola za elektrotehniko in računalništvo Ljubljana)
Mateja Medvešek Rjavec (Osnovna šola Milke Šobar Nataše, Črnomelj)
Andreja Mlakar in Erika Koren-Plahuta (OŠ Antona Globočnika Postojna)
Mojca Osvald (Gimnazija Bežigrad)
Katja Pobega (Pomorski in tehniški izobraževalni center Portorož)
Duška Safran (Srednja šola za gostinstvo in turizem Celje)
Suzana Skočaj Kavčič (Osnovna šola dr. Bogomirja Magajne Divača)
Mitja Spreizer (OŠ Križe)
Maja Sušin (Osnovna šola Trebnje)
Jožica Šalehar (OŠ Šentjernej)
Jana Škoda, Mateja Traven, Alenka Vene in Simona Karl (Šolski center Krško – Sevnica)
Nuša Šorn (Gimnazija Šiška)
Marija Velkovrh Petrič in Meta Rogelj (OŠ Livada Ljubljana)

Authors of the annotation systemTadeja RozmanMojca StritarSimon KrekIrena Krapš VodopivecIztok Kosem
Annotation: Tadeja Rozman, Matic Korošec
Transcription: Marjeta Burja, Maja Dichlberger, Ana Fonda, Andreja Jankovič, Karmen Jordan, Alenka Laharnar, Melita Perkovič, Tomaž Potočnik, Eva Radič, Maja Rajh, Nina Stankovič, Simon Šuster, Andrej Tomažin, Martin Uranič, Barbara Vojsk, Urška Vranjek, Matic Korošec, Tadeja Rozman, Irena Krapš Vodopivec
Pregledovanje transkripcij: Mojca Stritar, Melita Perkovič, Eva Radič, Matic Korošec, Tadeja Rozman
Conversion into XML format: Iztok Kosem, Mihael Arčan
Validation: Iztok Kosem, Karmen Kosem, Miro Romih
POS tagging: Peter Holozan, Miro Romih

Other text corpora

Sketch Engine offers 800+ language corpora.

Use Sketch Engine in minutes

Generate collocations, frequency lists, examples in contexts, n-grams or extract terms. Use our Quick Start Guide to learn it in minutes.