The KoKo Corpus

The KoKo Corpus is an error-annotated learner corpus in German that consists of texts collected in public schools and produced mainly by L1 German speakers. It has been created with the aim to investigate and describe the writing skills of German-speaking secondary-school pupils at the end of their school career by analysing authentic texts produced in classrooms during the KoKo project. The essays were collected in South Tyrol (Italy), Tyrol (Austria) and Thuringia (Germany).

The KoKo Corpus consists of 1503 argumentative essays which contain manually performed transcription annotations and linguistic error annotations.

New corpus version available!
Version 4 of the KoKo Corpus has been released in 2024! The new version contains two subcorpora with grammatical and lexical annotations.

Corpus Information

size:950,000 tokens
texts:1,503 (1,319 of L1 learner)
writers:1,503 students from upper secondary schools, between 17-19 years old
text type:argumentative essay
language:German
year of data collection:2011

Corpus Access

The Corpus can be queried via the ANNIS interface or downloaded on the Eurac Research Clarin Repository.

Reference Papers

Abel, A., Glaznieks, A., Nicolas, L. & Stemle, E.W. (2014): KoKo: an L1 Learner Corpus for German. Proceedings of the 9th International Conference on Language Resources and Evaluation (LREC 2014), Reykjavik 26-31 May 2014, pp. 2414-2421. (pdf)

Abel, A., Glaznieks, A., Nicolas, L. & Stemle, E. W. (2016): An extended version of the KoKo German L1 Learner corpus. In A. Corazza, S. Montemagni & G. Semeraro (Eds.), Proceedings of the Third Italian Conference on Computational Linguistics CLiC-it 2016. 5-6 December 2016, Napoli. Torino: Academia University Press, 13-18. [https://books.openedition.org/aaccademia/1743]

Documentation

KoKo Version 3
KoKo Version 4

Related Publications

Abel, A. & Glaznieks, A. (2019): Fehler oder nicht? Sprachliche Variation in Schulaufsätzen. In J. Ransmayr & E. Vasylchenko (Eds.), Sprachliche Variation im Deutschen. Frankfurt am Main: Peter Lang, 39-67. (= Jahrbuch für Internationale Germanistik – Reihe A) [https://doi.org/10.3726/b13270]

Abel, A. & Glaznieks, A. (2019): „Sicherlich mache ich den einen oder anderen Fehler, aber …“ – Varianz in Lernertexten im deutschen Sprachraum. In L. Bülow, A. Fischer & K. Herbert (Eds.), Dimensions of Linguistic Space: Variation – Multilingualism – Conceptualisations/Dimensionen des sprachlichen Raums: Variation – Mehrsprachigkeit – Konzeptualisierung. Frankfurt am Main: Peter Lang, 363-384. (= Schriften zur deutschen Sprache in Österreich 45) [https://doi.org/10.3726/b15250]

Abel, A. & Glaznieks, A. (2018): „Sie müssen sich mit Problemen rumschlagen …“  – Aspekte der Schreibkompetenz am Ende der schulischen Laufbahn. In M. Dannerer & P. Mauser (Eds.), Formen der Mehrsprachigkeit. Sprachen und Varietäten in sekundären und tertiären Bildungskontexten, Tübingen: Stauffenburg, 47-65.

Glaznieks, A. & Abel, A. (2017): ‚So einen Fehler wird einem das ganze Leben lang verfolgen.‘ Empirische Untersuchung grammatischer Kompetenzen am Ende der Oberschule. In W. Davies, A. Häcki-Buhofer, R. Schmidlin, M. Wagner & E. L. Wiss (Eds.), Standardsprache zwischen Norm und Praxis. Theoretische Betrachtungen, empirische Studien und sprachdidaktische Ausblicke, Tübingen: Francke (Basler Studien zur deutschen Sprache und Literatur 99), 237-276.

Abel, A. & Glaznieks, A. (2017): KoKo: Bildungssprache im Vergleich: korpusunterstützte Analyse der Sprachkompetenz bei Lernenden im deutschen Sprachraum – ein Ergebnisbericht. [pdf]

Abel, A. & Glaznieks, A. (2015): Wo Sprachkompetenzforschung auf Varietätenlinguistik trifft: Empirische Befunde aus dem Varietäten-Lernerkorpus “KoKo”. In A. Lenz, T. Ahlers & M. Glauninger (Eds.), Dimensionen des Deutschen in Österreich. Variation und Varietäten im sozialen Kontext, Frankfurt/ Main: Peter Lang, 257-282. (= Schriften zur deutschen Sprache in Österreich 42) [https://doi.org/10.3726/978-3-653-04599-4]

Abel, A. & Glaznieks, A. (2013): “Ich weiß zwar nicht, was mich noch erwartet, doch …” – Der Einsatz von Korpora zur Analyse textspezifischer Konstruktionen des konzessiven Argumentierens bei Schreibnovizen. In C. Desoutter, D. Heller & M. Sala (Eds.), Corpora in specialized communication – Korpora in der Fachkommunikation – Les corpus dans la communication spécialisée, Bergamo: CELSB, 101-132. [https://hdl.handle.net/10446/30337]

If you have used the KoKo Corpus in your work and want to list your publications here, please email porta@eurac.edu!

Corpus Download (Version 3)
Corpus Download (Version 4)