Wenn man vergleichen möchte, wie eine Sprache „tickt“, dann lohnt es sich, die Frequenz ihrer Wörter anzuschauen. Was ist das meistverwendete Wort, das zweitmeistverwendete und so weiter? Welches ist das meistverwendete Substantiv? Verb? Adjektiv?
Im Folgenden versuche ich einen zugegebenermaßen ziemlich oberflächlichen Vergleich des Finnischen mit dem Deutschen, der wissenschaftlichen Kriterien wohl nicht ganz standhält. Warum? Weil das Datenmaterial, auf das sich solche Untersuchungen stützen, leider nicht ganz vergleichbar ist. Und weil meine Schlussfolgerungen hier ein wenig salopper sind als sie es in der Wissenschaft erlaubt wären.
Zunächst einmal gibt es auch Ähnlichkeiten: Beide Korpora bestehen aus geschriebener Sprache, nicht gesprochener.
Im Finnischen stammt der Korpus des einzigen vorhandenen Frequenzwörterbuchs (Saukkonen et al: Suomen kielen taajuussanasto 1979) aus den 1960er Jahren, im Deutschen aus der Zeit zwischen 1995 und 2009 (Quasthoff et al: Häufigkeitswörterbuch Deutsch 2011). Im Finnischen besteht das Korpus aus 43670 verschiedenen Wörtern, die insgesamt 408.301 Mal in circa 100.000 verschiedenen Formen auftauchen, gesammelt in einer Zeit, als man einen Computer noch nicht kannte.
Das deutsche Korpus besteht aus 228 Millionen Sätzen mit 3,6 Milliarden Tokens (Beispiel: das Wort „Mensch“ kann als Token „Mensch“, „Menschen“ oder „Menschens“ auftauchen).
Die Unterteilung des Wortschatzes erfolgt in der Fachliteratur für das Deutsche in Frequenzklassen. Eine Frequenzklasse mehr bedeutet, dass ein Wort nur etwa halb so viel verwendet wird.
Frequenzklasse (FK) 0: drei Wörter (der, die, und)
FK 1: zwei Wörter (in, den)
FK 2: 15 Wörter (von, zu, mit, das, ist, auf, für, sich, im, Die, des, nicht, ein, dem, eine)
FK 3: 24 Wörter
FK 4: 22 Wörter
FK 5: 67 Wörter
FK 6: 119 Wörter
FK 7: 280 Wörter
FK 8: 525 Wörter
FK 9: 1166 Wörter
FK 10: 1986 Wörter
FK 11: 3450 Wörter
Danach haben wir es dann mit einer Vermehrung der Wörter wie bei der Verbreitung des Corona-Virus zu tun, die letzte erfasste FK 21 umfasst 406660 Wörter. Je weniger frequent ein Wort ist, desto weniger ist seine absolute Reihenfolge relevant, deswegen wird ab der Position 1000 nur noch die Frequenzklasse angegeben.
Ein weiteres Problem ist die Zählweise der Tokens. Im Deutschen wurde nach großem oder kleinen Anfangsbuchstaben getrennt gezählt, also „Sie“ gesondert von „sie“, was selbstverständlich Sinn macht, weil es sich um zwei unterschiedliche Wörter handelt. Allerdings wurde auch „Er“ gesondert von „er“ gezählt, und „Das“ gesondert von „das“. Im Finnischen wurde hier keine Unterscheidung vorgenommen, weil es überhaupt keine Großschreibung der Substantive gibt. Wörter, die exakt genauso häufig im Korpus vorkommen, erhielten im finnischen Korpus dieselbe Nummer, das erste Mal trifft das für das 53. häufigste Wort zu, diese Position teilen sich itse (selbst) und Suomi (Finnland). Nr. 54 existiert dann nicht, es geht weiter mit Nr. 55 hyvä (gut). Im deutschen Korpus wurde durchgezählt.
Wegen der Unterschiedlichkeit der Sprachen kann die Zahl „fünfhäufigstes“ oder „zehnthäufigstes“ Wort nichts aussagen, weil eine Reihe von Worten des Deutschen im Finnischen gar nicht existiert. Das trifft auf das häufigste und das zweithäufigste Wort im Deutschen zu, für „der“ und „die“ existieren keine Übersetzungen, weil das Finnische keine Artikel kennt. Genauso fehlen eine Reihe von Präpositionen, die im Finnischen durch eigene Fälle ausgedrückt werden, so fehlen „in“ (Position 4 im Dt.), „von“ (Position 6), „zu“ (Position 7), zum Teil fehlt „mit“ (Position 8), für das es einen eigenen Fall gibt, dem Kommitativ, der aber relativ selten verwendet wird („vaimoineen ja lapsineen“ = mit Frau und Kindern), es kann aber auch das häufige „kanssa“ als Postposition (also nach dem Wort stehend, auf das es sich bezieht), zum Beispiel „koiran kanssa“, „mit dem / einem Hund“.
Auch fehlt das im Deutschen drittwichtigste Verb „haben“, weil es im Finnischen durch eine Kasuskonstruktion wiedergegeben wird, die wortwörtlich mit „bei mir ist“ zu übersetzen wäre. Ebenso fehlt das zweitwichtigste deutsche Verb „werden“, „ich werde Ärztin“ wird im Finnischen mit einer Kasuskonstruktion und einer Form des Verbs „kommen“ gebildet, also ungefähr „aus mir kommt“ (minusta tulee lääkäri).
Von den 100 häufigsten Wörtern des Deutschen sind 37 ganz sicher solche, die es gar nicht im Finnischen gibt und weitere 11 solche, die es entweder so nicht direkt gibt oder für die es keine 1:1-Entsprechung gibt.
Ein paar Beispiele:
Das kleine Wörtchen „sich“ gibt es gar nicht, das Verb wird im Finnischen im „Innernen“ verändert, wenn die Tätigkeit reflexiv wird, so wird aus pestää (waschen) peseytyä (sich waschen).
Für das deutsche „kein, keiner, keine, keines“ gibt es keine direkte Entsprechung, weil es entweder einfach nur durch „nicht“ dargestellt wird, zum Beispiel im Satz „Ich habe kein Auto“, das durch „Minulla ei ole autoa.“ (= „Bei mir nicht ist Auto.“) wiedergegeben wird, manchmal aber auch durch eine negative Form von „kuka“. So in „Da ist keiner.“= Siellä ei ole ketään.
So erscheint im Deutschen „Sie“ auf Platz 33 und „sie“ auf Platz 34, „er“ auf Platz 37. „Er“ und „sie“ sind im Finnischen nur ein Wort, nämlich hän, Finnlands Geschenk an die Welt, ein geschlechtsunabhängiges Personalpronomen der dritten Person Singular. Darüber hat übrigens meine Bloggerkollegin Tarja einen super lesenswerten Blog geschrieben: https://tarjasblog.de/Finnland/finnland-schenkt-der-welt-ein-wort-haen/
Also sind fast die Hälfte der wichtigsten 100 Wörter des Deutschen solche Wörter, die entweder gar nicht oder so nicht im Finnischen existieren:
der, die, in, den, von, zu, das, auf, für, sich, im,… usw.
Ein Platz 20 auf der finnischen Hitliste wäre daher mit einem Platz 68 auf der deutschen vergleichbar (plus 48). Leider sind die verschiedenen Formen eines Wortes in der deutschen Reihenfolge gesondert gezählt worden, was die Vergleichbarkeit erschwert.
Schauen wir uns daher den Wortschatz unter den folgenden Fragestellungen an:
Was ist die Hitreihe der am häufigsten verwendeten Substantive?
Finnisch | auf Position | das entsprechende Wort im Dt. liegt auf Position | Deutsch | auf Position | das entsprechende Wort im Finnischen liegt auf Position | |
1. | aika = Zeit | 20 | 110 | Prozent | 77 | 427 |
2. | vuosi = Jahr | 23 | 114 | Euro | 94 | markka (= Mark) 229 u. mk (Abkürzung) 556 |
3. | asia = Sache | 41 | 808 | Zeit | 110 | 20 |
4. | maa = Land; Erde | 42 | 290 | Jahre | 114 | 23 |
5. | osa =
Teil |
48 | 249 | Uhr | 126 | 638 |
6. | päivä = Tag | 51 | 239 | Menschen | 131 | 46 |
7. | Suomi = Finnland | 53 | Deutsch-land | 138 | ||
8. | työ = Arbeit | 66 | 246 | Millionen | 156 | 732 |
9. | mies = Mann | 71 | 268 | Ende | 160 | 321 |
10. | tapa = Art; (im Plural: Manieren) | 71 | 345 | Unter-nehmen | 176 | 548 |
Mögliche Schlussfolgerungen:
Sind Finnen ihr Land liebende fleißige Männer, in deren Leben es sich sachlich hauptsächlich um die Arbeit dreht?
Und sind Deutsche / Österreicher und deutschsprechende Schweizer euroliebende Menschen, die in Unternehmen mit Weltuntergangsstimmung arbeitsvermeidend auf die Uhr schauend Millionen scheffeln und die Prozentrechnung beherrschen?

Detail vom Plakat unserer Sauna Challenge (siehe Finnland gewinnt den Weltrekord „Meiste Nationalitäten gleichzeitig in einer Sauna“ zurück)
Was sagen Sie dazu?
Nächste Woche geht es weiter mit der Hitreihe der Wörter, die auf Menschen verweisen. Bleiben Sie dran!
PS Meine Studenten wollten eigentlich wissen, an welcher Stelle “Bier” steht: im Finnischen an 2559 und im Deutschen in Freqenzklasse 10, also irgendwo zwischen Position 2223 und 4209. Also ziemlich gleichauf.
5 Gedanken zu “Sprachvergleich Finnisch – Deutsch anhand der Frequenzlisten des Wortschatzes”