Corpora
De kaarten en tabellen bij de kaarten op de website middelnederlands.nl zijn tot stand gekomen op basis van twee corpora, het Corpus-Van Reenen-Mulder van 14e-eeuwse oorkonden (CRM14) en het Corpus-Gysseling-Van Reenen van 13e-eeuwse oorkonden (CGR13), en een kaartprogramma. De corpora bestaan uit transcripties van originele oorkonden.
In de oorkonden staan veelal afkortingen. Bij het transcriberen zijn die afkortingen zo opgelost dat duidelijk blijft dat het om een oplossing gaat. (In het CGR13 is dat altijd het geval, in het CRM14 meestal.) Op basis van de transcripties kunnen alle vormen van een oorkonde op drie manieren worden gepresenteerd, gevolgd door het lemma:
- Vorm1: de getranscribeerde vorm, waarin hoofdletters kunnen voorkomen en waarin de afkortingen of onleesbare passages zijn aangegeven met _
- Vorm2: dezelfde vorm maar waarin de hoofdletters zijn vervangen door kleine letters
- Vorm3: dezelfde vorm waarin ook de afkortingen zijn opgelost en de onleesbare passages aangevuld.
- Vorm4: het lemma.
Voorbeeld:
H036p29002 En_ en_ ende en 800
Plaats | Tijd | Vlgnr | Vorm1 | Vorm2 | Vorm3 | Lemma | Woordsoort |
---|---|---|---|---|---|---|---|
H036p29002 | En_ | en_ | ende | en | 800 | ||
Brugge | 1290 | 02 | voegwoord |
Plaats Tijd Volgnummer
Elke oorkonde - en daarmee elke woordvorm van een oorkonde - is voorzien van een plaats/regiocode en een datering: Kloekecode en jaartal samen een cijfer-lettercombinatie, die samen met het volgnummer een unieke identificatie vormt.
Alle oorkonden zijn dus gedateerd en gelokaliseerd. Dat wil zeggen, van elke oorkonde is vastgesteld in welk jaar hij geschreven is, en uit welke plaats (of streek) hij afkomstig is. De tekst van elke oorkonde kan nu worden beschouwd als een verzameling geschreven vormen uit de plaats (of streek) uit een bepaald jaar tussen 1236 (de oudste oorkonde in de corpora) en 1400. De plaats-tijdcode is opgebouwd uit een zogenaamd Kloekenummer, H036p, voor de lokalisering Brugge, en een jaartal, 290 = 1290, voor de datering. Sommige oorkonden kunnen niet helemaal zeker aan een plaats worden toegeschreven, maar wel aan de regio rond die plaats. Dat is verwerkt in het Kloekenummer. E597r staat voor de regio (r) rond E097p = Beverwijk, dus voor de regio Beverwijk. De streek is af te leiden uit de plaats door er 500 bij op te tellen en de p (van plaats) te vervangen door de r (van regio). Nog een paar voorbeelden van Kloekenummers: plaats of regio zijn F179p = Zutphen, O152p = Ninove, L023p = Arnhem. In plaats van de p van plaats staat soms a, b of c.)
Voor de lijst van Kloekenummers, zie hier.
Taalkundige codering en lemma
De taalkundige codering en lemmatisering is oorspronkelijk opgesteld voor het CRM14 (waarbij de opstellers zich
hebben laten inspireren door de taalkundige code van het Oudfranse corpus dat aan de basis ligt van
Dees et al. (1980).
Voor meer informatie over de cijfercode en
de vertaling in letters, zie hier.
Het lemma is in principe ontleend aan het Middelnederlands Woordenboek (MNW), voor eigennamen is zo goed mogelijk aangesloten op
de moderne vormen.
In deze opzet is het volledig aan de onderzoekers om de vormen uit een plaats al dan niet als dialectvormen uit een bepaald jaar uit die plaats te interpreteren. De kaarten op de website geven niet meer, maar ook niet minder, dan schrijfwijzen.
Het corpus is aanwezig op het Meertens Instituut en op het INT.