Het ANW-Corpus

Het ANW-corpus bevat op het moment ca. 102,5 miljoen tokens. Het bestaat uit de volgende deelcorpora:

  • Domeinencorpora Nederland (ca. 20 miljoen tokens) en België (ca. 12 miljoen tokens)
  • Corpus van Literaire Teksten (ca. 20 miljoen tokens)
  • Neologismencorpus (ca. 5,5 miljoen tokens)
  • Krantencorpus (ca. 40 miljoen tokens)
  • Pluscorpus (ca. 5 miljoen tokens)

Domeinencorpora

De Domeinencorpora Nederland en België zijn aangelegd aan de hand van de (inmiddels niet meer afzonderlijk te raadplegen) webindex www.nl-menu.nl. Met behulp daarvan is binnen de daar afgebakende domeinen (van 'aangeboren afwijkingen' tot 'zwemsport') gezocht naar materiaal dat geschikt is voor het ANW. Het Domeinencorpus Nederland werd aangelegd in de periode 2000 – 2004 en bevat teksten voor 1341 domeinen, terwijl zich in het in de periode 2001 – 2004 opgebouwde Domeinencorpus België teksten voor 1307 domeinen bevinden. Deze deelcorpora zijn in principe afgesloten en worden niet meer aangevuld.

Corpus van Literaire Teksten

Het Corpus van Literaire Teksten bevat essays, romans, verhalen en toneel, zowel oorspronkelijk als vertaald werk. Bij de selectie is rekening gehouden met een evenwichtige spreiding in tijd en met een redelijke verdeling tussen Noord (Nederland) en Zuid (België). Dit deelcorpus wordt elk jaar aangevuld met actueel materiaal. Een overzicht van alle opgenomen literaire teksten komt binnenkort beschikbaar.

Neologismencorpus

Het Neologismencorpus bevat materiaal uit een twintigtal dag- en weekbladen en nieuwssites, die sinds het jaar 2000 systematisch worden afgezocht naar neologismen (in de ruimste zin: ook nieuwe betekenissen, verbindingen e.d.). Daarnaast worden in het corpus alle papieren notities en/of krantenknipsels die van elders worden aangeleverd, in gedigitaliseerde vorm opgeslagen. Dit deelcorpus wordt elk jaar aangevuld met actueel materiaal. Niet alle neologismen zullen uiteindelijk voor bewerking in het ANW in aanmerking komen. Kijk op de website van het Instituut voor de Nederlandse Taal voor een volledig overzicht van opgetekende neologismen.

Krantencorpus

Het Krantencorpus bevat materiaal uit de NRC, de Meppeler Courant en De Standaard. Dit deelcorpus wordt elk jaar aangevuld met actueel materiaal.

Pluscorpus

Het Pluscorpus bestaat uit materiaal dat in de periode 1970 - 2000 is aangetroffen in de bestaande INT-lexica, maar niet voorkomt in een van de andere deelcorpora van het ANW. Bij dit materiaal is gericht gezocht naar recent tekstmateriaal dat vervolgens aan het Pluscorpus is toegevoegd. Het Pluscorpus is inmiddels afgesloten en wordt in principe niet meer aangevuld.