spaCy/spacy/nl/language_data.py

# encoding: utf8
from __future__ import unicode_literals

from ..symbols import *
from ..language_data import PRON_LEMMA
from ..language_data import TOKENIZER_PREFIXES
from ..language_data import TOKENIZER_SUFFIXES
from ..language_data import TOKENIZER_INFIXES


# TODO insert TAG_MAP for Dutch

TAG_MAP = {
    "ADV":      {POS: "ADV"},
    "NOUN":     {POS: "NOUN"},
    "ADP":      {POS: "ADP"},
    "PRON":     {POS: "PRON"},
    "SCONJ":    {POS: "SCONJ"},
    "PROPN":    {POS: "PROPN"},
    "DET":      {POS: "DET"},
    "SYM":      {POS: "SYM"},
    "INTJ":     {POS: "INTJ"},
    "PUNCT":    {POS: "PUNCT"},
    "NUM":      {POS: "NUM"},
    "AUX":      {POS: "AUX"},
    "X":        {POS: "X"},
    "CONJ":     {POS: "CONJ"},
    "ADJ":      {POS: "ADJ"},
    "VERB":     {POS: "VERB"}
}


# Stop words are retrieved from http://www.damienvanholten.com/downloads/dutch-stop-words.txt

STOP_WORDS = set("""
aan af al alles als altijd andere

ben bij

daar dan dat de der deze die dit doch doen door dus

een eens en er

ge geen geweest

haar had heb hebben heeft hem het hier hij hoe hun

iemand iets ik in is

ja je

kan kon kunnen

maar me meer men met mij mijn moet

na naar niet niets nog nu

of om omdat ons ook op over

reeds

te tegen toch toen tot

u uit uw

van veel voor

want waren was wat we wel werd wezen wie wij wil worden

zal ze zei zelf zich zij zijn zo zonder zou
""".split())


# TODO Make tokenizer excpetions for Dutch

TOKENIZER_EXCEPTIONS = {

}


ORTH_ONLY = {

}
Added language class and some language data (with some TODOs) for Dutch 2016-11-24 14:56:38 +00:00			`# encoding: utf8`
			`from __future__ import unicode_literals`
Reformat dutch language data to match new style 2016-12-17 12:26:01 +00:00
			`from ..symbols import *`
			`from ..language_data import PRON_LEMMA`
			`from ..language_data import TOKENIZER_PREFIXES`
			`from ..language_data import TOKENIZER_SUFFIXES`
			`from ..language_data import TOKENIZER_INFIXES`


			`# TODO insert TAG_MAP for Dutch`

			`TAG_MAP = {`
			`"ADV": {POS: "ADV"},`
			`"NOUN": {POS: "NOUN"},`
			`"ADP": {POS: "ADP"},`
			`"PRON": {POS: "PRON"},`
			`"SCONJ": {POS: "SCONJ"},`
			`"PROPN": {POS: "PROPN"},`
			`"DET": {POS: "DET"},`
			`"SYM": {POS: "SYM"},`
			`"INTJ": {POS: "INTJ"},`
			`"PUNCT": {POS: "PUNCT"},`
			`"NUM": {POS: "NUM"},`
			`"AUX": {POS: "AUX"},`
			`"X": {POS: "X"},`
			`"CONJ": {POS: "CONJ"},`
			`"ADJ": {POS: "ADJ"},`
			`"VERB": {POS: "VERB"}`
			`}`

Added language class and some language data (with some TODOs) for Dutch 2016-11-24 14:56:38 +00:00
			`# Stop words are retrieved from http://www.damienvanholten.com/downloads/dutch-stop-words.txt`
Reformat dutch language data to match new style 2016-12-17 12:26:01 +00:00
Added language class and some language data (with some TODOs) for Dutch 2016-11-24 14:56:38 +00:00			`STOP_WORDS = set("""`
Reformat dutch language data to match new style 2016-12-17 12:26:01 +00:00			`aan af al alles als altijd andere`

			`ben bij`

			`daar dan dat de der deze die dit doch doen door dus`

			`een eens en er`

			`ge geen geweest`

			`haar had heb hebben heeft hem het hier hij hoe hun`

			`iemand iets ik in is`

			`ja je`

			`kan kon kunnen`

			`maar me meer men met mij mijn moet`

			`na naar niet niets nog nu`

			`of om omdat ons ook op over`

Added language class and some language data (with some TODOs) for Dutch 2016-11-24 14:56:38 +00:00			`reeds`

Reformat dutch language data to match new style 2016-12-17 12:26:01 +00:00			`te tegen toch toen tot`
Added language class and some language data (with some TODOs) for Dutch 2016-11-24 14:56:38 +00:00
Reformat dutch language data to match new style 2016-12-17 12:26:01 +00:00			`u uit uw`
Added language class and some language data (with some TODOs) for Dutch 2016-11-24 14:56:38 +00:00
Reformat dutch language data to match new style 2016-12-17 12:26:01 +00:00			`van veel voor`
Added language class and some language data (with some TODOs) for Dutch 2016-11-24 14:56:38 +00:00
Reformat dutch language data to match new style 2016-12-17 12:26:01 +00:00			`want waren was wat we wel werd wezen wie wij wil worden`
Added language class and some language data (with some TODOs) for Dutch 2016-11-24 14:56:38 +00:00
Reformat dutch language data to match new style 2016-12-17 12:26:01 +00:00			`zal ze zei zelf zich zij zijn zo zonder zou`
			`""".split())`
Added language class and some language data (with some TODOs) for Dutch 2016-11-24 14:56:38 +00:00

Reformat dutch language data to match new style 2016-12-17 12:26:01 +00:00			`# TODO Make tokenizer excpetions for Dutch`
Added language class and some language data (with some TODOs) for Dutch 2016-11-24 14:56:38 +00:00
Reformat dutch language data to match new style 2016-12-17 12:26:01 +00:00			`TOKENIZER_EXCEPTIONS = {`

			`}`


			`ORTH_ONLY = {`
Added language class and some language data (with some TODOs) for Dutch 2016-11-24 14:56:38 +00:00
			`}`