mirror of https://github.com/explosion/spaCy.git
84 lines
1.4 KiB
Python
84 lines
1.4 KiB
Python
# encoding: utf8
|
|
from __future__ import unicode_literals
|
|
|
|
from ..symbols import *
|
|
from ..language_data import PRON_LEMMA
|
|
from ..language_data import TOKENIZER_PREFIXES
|
|
from ..language_data import TOKENIZER_SUFFIXES
|
|
from ..language_data import TOKENIZER_INFIXES
|
|
|
|
|
|
# TODO insert TAG_MAP for Dutch
|
|
|
|
TAG_MAP = {
|
|
"ADV": {POS: ADV},
|
|
"NOUN": {POS: NOUN},
|
|
"ADP": {POS: ADP},
|
|
"PRON": {POS: PRON},
|
|
"SCONJ": {POS: SCONJ},
|
|
"PROPN": {POS: PROPN},
|
|
"DET": {POS: DET},
|
|
"SYM": {POS: SYM},
|
|
"INTJ": {POS: INTJ},
|
|
"PUNCT": {POS: PUNCT},
|
|
"NUM": {POS: NUM},
|
|
"AUX": {POS: AUX},
|
|
"X": {POS: X},
|
|
"CONJ": {POS: CONJ},
|
|
"ADJ": {POS: ADJ},
|
|
"VERB": {POS: VERB}
|
|
}
|
|
|
|
|
|
# Stop words are retrieved from http://www.damienvanholten.com/downloads/dutch-stop-words.txt
|
|
|
|
STOP_WORDS = set("""
|
|
aan af al alles als altijd andere
|
|
|
|
ben bij
|
|
|
|
daar dan dat de der deze die dit doch doen door dus
|
|
|
|
een eens en er
|
|
|
|
ge geen geweest
|
|
|
|
haar had heb hebben heeft hem het hier hij hoe hun
|
|
|
|
iemand iets ik in is
|
|
|
|
ja je
|
|
|
|
kan kon kunnen
|
|
|
|
maar me meer men met mij mijn moet
|
|
|
|
na naar niet niets nog nu
|
|
|
|
of om omdat ons ook op over
|
|
|
|
reeds
|
|
|
|
te tegen toch toen tot
|
|
|
|
u uit uw
|
|
|
|
van veel voor
|
|
|
|
want waren was wat we wel werd wezen wie wij wil worden
|
|
|
|
zal ze zei zelf zich zij zijn zo zonder zou
|
|
""".split())
|
|
|
|
|
|
# TODO Make tokenizer excpetions for Dutch
|
|
|
|
TOKENIZER_EXCEPTIONS = {
|
|
|
|
}
|
|
|
|
|
|
ORTH_ONLY = {
|
|
|
|
}
|