mirror of https://github.com/explosion/spaCy.git
84 lines
1.5 KiB
Python
84 lines
1.5 KiB
Python
# encoding: utf8
|
|
from __future__ import unicode_literals
|
|
|
|
from ..symbols import *
|
|
from ..language_data import PRON_LEMMA
|
|
from ..language_data import TOKENIZER_PREFIXES
|
|
from ..language_data import TOKENIZER_SUFFIXES
|
|
from ..language_data import TOKENIZER_INFIXES
|
|
|
|
|
|
# TODO insert TAG_MAP for Dutch
|
|
|
|
TAG_MAP = {
|
|
"ADV": {POS: "ADV"},
|
|
"NOUN": {POS: "NOUN"},
|
|
"ADP": {POS: "ADP"},
|
|
"PRON": {POS: "PRON"},
|
|
"SCONJ": {POS: "SCONJ"},
|
|
"PROPN": {POS: "PROPN"},
|
|
"DET": {POS: "DET"},
|
|
"SYM": {POS: "SYM"},
|
|
"INTJ": {POS: "INTJ"},
|
|
"PUNCT": {POS: "PUNCT"},
|
|
"NUM": {POS: "NUM"},
|
|
"AUX": {POS: "AUX"},
|
|
"X": {POS: "X"},
|
|
"CONJ": {POS: "CONJ"},
|
|
"ADJ": {POS: "ADJ"},
|
|
"VERB": {POS: "VERB"}
|
|
}
|
|
|
|
|
|
# Stop words are retrieved from http://www.damienvanholten.com/downloads/dutch-stop-words.txt
|
|
|
|
STOP_WORDS = set("""
|
|
aan af al alles als altijd andere
|
|
|
|
ben bij
|
|
|
|
daar dan dat de der deze die dit doch doen door dus
|
|
|
|
een eens en er
|
|
|
|
ge geen geweest
|
|
|
|
haar had heb hebben heeft hem het hier hij hoe hun
|
|
|
|
iemand iets ik in is
|
|
|
|
ja je
|
|
|
|
kan kon kunnen
|
|
|
|
maar me meer men met mij mijn moet
|
|
|
|
na naar niet niets nog nu
|
|
|
|
of om omdat ons ook op over
|
|
|
|
reeds
|
|
|
|
te tegen toch toen tot
|
|
|
|
u uit uw
|
|
|
|
van veel voor
|
|
|
|
want waren was wat we wel werd wezen wie wij wil worden
|
|
|
|
zal ze zei zelf zich zij zijn zo zonder zou
|
|
""".split())
|
|
|
|
|
|
# TODO Make tokenizer excpetions for Dutch
|
|
|
|
TOKENIZER_EXCEPTIONS = {
|
|
|
|
}
|
|
|
|
|
|
ORTH_ONLY = {
|
|
|
|
}
|