diff --git a/spacy/lang/pl/__init__.py b/spacy/lang/pl/__init__.py new file mode 100644 index 000000000..cb1e955c1 --- /dev/null +++ b/spacy/lang/pl/__init__.py @@ -0,0 +1,24 @@ +# coding: utf8 +from __future__ import unicode_literals + +from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS +from .stop_words import STOP_WORDS + +from ..tokenizer_exceptions import BASE_EXCEPTIONS +from ...language import Language +from ...attrs import LANG +from ...util import update_exc + + +class Polish(Language): + lang = 'pl' + + class Defaults(Language.Defaults): + lex_attr_getters = dict(Language.Defaults.lex_attr_getters) + lex_attr_getters[LANG] = lambda text: 'pl' + + tokenizer_exceptions = update_exc(BASE_EXCEPTIONS) + stop_words = set(STOP_WORDS) + + +__all__ = ['Polish'] diff --git a/spacy/lang/pl/stop_words.py b/spacy/lang/pl/stop_words.py new file mode 100644 index 000000000..bdf2189b6 --- /dev/null +++ b/spacy/lang/pl/stop_words.py @@ -0,0 +1,46 @@ +# encoding: utf8 +from __future__ import unicode_literals + + +# Source: http://www.ranks.nl/stopwords/polish + +STOP_WORDS = set(""" +ach aj albo + +bardzo bez bo być + +ci cię ciebie co czy + +daleko dla dlaczego dlatego do dobrze dokąd dość dużo dwa dwaj dwie dwoje dziś +dzisiaj + +gdyby gdzie + +go + +ich ile im inny + +ja ją jak jakby jaki je jeden jedna jedno jego jej jemu jeśli jest jestem +jeżeli już + +każdy kiedy kierunku kto ku + +lub + +ma mają mam mi mną mnie moi mój moja moje może mu my + +na nam nami nas nasi nasz nasza nasze natychmiast nią nic nich nie niego niej +niemu nigdy nim nimi niż + +obok od około on ona one oni ono owszem + +po pod ponieważ przed przedtem + +są sam sama się skąd + +tak taki tam ten to tobą tobie tu tutaj twoi twój twoja twoje ty + +wam wami was wasi wasz wasza wasze we więc wszystko wtedy wy + +żaden zawsze że +""".split())