mirror of https://github.com/explosion/spaCy.git
Add basic Polish Language class
This commit is contained in:
parent
48177c4f92
commit
ca65993d59
|
@ -0,0 +1,24 @@
|
|||
# coding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS
|
||||
from .stop_words import STOP_WORDS
|
||||
|
||||
from ..tokenizer_exceptions import BASE_EXCEPTIONS
|
||||
from ...language import Language
|
||||
from ...attrs import LANG
|
||||
from ...util import update_exc
|
||||
|
||||
|
||||
class Polish(Language):
|
||||
lang = 'pl'
|
||||
|
||||
class Defaults(Language.Defaults):
|
||||
lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
|
||||
lex_attr_getters[LANG] = lambda text: 'pl'
|
||||
|
||||
tokenizer_exceptions = update_exc(BASE_EXCEPTIONS)
|
||||
stop_words = set(STOP_WORDS)
|
||||
|
||||
|
||||
__all__ = ['Polish']
|
|
@ -0,0 +1,46 @@
|
|||
# encoding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
|
||||
# Source: http://www.ranks.nl/stopwords/polish
|
||||
|
||||
STOP_WORDS = set("""
|
||||
ach aj albo
|
||||
|
||||
bardzo bez bo być
|
||||
|
||||
ci cię ciebie co czy
|
||||
|
||||
daleko dla dlaczego dlatego do dobrze dokąd dość dużo dwa dwaj dwie dwoje dziś
|
||||
dzisiaj
|
||||
|
||||
gdyby gdzie
|
||||
|
||||
go
|
||||
|
||||
ich ile im inny
|
||||
|
||||
ja ją jak jakby jaki je jeden jedna jedno jego jej jemu jeśli jest jestem
|
||||
jeżeli już
|
||||
|
||||
każdy kiedy kierunku kto ku
|
||||
|
||||
lub
|
||||
|
||||
ma mają mam mi mną mnie moi mój moja moje może mu my
|
||||
|
||||
na nam nami nas nasi nasz nasza nasze natychmiast nią nic nich nie niego niej
|
||||
niemu nigdy nim nimi niż
|
||||
|
||||
obok od około on ona one oni ono owszem
|
||||
|
||||
po pod ponieważ przed przedtem
|
||||
|
||||
są sam sama się skąd
|
||||
|
||||
tak taki tam ten to tobą tobie tu tutaj twoi twój twoja twoje ty
|
||||
|
||||
wam wami was wasi wasz wasza wasze we więc wszystko wtedy wy
|
||||
|
||||
żaden zawsze że
|
||||
""".split())
|
Loading…
Reference in New Issue