spaCy/spacy/lang/sk/stop_words.py

232 lines
1.2 KiB
Python
Raw Blame History

This file contains invisible Unicode characters

This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# coding: utf8
from __future__ import unicode_literals
# Source: https://github.com/stopwords-iso/stopwords-sk
STOP_WORDS = set(
"""
a
aby
aj
ak
ako
aký
ale
alebo
and
ani
asi
avšak
ba
bez
bol
bola
boli
bolo
bude
budem
budeme
budete
budeš
budú
buï
buď
by
byť
cez
dnes
do
ešte
for
ho
hoci
i
iba
ich
im
iné
iný
ja
je
jeho
jej
jemu
ju
k
kam
každá
každé
každí
každý
kde
kedže
keï
keď
kto
ktorou
ktorá
ktoré
ktorí
ktorý
ku
lebo
len
ma
mať
medzi
menej
mi
mna
mne
mnou
moja
moje
mu
musieť
my
máte
mòa
môcť
môj
môže
na
nad
nami
naši
nech
neho
nej
nemu
než
nich
nie
niektorý
nielen
nim
nič
no
nová
nové
noví
nový
nám
nás
náš
ním
o
od
odo
of
on
ona
oni
ono
ony
po
pod
podľa
pokiaľ
potom
pre
pred
predo
preto
pretože
prečo
pri
prvá
prvé
prví
prvý
práve
pýta
s
sa
seba
sem
si
sme
so
som
späť
ste
svoj
svoje
svojich
svojím
svojími
ta
tak
taký
takže
tam
te
teba
tebe
tebou
teda
tej
ten
tento
the
ti
tie
tieto
tiež
to
toho
tohoto
tom
tomto
tomu
tomuto
toto
tou
tu
tvoj
tvojími
ty
táto
túto
tým
týmto
v
vami
vaše
veï
viac
vo
vy
vám
vás
váš
však
všetok
z
za
zo
a
áno
èi
èo
èí
òom
òou
òu
či
čo
ďalšia
ďalšie
ďalší
že
""".split()
)