Merge pull request #2025 from dejanmarich/patch-1

Update stop_words.py for Croatian language
This commit is contained in:
Ines Montani 2018-02-26 18:22:32 +01:00 committed by GitHub
commit 35634352fe
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23
1 changed files with 173 additions and 13 deletions

View File

@ -6,10 +6,25 @@ from __future__ import unicode_literals
STOP_WORDS = set(""" STOP_WORDS = set("""
a a
ah
aha
aj
ako ako
al
ali ali
arh
au
avaj
bar
baš
bez
bi bi
bih bih
bijah
bijahu
bijaše
bijasmo
bijaste
bila bila
bili bili
bilo bilo
@ -17,25 +32,104 @@ bio
bismo bismo
biste biste
biti biti
brr
buć
budavši
bude
budimo
budite
budu
budući
bum
bumo bumo
će
ćemo
ćeš
ćete
čijem
čijim
čijima
ću
da da
daj
dakle
de
deder
dem
djelomice
djelomično
do do
doista
dok
dokle
donekle
dosad
doskoro
dotad
dotle
dovečer
drugamo
drugdje
duž duž
e
eh
ehe
ej
eno
eto
evo
ga ga
gdjekakav
gdjekoje
gic
god
halo
hej
hm
hoće hoće
hoćemo hoćemo
hoćete
hoćeš hoćeš
hoćete
hoću hoću
hop
htijahu
htijasmo
htijaste
htio
htjedoh
htjedoše
htjedoste
htjela
htjele
htjeli
hura
i i
iako iako
ih ih
iju
ijuju
ikada
ikakav
ikakva
ikakve
ikakvi
ikakvih
ikakvim
ikakvima
ikakvo
ikakvog
ikakvoga
ikakvoj
ikakvom
ikakvome
ili ili
im
iz iz
ja ja
je je
jedna jedna
jedne jedne
jedni
jedno jedno
jer jer
jesam jesam
@ -57,6 +151,7 @@ koji
kojima kojima
koju koju
kroz kroz
lani
li li
me me
mene mene
@ -66,6 +161,8 @@ mimo
moj moj
moja moja
moje moje
moji
moju
mu mu
na na
nad nad
@ -77,24 +174,27 @@ naš
naša naša
naše naše
našeg našeg
naši
ne ne
neće
nećemo
nećeš
nećete
neću
nego nego
neka neka
neke
neki neki
nekog nekog
neku neku
nema nema
netko
neće
nećemo
nećete
nećeš
neću
nešto nešto
netko
ni ni
nije nije
nikoga nikoga
nikoje nikoje
nikoji
nikoju nikoju
nisam nisam
nisi nisi
@ -123,33 +223,63 @@ od
odmah odmah
on on
ona ona
one
oni oni
ono ono
onu
onoj
onom
onim
onima
ova ova
ovaj
ovim
ovima
ovoj
pa pa
pak pak
pljus
po po
pod pod
podalje
poimence
poizdalje
ponekad
pored pored
postrance
potajice
potrbuške
pouzdano
prije prije
s s
sa sa
sam sam
samo samo
sasvim
sav
se se
sebe sebe
sebi sebi
si si
šic
smo smo
ste ste
što
šta
štogod
štagod
su su
sva
sve sve
svi svi
svi
svog svog
svoj svoj
svoja svoja
svoje svoje
svoju
svom svom
svu
ta ta
tada tada
taj taj
@ -158,6 +288,8 @@ te
tebe tebe
tebi tebi
ti ti
tim
tima
to to
toj toj
tome tome
@ -165,23 +297,51 @@ tu
tvoj tvoj
tvoja tvoja
tvoje tvoje
tvoji
tvoju
u u
usprkos
utaman
uvijek
uz uz
uza
uzagrapce
uzalud
uzduž
valjda
vam vam
vama vama
vas vas
vaš vaš
vaša vaša
vaše vaše
vašim
vašima
već već
vi vi
vjerojatno
vjerovatno
vrh
vrlo vrlo
za za
zaista
zar zar
će zatim
ćemo zato
ćete zbija
ćeš zbog
ću želeći
što željah
željela
željele
željeli
željelo
željen
željena
željene
željeni
željenu
željeo
zimus
zum
""".split()) """.split())