2017-03-12 12:07:28 +00:00
|
|
|
# coding: utf8
|
2017-01-31 22:27:29 +00:00
|
|
|
from __future__ import unicode_literals
|
|
|
|
|
2017-05-08 20:23:48 +00:00
|
|
|
|
2017-01-31 22:27:29 +00:00
|
|
|
# Source https://github.com/stopwords-iso/stopwords-fi/blob/master/stopwords-fi.txt
|
2017-02-04 11:44:41 +00:00
|
|
|
# Reformatted with some minor corrections
|
💫 Tidy up and auto-format .py files (#2983)
<!--- Provide a general summary of your changes in the title. -->
## Description
- [x] Use [`black`](https://github.com/ambv/black) to auto-format all `.py` files.
- [x] Update flake8 config to exclude very large files (lemmatization tables etc.)
- [x] Update code to be compatible with flake8 rules
- [x] Fix various small bugs, inconsistencies and messy stuff in the language data
- [x] Update docs to explain new code style (`black`, `flake8`, when to use `# fmt: off` and `# fmt: on` and what `# noqa` means)
Once #2932 is merged, which auto-formats and tidies up the CLI, we'll be able to run `flake8 spacy` actually get meaningful results.
At the moment, the code style and linting isn't applied automatically, but I'm hoping that the new [GitHub Actions](https://github.com/features/actions) will let us auto-format pull requests and post comments with relevant linting information.
### Types of change
enhancement, code style
## Checklist
<!--- Before you submit the PR, go over this checklist and make sure you can
tick off all the boxes. [] -> [x] -->
- [x] I have submitted the spaCy Contributor Agreement.
- [x] I ran the tests, and all new and existing tests passed.
- [x] My changes don't require a change to the documentation, or if they do, I've added all required information.
2018-11-30 16:03:03 +00:00
|
|
|
STOP_WORDS = set(
|
|
|
|
"""
|
2017-02-04 12:40:25 +00:00
|
|
|
aiemmin aika aikaa aikaan aikaisemmin aikaisin aikana aikoina aikoo aikovat
|
|
|
|
aina ainakaan ainakin ainoa ainoat aiomme aion aiotte aivan ajan alas alemmas
|
|
|
|
alkuisin alkuun alla alle aloitamme aloitan aloitat aloitatte aloitattivat
|
|
|
|
aloitettava aloitettavaksi aloitettu aloitimme aloitin aloitit aloititte
|
|
|
|
aloittaa aloittamatta aloitti aloittivat alta aluksi alussa alusta annettavaksi
|
|
|
|
annettava annettu ansiosta antaa antamatta antoi apu asia asiaa asian asiasta
|
|
|
|
asiat asioiden asioihin asioita asti avuksi avulla avun avutta
|
|
|
|
|
|
|
|
edelle edelleen edellä edeltä edemmäs edes edessä edestä ehkä ei eikä eilen
|
|
|
|
eivät eli ellei elleivät ellemme ellen ellet ellette emme en enemmän eniten
|
|
|
|
ennen ensi ensimmäinen ensimmäiseksi ensimmäisen ensimmäisenä ensimmäiset
|
|
|
|
ensimmäisiksi ensimmäisinä ensimmäisiä ensimmäistä ensin entinen entisen
|
|
|
|
entisiä entisten entistä enää eri erittäin erityisesti eräiden eräs eräät esi
|
|
|
|
esiin esillä esimerkiksi et eteen etenkin ette ettei että
|
|
|
|
|
|
|
|
halua haluaa haluamatta haluamme haluan haluat haluatte haluavat halunnut
|
|
|
|
halusi halusimme halusin halusit halusitte halusivat halutessa haluton he hei
|
|
|
|
heidän heidät heihin heille heillä heiltä heissä heistä heitä helposti heti
|
|
|
|
hetkellä hieman hitaasti huolimatta huomenna hyvien hyviin hyviksi hyville
|
|
|
|
hyviltä hyvin hyvinä hyvissä hyvistä hyviä hyvä hyvät hyvää hän häneen hänelle
|
|
|
|
hänellä häneltä hänen hänessä hänestä hänet häntä
|
2017-02-04 11:44:41 +00:00
|
|
|
|
|
|
|
ihan ilman ilmeisesti itse itsensä itseään
|
|
|
|
|
2017-02-04 12:40:25 +00:00
|
|
|
ja jo johon joiden joihin joiksi joilla joille joilta joina joissa joista joita
|
|
|
|
joka jokainen jokin joko joksi joku jolla jolle jolloin jolta jompikumpi jona
|
|
|
|
jonka jonkin jonne joo jopa jos joskus jossa josta jota jotain joten jotenkin
|
|
|
|
jotenkuten jotka jotta jouduimme jouduin jouduit jouduitte joudumme joudun
|
|
|
|
joudutte joukkoon joukossa joukosta joutua joutui joutuivat joutumaan joutuu
|
|
|
|
joutuvat juuri jälkeen jälleen jää
|
|
|
|
|
|
|
|
kahdeksan kahdeksannen kahdella kahdelle kahdelta kahden kahdessa kahdesta
|
|
|
|
kahta kahteen kai kaiken kaikille kaikilta kaikkea kaikki kaikkia kaikkiaan
|
|
|
|
kaikkialla kaikkialle kaikkialta kaikkien kaikkiin kaksi kannalta kannattaa
|
|
|
|
kanssa kanssaan kanssamme kanssani kanssanne kanssasi kauan kauemmas kaukana
|
|
|
|
kautta kehen keiden keihin keiksi keille keillä keiltä keinä keissä keistä
|
|
|
|
keitten keittä keitä keneen keneksi kenelle kenellä keneltä kenen kenenä
|
|
|
|
kenessä kenestä kenet kenettä kenties kerran kerta kertaa keskellä kesken
|
|
|
|
keskimäärin ketkä ketä kiitos kohti koko kokonaan kolmas kolme kolmen kolmesti
|
|
|
|
koska koskaan kovin kuin kuinka kuinkaan kuitenkaan kuitenkin kuka kukaan kukin
|
|
|
|
kumpainen kumpainenkaan kumpi kumpikaan kumpikin kun kuten kuuden kuusi kuutta
|
|
|
|
kylliksi kyllä kymmenen kyse
|
|
|
|
|
|
|
|
liian liki lisäksi lisää lla luo luona lähekkäin lähelle lähellä läheltä
|
|
|
|
lähemmäs lähes lähinnä lähtien läpi
|
|
|
|
|
|
|
|
mahdollisimman mahdollista me meidän meidät meihin meille meillä meiltä meissä
|
|
|
|
meistä meitä melkein melko menee menemme menen menet menette menevät meni
|
|
|
|
menimme menin menit menivät mennessä mennyt menossa mihin miksi mikä mikäli
|
|
|
|
mikään mille milloin milloinkan millä miltä minkä minne minua minulla minulle
|
|
|
|
minulta minun minussa minusta minut minuun minä missä mistä miten mitkä mitä
|
|
|
|
mitään moi molemmat mones monesti monet moni moniaalla moniaalle moniaalta
|
|
|
|
monta muassa muiden muita muka mukaan mukaansa mukana mutta muu muualla muualle
|
|
|
|
muualta muuanne muulloin muun muut muuta muutama muutaman muuten myöhemmin myös
|
|
|
|
myöskin myöskään myötä
|
|
|
|
|
|
|
|
ne neljä neljän neljää niiden niihin niiksi niille niillä niiltä niin niinä
|
|
|
|
niissä niistä niitä noiden noihin noiksi noilla noille noilta noin noina noissa
|
|
|
|
noista noita nopeammin nopeasti nopeiten nro nuo nyt näiden näihin näiksi
|
|
|
|
näille näillä näiltä näin näinä näissä näistä näitä nämä
|
|
|
|
|
|
|
|
ohi oikea oikealla oikein ole olemme olen olet olette oleva olevan olevat oli
|
|
|
|
olimme olin olisi olisimme olisin olisit olisitte olisivat olit olitte olivat
|
|
|
|
olla olleet ollut oma omaa omaan omaksi omalle omalta oman omassa omat omia
|
|
|
|
omien omiin omiksi omille omilta omissa omista on onkin onko ovat
|
|
|
|
|
|
|
|
paikoittain paitsi pakosti paljon paremmin parempi parhaillaan parhaiten
|
|
|
|
perusteella peräti pian pieneen pieneksi pienelle pienellä pieneltä pienempi
|
|
|
|
pienestä pieni pienin poikki puolesta puolestaan päälle
|
2017-02-04 11:44:41 +00:00
|
|
|
|
2017-01-31 22:27:29 +00:00
|
|
|
runsaasti
|
2017-02-04 11:44:41 +00:00
|
|
|
|
2018-03-27 17:23:02 +00:00
|
|
|
saakka sama samaa samaan samalla saman samat samoin satojen se
|
2017-02-04 12:40:25 +00:00
|
|
|
seitsemän sekä sen seuraavat siellä sieltä siihen siinä siis siitä sijaan siksi
|
|
|
|
sille silloin sillä silti siltä sinne sinua sinulla sinulle sinulta sinun
|
|
|
|
sinussa sinusta sinut sinuun sinä sisäkkäin sisällä siten sitten sitä ssa sta
|
|
|
|
suoraan suuntaan suuren suuret suuri suuria suurin suurten
|
|
|
|
|
|
|
|
taa taas taemmas tahansa tai takaa takaisin takana takia tallä tapauksessa
|
|
|
|
tarpeeksi tavalla tavoitteena te teidän teidät teihin teille teillä teiltä
|
|
|
|
teissä teistä teitä tietysti todella toinen toisaalla toisaalle toisaalta
|
|
|
|
toiseen toiseksi toisella toiselle toiselta toisemme toisen toisensa toisessa
|
2018-03-27 17:23:02 +00:00
|
|
|
toisesta toista toistaiseksi toki tosin tule tulee tulemme tulen
|
2017-02-04 12:40:25 +00:00
|
|
|
tulet tulette tulevat tulimme tulin tulisi tulisimme tulisin tulisit tulisitte
|
|
|
|
tulisivat tulit tulitte tulivat tulla tulleet tullut tuntuu tuo tuohon tuoksi
|
|
|
|
tuolla tuolle tuolloin tuolta tuon tuona tuonne tuossa tuosta tuota tuskin tykö
|
|
|
|
tähän täksi tälle tällä tällöin tältä tämä tämän tänne tänä tänään tässä tästä
|
|
|
|
täten tätä täysin täytyvät täytyy täällä täältä
|
|
|
|
|
|
|
|
ulkopuolella usea useasti useimmiten usein useita uudeksi uudelleen uuden uudet
|
|
|
|
uusi uusia uusien uusinta uuteen uutta
|
|
|
|
|
|
|
|
vaan vai vaiheessa vaikea vaikean vaikeat vaikeilla vaikeille vaikeilta
|
|
|
|
vaikeissa vaikeista vaikka vain varmasti varsin varsinkin varten vasen
|
|
|
|
vasemmalla vasta vastaan vastakkain vastan verran vielä vierekkäin vieressä
|
|
|
|
vieri viiden viime viimeinen viimeisen viimeksi viisi voi voidaan voimme voin
|
|
|
|
voisi voit voitte voivat vuoden vuoksi vuosi vuosien vuosina vuotta vähemmän
|
|
|
|
vähintään vähiten vähän välillä
|
|
|
|
|
|
|
|
yhdeksän yhden yhdessä yhteen yhteensä yhteydessä yhteyteen yhtä yhtäälle
|
|
|
|
yhtäällä yhtäältä yhtään yhä yksi yksin yksittäin yleensä ylemmäs yli ylös
|
|
|
|
ympäri
|
2017-02-04 11:44:41 +00:00
|
|
|
|
|
|
|
älköön älä
|
💫 Tidy up and auto-format .py files (#2983)
<!--- Provide a general summary of your changes in the title. -->
## Description
- [x] Use [`black`](https://github.com/ambv/black) to auto-format all `.py` files.
- [x] Update flake8 config to exclude very large files (lemmatization tables etc.)
- [x] Update code to be compatible with flake8 rules
- [x] Fix various small bugs, inconsistencies and messy stuff in the language data
- [x] Update docs to explain new code style (`black`, `flake8`, when to use `# fmt: off` and `# fmt: on` and what `# noqa` means)
Once #2932 is merged, which auto-formats and tidies up the CLI, we'll be able to run `flake8 spacy` actually get meaningful results.
At the moment, the code style and linting isn't applied automatically, but I'm hoping that the new [GitHub Actions](https://github.com/features/actions) will let us auto-format pull requests and post comments with relevant linting information.
### Types of change
enhancement, code style
## Checklist
<!--- Before you submit the PR, go over this checklist and make sure you can
tick off all the boxes. [] -> [x] -->
- [x] I have submitted the spaCy Contributor Agreement.
- [x] I ran the tests, and all new and existing tests passed.
- [x] My changes don't require a change to the documentation, or if they do, I've added all required information.
2018-11-30 16:03:03 +00:00
|
|
|
""".split()
|
|
|
|
)
|