Add Japanese stop words. (#2549)

List created by taking the 2000 top words from a Wikipedia dump and
removing everything that wasn't hiragana.

Tried going through kanji words and deciding what to keep but there were
too many obvious non-stopwords (東京 was in the top 500) and many other
words where it wasn't clear if they should be included or not.
This commit is contained in:
Paul O'Leary McCann 2018-07-17 17:12:48 +09:00 committed by Ines Montani
parent f35980f865
commit 61ef0739b8
1 changed files with 49 additions and 0 deletions

View File

@ -0,0 +1,49 @@
# coding: utf8
from __future__ import unicode_literals
# This list was created by taking the top 2000 words from a Wikipedia dump and
# filtering out everything that wasn't hiragana. ー (one) was also added.
# Considered keeping some non-hiragana words but too many place names were
# present.
STOP_WORDS = set("""
あっ あまり あり ある あるいは あれ
いい いう いく いずれ いっ いつ いる いわ
うち
おい おけ および おら おり
かけ かつ かつて かなり から
きっかけ
くる くん
こう ここ こと この これ ごと
さらに さん
しか しかし しまう しまっ しよう
すぐ すべて する
せい せる
そう そこ そして その それ それぞれ
たい ただし たち ため たら たり だけ だっ
ちゃん
つい つけ つつ
でき できる です
とき ところ とっ とも どう
ない なお なかっ ながら なく なけれ なし なっ など なら なり なる
にて
のち のみ
はじめ
ひと
ぶり
べき
ほか ほとんど ほど ほぼ
ます また まで まま
もう もっ もと もの
やっ
よう よく よっ より よる よれ
らしい られ られる
れる
""".split())