mirror of https://github.com/explosion/spaCy.git
178 lines
2.1 KiB
Python
178 lines
2.1 KiB
Python
# coding: utf8
|
|
from __future__ import unicode_literals
|
|
|
|
|
|
# Source: https://github.com/taranjeet/hindi-tokenizer/blob/master/stopwords.txt
|
|
|
|
STOP_WORDS = set("""
|
|
अत
|
|
अपना
|
|
अपनी
|
|
अपने
|
|
अभी
|
|
अंदर
|
|
आदि
|
|
आप
|
|
इत्यादि
|
|
इन
|
|
इनका
|
|
इन्हीं
|
|
इन्हें
|
|
इन्हों
|
|
इस
|
|
इसका
|
|
इसकी
|
|
इसके
|
|
इसमें
|
|
इसी
|
|
इसे
|
|
उन
|
|
उनका
|
|
उनकी
|
|
उनके
|
|
उनको
|
|
उन्हीं
|
|
उन्हें
|
|
उन्हों
|
|
उस
|
|
उसके
|
|
उसी
|
|
उसे
|
|
एक
|
|
एवं
|
|
एस
|
|
ऐसे
|
|
और
|
|
कई
|
|
कर
|
|
करता
|
|
करते
|
|
करना
|
|
करने
|
|
करें
|
|
कहते
|
|
कहा
|
|
का
|
|
काफ़ी
|
|
कि
|
|
कितना
|
|
किन्हें
|
|
किन्हों
|
|
किया
|
|
किर
|
|
किस
|
|
किसी
|
|
किसे
|
|
की
|
|
कुछ
|
|
कुल
|
|
के
|
|
को
|
|
कोई
|
|
कौन
|
|
कौनसा
|
|
गया
|
|
घर
|
|
जब
|
|
जहाँ
|
|
जा
|
|
जितना
|
|
जिन
|
|
जिन्हें
|
|
जिन्हों
|
|
जिस
|
|
जिसे
|
|
जीधर
|
|
जैसा
|
|
जैसे
|
|
जो
|
|
तक
|
|
तब
|
|
तरह
|
|
तिन
|
|
तिन्हें
|
|
तिन्हों
|
|
तिस
|
|
तिसे
|
|
तो
|
|
था
|
|
थी
|
|
थे
|
|
दबारा
|
|
दिया
|
|
दुसरा
|
|
दूसरे
|
|
दो
|
|
द्वारा
|
|
न
|
|
नके
|
|
नहीं
|
|
ना
|
|
निहायत
|
|
नीचे
|
|
ने
|
|
पर
|
|
पहले
|
|
पूरा
|
|
पे
|
|
फिर
|
|
बनी
|
|
बही
|
|
बहुत
|
|
बाद
|
|
बाला
|
|
बिलकुल
|
|
भी
|
|
भीतर
|
|
मगर
|
|
मानो
|
|
मे
|
|
में
|
|
यदि
|
|
यह
|
|
यहाँ
|
|
यही
|
|
या
|
|
यिह
|
|
ये
|
|
रखें
|
|
रहा
|
|
रहे
|
|
ऱ्वासा
|
|
लिए
|
|
लिये
|
|
लेकिन
|
|
व
|
|
वग़ैरह
|
|
वर्ग
|
|
वह
|
|
वहाँ
|
|
वहीं
|
|
वाले
|
|
वुह
|
|
वे
|
|
सकता
|
|
सकते
|
|
सबसे
|
|
सभी
|
|
साथ
|
|
साबुत
|
|
साभ
|
|
सारा
|
|
से
|
|
सो
|
|
संग
|
|
ही
|
|
हुआ
|
|
हुई
|
|
हुए
|
|
है
|
|
हैं
|
|
हो
|
|
होता
|
|
होती
|
|
होते
|
|
होना
|
|
होने
|
|
""".split())
|