improved upon the list of included stop_words

2017-11-13 17:13:49 +05:30 · 2017-11-13 17:13:49 +05:30 · 59f5740ede
parent 7a7b01feb1
commit 59f5740ede
1 changed files with 61 additions and 1 deletions
--- a/spacy/lang/hi/stop_words.py
+++ b/spacy/lang/hi/stop_words.py
@ -5,14 +5,23 @@ from __future__ import unicode_literals
 # Source: https://github.com/taranjeet/hindi-tokenizer/blob/master/stopwords.txt

 STOP_WORDS = set("""
+अंदर
 अत
+अदि
+अप
 अपना
+अपनि
 अपनी
 अपने
+अभि
 अभी
 अंदर
 आदि
 आप
+इंहिं
+इंहें
+इंहों
+इतयादि
 इत्यादि
 इन
 इनका
@ -21,13 +30,19 @@ STOP_WORDS = set("""
 इन्हों
 इस
 इसका
+इसकि
 इसकी
 इसके
 इसमें
+इसि
 इसी
 इसे
+उंहिं
+उंहें
+उंहों
 उन
 उनका
+उनकि
 उनकी
 उनके
 उनको
@ -36,13 +51,17 @@ STOP_WORDS = set("""
 उन्हों
 उस
 उसके
+उसि
 उसी
 उसे
 एक
 एवं
 एस
+एसे
 ऐसे
+ओर
 और
+कइ
 कई
 कर
 करता
@ -53,14 +72,18 @@ STOP_WORDS = set("""
 कहते
 कहा
 का
+काफि
 काफ़ी
 कि
+किंहें
+किंहों
 कितना
 किन्हें
 किन्हों
 किया
 किर
 किस
+किसि
 किसी
 किसे
 की
@ -68,27 +91,38 @@ STOP_WORDS = set("""
 कुल
 के
 को
+कोइ
 कोई
+कोन
+कोनसा
 कौन
 कौनसा
 गया
 घर
 जब
 जहाँ
+जहां
 जा
+जिंहें
+जिंहों
 जितना
+जिधर
 जिन
 जिन्हें
 जिन्हों
 जिस
 जिसे
 जीधर
+जेसा
+जेसे
 जैसा
 जैसे
 जो
 तक
 तब
 तरह
+तिंहें
+तिंहों
 तिन
 तिन्हें
 तिन्हों
@ -96,32 +130,41 @@ STOP_WORDS = set("""
 तिसे
 तो
 था
+थि
 थी
 थे
 दबारा
+दवारा
 दिया
 दुसरा
+दुसरे
 दूसरे
 दो
 द्वारा
 न
-नके
+नहिं
 नहीं
 ना
+निचे
 निहायत
 नीचे
 ने
 पर
 पहले
+पुरा
 पूरा
 पे
 फिर
+बनि
 बनी
+बहि
 बही
 बहुत
 बाद
 बाला
 बिलकुल
+भि
+भितर
 भी
 भीतर
 मगर
@ -131,11 +174,14 @@ STOP_WORDS = set("""
 यदि
 यह
 यहाँ
+यहां
+यहि
 यही
 या
 यिह
 ये
 रखें
+रवासा
 रहा
 रहे
 ऱ्वासा
@ -143,17 +189,24 @@ STOP_WORDS = set("""
 लिये
 लेकिन
 व
+वगेरह
 वग़ैरह
+वरग
 वर्ग
 वह
 वहाँ
+वहां
+वहिं
 वहीं
 वाले
 वुह
 वे
+वग़ैरह
+संग
 सकता
 सकते
 सबसे
+सभि
 सभी
 साथ
 साबुत
@ -162,16 +215,23 @@ STOP_WORDS = set("""
 से
 सो
 संग
+हि
 ही
+हुअ
 हुआ
+हुइ
 हुई
 हुए
+हे
+हें
 है
 हैं
 हो
 होता
+होति
 होती
 होते
 होना
 होने
+
 """.split())