improved upon the list of included stop_words

This commit is contained in:
Abhinav Sharma 2017-11-13 17:13:49 +05:30 committed by GitHub
parent 7a7b01feb1
commit 59f5740ede
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23
1 changed files with 61 additions and 1 deletions

View File

@ -5,14 +5,23 @@ from __future__ import unicode_literals
# Source: https://github.com/taranjeet/hindi-tokenizer/blob/master/stopwords.txt
STOP_WORDS = set("""
दर
अत
अदि
अप
अपन
अपनि
अपन
अपन
अभि
अभ
दर
आदि
आप
ि
इतयि
इति
इन
इनक
@ -21,13 +30,19 @@ STOP_WORDS = set("""
इन
इस
इसक
इसकि
इसक
इसक
इसम
इसि
इस
इस
ि
उन
उनक
उनकि
उनक
उनक
उनक
@ -36,13 +51,17 @@ STOP_WORDS = set("""
उन
उस
उसक
उसि
उस
उस
एक
एव
एस
एस
ऐस
ओर
और
कइ
कई
कर
करत
@ -53,14 +72,18 @@ STOP_WORDS = set("""
कहत
कह
ि
ि
ि
ि
ितन
ि
ि
ि
ि
ि
िि
ि
ि
@ -68,27 +91,38 @@ STOP_WORDS = set("""
नस
नस
गय
घर
जब
जह
जह
ि
ि
ितन
िधर
ि
ि
ि
ि
ि
धर
तक
तब
तरह
ि
ि
ि
ि
ि
@ -96,32 +130,41 @@ STOP_WORDS = set("""
ि
ि
दब
दव
ि
सर
सर
सर
ि
नह
ि
ियत
पर
पहल
ि
बनि
बन
बहि
बह
बह
िलक
ि
ितर
तर
मगर
@ -131,11 +174,14 @@ STOP_WORDS = set("""
यदि
यह
यह
यह
यहि
यह
ि
रख
रव
रह
रह
@ -143,17 +189,24 @@ STOP_WORDS = set("""
ि
ि
वगरह
वग़रह
वरग
वर
वह
वह
वह
वहि
वह
वग़रह
सकत
सकत
सबस
सभि
सभ
@ -162,16 +215,23 @@ STOP_WORDS = set("""
ि
ि
""".split())