added missing punctuation following conventions. (#4066)

This commit is contained in:
Muhammad Irfan 2019-08-04 16:41:18 +05:00 committed by Ines Montani
parent 33b14724a5
commit d1d30b0442
4 changed files with 5 additions and 10 deletions

View File

@ -214,7 +214,7 @@ _currency = r"\$ £ € ¥ ฿ US\$ C\$ A\$ ₽ ﷼ ₴"
# used in Chinese (see #1333, #1340, #1351) unless there are cross-language # used in Chinese (see #1333, #1340, #1351) unless there are cross-language
# conflicts, spaCy's base tokenizer should handle all of those by default # conflicts, spaCy's base tokenizer should handle all of those by default
_punct = ( _punct = (
r"… …… , : ; \! \? ¿ ؟ ¡ \( \) \[ \] \{ \} < > _ # \* & 。 · । ، ؛ ٪" r"… …… , : ; \! \? ¿ ؟ ¡ \( \) \[ \] \{ \} < > _ # \* & 。 · । ، ۔ ؛ ٪"
) )
_quotes = r'\' " ” “ ` ´ , „ » « 「 」 『 』 【 】 《 》 〈 〉' _quotes = r'\' " ” “ ` ´ , „ » « 「 」 『 』 【 】 《 》 〈 〉'
_hyphens = "- — -- --- —— ~" _hyphens = "- — -- --- —— ~"

View File

@ -21,6 +21,7 @@ class UrduDefaults(Language.Defaults):
tag_map = TAG_MAP tag_map = TAG_MAP
stop_words = STOP_WORDS stop_words = STOP_WORDS
suffixes = TOKENIZER_SUFFIXES suffixes = TOKENIZER_SUFFIXES
writing_system = {"direction": "rtl", "has_case": False, "has_letters": True}
class Urdu(Language): class Urdu(Language):

View File

@ -4,7 +4,4 @@ from __future__ import unicode_literals
from ..punctuation import TOKENIZER_SUFFIXES from ..punctuation import TOKENIZER_SUFFIXES
_suffixes = TOKENIZER_SUFFIXES + ["۔"] _suffixes = TOKENIZER_SUFFIXES
TOKENIZER_SUFFIXES = _suffixes

View File

@ -5,12 +5,9 @@ import pytest
def test_ur_tokenizer_handles_long_text(ur_tokenizer): def test_ur_tokenizer_handles_long_text(ur_tokenizer):
text = """اصل میں رسوا ہونے کی ہمیں text = """اصل میں، رسوا ہونے کی ہمیں کچھ عادت سی ہو گئی ہے۔"""
کچھ عادت سی ہو گئی ہے اس لئے جگ ہنسائی کا ذکر نہیں کرتا،ہوا کچھ یوں کہ عرصہ چھ سال بعد ہمیں بھی خیال آیا
کہ ایک عدد ٹیلی ویژن ہی کیوں نہ خرید لیں ، سوچا ورلڈ کپ ہی دیکھیں گے۔اپنے پاکستان کے کھلاڑیوں کو دیکھ کر
ورلڈ کپ دیکھنے کا حوصلہ ہی نہ رہا تو اب یوں ہی ادھر اُدھر کے چینل گھمانے لگ پڑتے ہیں۔"""
tokens = ur_tokenizer(text) tokens = ur_tokenizer(text)
assert len(tokens) == 78 assert len(tokens) == 14
@pytest.mark.parametrize("text,length", [("تحریر باسط حبیب", 3), ("میرا پاکستان", 2)]) @pytest.mark.parametrize("text,length", [("تحریر باسط حبیب", 3), ("میرا پاکستان", 2)])