added missing punctuation following conventions. (#4066)

2019-08-04 16:41:18 +05:00 · 2019-08-04 16:41:18 +05:00 · d1d30b0442
parent 33b14724a5
commit d1d30b0442
4 changed files with 5 additions and 10 deletions
--- a/spacy/lang/char_classes.py
+++ b/spacy/lang/char_classes.py
@ -214,7 +214,7 @@ _currency = r"\$ £ € ¥ ฿ US\$ C\$ A\$ ₽ ﷼ ₴"
 # used in Chinese (see #1333, #1340, #1351) – unless there are cross-language
 # conflicts, spaCy's base tokenizer should handle all of those by default
 _punct = (
-    r"… …… , : ; \! \? ¿ ؟ ¡ \( \) \[ \] \{ \} < > _ # \* & 。 ？ ！ ， 、 ； ： ～ · । ، ؛ ٪"
+    r"… …… , : ; \! \? ¿ ؟ ¡ \( \) \[ \] \{ \} < > _ # \* & 。 ？ ！ ， 、 ； ： ～ · । ، ۔ ؛ ٪"
 )
 _quotes = r'\' " ” “ ` ‘ ´ ’ ‚ , „ » « 「 」 『 』 （ ） 〔 〕 【 】 《 》 〈 〉'
 _hyphens = "- – — -- --- —— ~"
--- a/spacy/lang/ur/init.py
+++ b/spacy/lang/ur/init.py
@ -21,6 +21,7 @@ class UrduDefaults(Language.Defaults):
    tag_map = TAG_MAP
    stop_words = STOP_WORDS
    suffixes = TOKENIZER_SUFFIXES
+    writing_system = {"direction": "rtl", "has_case": False, "has_letters": True}


 class Urdu(Language):
--- a/spacy/lang/ur/punctuation.py
+++ b/spacy/lang/ur/punctuation.py
@ -4,7 +4,4 @@ from __future__ import unicode_literals
 from ..punctuation import TOKENIZER_SUFFIXES


-_suffixes = TOKENIZER_SUFFIXES + ["۔"]
-
-
-TOKENIZER_SUFFIXES = _suffixes
+_suffixes = TOKENIZER_SUFFIXES
--- a/spacy/tests/lang/ur/test_text.py
+++ b/spacy/tests/lang/ur/test_text.py
@ -5,12 +5,9 @@ import pytest


 def test_ur_tokenizer_handles_long_text(ur_tokenizer):
-    text = """اصل میں رسوا ہونے کی ہمیں
-     کچھ عادت سی ہو گئی ہے اس لئے جگ ہنسائی کا ذکر نہیں کرتا،ہوا کچھ یوں کہ عرصہ چھ سال بعد ہمیں بھی خیال آیا
-     کہ ایک عدد ٹیلی ویژن ہی کیوں نہ خرید لیں ، سوچا ورلڈ کپ ہی دیکھیں گے۔اپنے پاکستان کے کھلاڑیوں کو دیکھ کر
-    ورلڈ کپ دیکھنے کا حوصلہ ہی نہ رہا تو اب یوں ہی ادھر اُدھر کے چینل گھمانے لگ پڑتے ہیں۔"""
+    text = """اصل میں، رسوا ہونے کی ہمیں کچھ عادت سی ہو گئی ہے۔"""
    tokens = ur_tokenizer(text)
-    assert len(tokens) == 78
+    assert len(tokens) == 14


@pytest.mark.parametrize("text,length", [("تحریر باسط حبیب", 3), ("میرا پاکستان", 2)])