added missing punctuation following conventions. (#4066)

2019-08-04 16:41:18 +05:00 · 2019-08-04 16:41:18 +05:00 · d1d30b0442
parent 33b14724a5
commit d1d30b0442
4 changed files with 5 additions and 10 deletions
--- a/spacy/lang/char_classes.py
+++ b/spacy/lang/char_classes.py
@ -214,7 +214,7 @@ _currency = r"\$ £ € ¥ ฿ US\$ C\$ A\$ ₽ ﷼ ₴"
 # used in Chinese (see #1333, #1340, #1351) – unless there are cross-language
 # conflicts, spaCy's base tokenizer should handle all of those by default
 _punct = (
-    r"… …… , : ; \! \? ¿ ؟ ¡ \( \) \[ \] \{ \} < > _ # \* & 。 ？ ！ ， 、 ； ： ～ · । ، ؛ ٪"
+    r"… …… , : ; \! \? ¿ ؟ ¡ \( \) \[ \] \{ \} < > _ # \* & 。 ？ ！ ， 、 ； ： ～ · । ، ۔ ؛ ٪"
 )
 _quotes = r'\' " ” “ ` ‘ ´ ’ ‚ , „ » « 「 」 『 』 （ ） 〔 〕 【 】 《 》 〈 〉'
 _hyphens = "- – — -- --- —— ~"
--- a/spacy/lang/ur/init.py
+++ b/spacy/lang/ur/init.py
@ -21,6 +21,7 @@ class UrduDefaults(Language.Defaults):
    tag_map = TAG_MAP
    stop_words = STOP_WORDS
    suffixes = TOKENIZER_SUFFIXES
    writing_system = {"direction": "rtl", "has_case": False, "has_letters": True}
 class Urdu(Language):
--- a/spacy/lang/ur/punctuation.py
+++ b/spacy/lang/ur/punctuation.py
@ -4,7 +4,4 @@ from __future__ import unicode_literals
 from ..punctuation import TOKENIZER_SUFFIXES
-_suffixes = TOKENIZER_SUFFIXES + ["۔"]
+_suffixes = TOKENIZER_SUFFIXES
 TOKENIZER_SUFFIXES = _suffixes
--- a/spacy/tests/lang/ur/test_text.py
+++ b/spacy/tests/lang/ur/test_text.py
@ -5,12 +5,9 @@ import pytest
 def test_ur_tokenizer_handles_long_text(ur_tokenizer):
-    text = """اصل میں رسوا ہونے کی ہمیں
+    text = """اصل میں، رسوا ہونے کی ہمیں کچھ عادت سی ہو گئی ہے۔"""
     کچھ عادت سی ہو گئی ہے اس لئے جگ ہنسائی کا ذکر نہیں کرتا،ہوا کچھ یوں کہ عرصہ چھ سال بعد ہمیں بھی خیال آیا
     کہ ایک عدد ٹیلی ویژن ہی کیوں نہ خرید لیں ، سوچا ورلڈ کپ ہی دیکھیں گے۔اپنے پاکستان کے کھلاڑیوں کو دیکھ کر
    ورلڈ کپ دیکھنے کا حوصلہ ہی نہ رہا تو اب یوں ہی ادھر اُدھر کے چینل گھمانے لگ پڑتے ہیں۔"""
    tokens = ur_tokenizer(text)
-    assert len(tokens) == 78
+    assert len(tokens) == 14
@pytest.mark.parametrize("text,length", [("تحریر باسط حبیب", 3), ("میرا پاکستان", 2)])