added missing punctuation following conventions. (#4066)

This commit is contained in:
Muhammad Irfan 2019-08-04 16:41:18 +05:00 committed by Ines Montani
parent 33b14724a5
commit d1d30b0442
4 changed files with 5 additions and 10 deletions

View File

@ -214,7 +214,7 @@ _currency = r"\$ £ € ¥ ฿ US\$ C\$ A\$ ₽ ﷼ ₴"
# used in Chinese (see #1333, #1340, #1351) unless there are cross-language
# conflicts, spaCy's base tokenizer should handle all of those by default
_punct = (
r"… …… , : ; \! \? ¿ ؟ ¡ \( \) \[ \] \{ \} < > _ # \* & 。 · । ، ؛ ٪"
r"… …… , : ; \! \? ¿ ؟ ¡ \( \) \[ \] \{ \} < > _ # \* & 。 · । ، ۔ ؛ ٪"
)
_quotes = r'\' " ” “ ` ´ , „ » « 「 」 『 』 【 】 《 》 〈 〉'
_hyphens = "- — -- --- —— ~"

View File

@ -21,6 +21,7 @@ class UrduDefaults(Language.Defaults):
tag_map = TAG_MAP
stop_words = STOP_WORDS
suffixes = TOKENIZER_SUFFIXES
writing_system = {"direction": "rtl", "has_case": False, "has_letters": True}
class Urdu(Language):

View File

@ -4,7 +4,4 @@ from __future__ import unicode_literals
from ..punctuation import TOKENIZER_SUFFIXES
_suffixes = TOKENIZER_SUFFIXES + ["۔"]
TOKENIZER_SUFFIXES = _suffixes
_suffixes = TOKENIZER_SUFFIXES

View File

@ -5,12 +5,9 @@ import pytest
def test_ur_tokenizer_handles_long_text(ur_tokenizer):
text = """اصل میں رسوا ہونے کی ہمیں
کچھ عادت سی ہو گئی ہے اس لئے جگ ہنسائی کا ذکر نہیں کرتا،ہوا کچھ یوں کہ عرصہ چھ سال بعد ہمیں بھی خیال آیا
کہ ایک عدد ٹیلی ویژن ہی کیوں نہ خرید لیں ، سوچا ورلڈ کپ ہی دیکھیں گے۔اپنے پاکستان کے کھلاڑیوں کو دیکھ کر
ورلڈ کپ دیکھنے کا حوصلہ ہی نہ رہا تو اب یوں ہی ادھر اُدھر کے چینل گھمانے لگ پڑتے ہیں۔"""
text = """اصل میں، رسوا ہونے کی ہمیں کچھ عادت سی ہو گئی ہے۔"""
tokens = ur_tokenizer(text)
assert len(tokens) == 78
assert len(tokens) == 14
@pytest.mark.parametrize("text,length", [("تحریر باسط حبیب", 3), ("میرا پاکستان", 2)])