Tidy up Bengali tokenizer exceptions

2017-05-08 22:29:49 +02:00 · 2017-05-08 22:29:49 +02:00 · 614aa09582
parent 73b577cb01
commit 614aa09582
1 changed files with 19 additions and 40 deletions
--- a/spacy/lang/bn/tokenizer_exceptions.py
+++ b/spacy/lang/bn/tokenizer_exceptions.py
@ -3,45 +3,24 @@ from __future__ import unicode_literals
 from ...symbols import ORTH, LEMMA
 TOKENIZER_EXCEPTIONS = {}
-ABBREVIATIONS = {
+_exc = {}
-    "ডঃ": [
+
 for exc_data in [
    {ORTH: "ডঃ", LEMMA: "ডক্টর"},
    ],
    "ডাঃ": [
    {ORTH: "ডাঃ", LEMMA: "ডাক্তার"},
    ],
    "ড.": [
    {ORTH: "ড.", LEMMA: "ডক্টর"},
    ],
    "ডা.": [
    {ORTH: "ডা.", LEMMA: "ডাক্তার"},
    ],
    "মোঃ": [
    {ORTH: "মোঃ", LEMMA: "মোহাম্মদ"},
    ],
    "মো.": [
    {ORTH: "মো.", LEMMA: "মোহাম্মদ"},
    ],
    "সে.": [
    {ORTH: "সে.", LEMMA: "সেলসিয়াস"},
    ],
    "কি.মি.": [
    {ORTH: "কি.মি.", LEMMA: "কিলোমিটার"},
    ],
    "কি.মি": [
    {ORTH: "কি.মি", LEMMA: "কিলোমিটার"},
    ],
    "সে.মি.": [
    {ORTH: "সে.মি.", LEMMA: "সেন্টিমিটার"},
    ],
    "সে.মি": [
    {ORTH: "সে.মি", LEMMA: "সেন্টিমিটার"},
-    ],
+    {ORTH: "মি.লি.", LEMMA: "মিলিলিটার"}]:
-    "মি.লি.": [
+    _exc[exc_data[ORTH]] = [dict(exc_data)]
        {ORTH: "মি.লি.", LEMMA: "মিলিলিটার"},
    ]
 }
-TOKENIZER_EXCEPTIONS.update(ABBREVIATIONS)
+
 TOKENIZER_EXCEPTIONS = dict(_exc)