spaCy/spacy/lang/bn/tokenizer_exceptions.py

# coding=utf-8
from __future__ import unicode_literals

from ...symbols import ORTH, LEMMA


_exc = {}


for exc_data in [
    {ORTH: "ডঃ", LEMMA: "ডক্টর"},
    {ORTH: "ডাঃ", LEMMA: "ডাক্তার"},
    {ORTH: "ড.", LEMMA: "ডক্টর"},
    {ORTH: "ডা.", LEMMA: "ডাক্তার"},
    {ORTH: "মোঃ", LEMMA: "মোহাম্মদ"},
    {ORTH: "মো.", LEMMA: "মোহাম্মদ"},
    {ORTH: "সে.", LEMMA: "সেলসিয়াস"},
    {ORTH: "কি.মি.", LEMMA: "কিলোমিটার"},
    {ORTH: "কি.মি", LEMMA: "কিলোমিটার"},
    {ORTH: "সে.মি.", LEMMA: "সেন্টিমিটার"},
    {ORTH: "সে.মি", LEMMA: "সেন্টিমিটার"},
    {ORTH: "মি.লি.", LEMMA: "মিলিলিটার"}]:
    _exc[exc_data[ORTH]] = [dict(exc_data)]


TOKENIZER_EXCEPTIONS = dict(_exc)
[Bengali] basic tag map, morph, lemma rules and exceptions 2017-03-04 06:20:08 +00:00			`# coding=utf-8`
			`from __future__ import unicode_literals`

Fix relative imports 2017-05-08 20:29:04 +00:00			`from ...symbols import ORTH, LEMMA`
[Bengali] basic tag map, morph, lemma rules and exceptions 2017-03-04 06:20:08 +00:00

Tidy up Bengali tokenizer exceptions 2017-05-08 20:29:49 +00:00			`_exc = {}`
[Bengali] basic tag map, morph, lemma rules and exceptions 2017-03-04 06:20:08 +00:00
Tidy up Bengali tokenizer exceptions 2017-05-08 20:29:49 +00:00
			`for exc_data in [`
			`{ORTH: "ডঃ", LEMMA: "ডক্টর"},`
			`{ORTH: "ডাঃ", LEMMA: "ডাক্তার"},`
			`{ORTH: "ড.", LEMMA: "ডক্টর"},`
			`{ORTH: "ডা.", LEMMA: "ডাক্তার"},`
			`{ORTH: "মোঃ", LEMMA: "মোহাম্মদ"},`
			`{ORTH: "মো.", LEMMA: "মোহাম্মদ"},`
			`{ORTH: "সে.", LEMMA: "সেলসিয়াস"},`
			`{ORTH: "কি.মি.", LEMMA: "কিলোমিটার"},`
			`{ORTH: "কি.মি", LEMMA: "কিলোমিটার"},`
			`{ORTH: "সে.মি.", LEMMA: "সেন্টিমিটার"},`
			`{ORTH: "সে.মি", LEMMA: "সেন্টিমিটার"},`
			`{ORTH: "মি.লি.", LEMMA: "মিলিলিটার"}]:`
			`_exc[exc_data[ORTH]] = [dict(exc_data)]`


			`TOKENIZER_EXCEPTIONS = dict(_exc)`