spaCy/spacy/lang/pl/tokenizer_exceptions.py

# encoding: utf8
from __future__ import unicode_literals

from ..symbols import ORTH, LEMMA, POS


_exc = {}

for exc_data in [
    {ORTH: "m.in.", LEMMA: "między innymi", POS: ADV},
    {ORTH: "inż.", LEMMA: "inżynier", POS: NOUN},
    {ORTH: "mgr.", LEMMA: "magister", POS: NOUN},
    {ORTH: "tzn.", LEMMA: "to znaczy", POS: ADV},
    {ORTH: "tj.", LEMMA: "to jest", POS: ADV},
    {ORTH: "tzw.", LEMMA: "tak zwany", POS: ADJ}]:
    _exc[exc_data[ORTH]] = [dict(exc_data)],

for orth in [
    "w.", "r."]:
    _exc[orth] = [{ORTH: orth}]


TOKENIZER_EXCEPTIONS = _exc
a start 2017-06-26 21:40:04 +00:00			`# encoding: utf8`
			`from __future__ import unicode_literals`

			`from ..symbols import ORTH, LEMMA, POS`


			`_exc = {}`

			`for exc_data in [`
			`{ORTH: "m.in.", LEMMA: "między innymi", POS: ADV},`
			`{ORTH: "inż.", LEMMA: "inżynier", POS: NOUN},`
			`{ORTH: "mgr.", LEMMA: "magister", POS: NOUN},`
			`{ORTH: "tzn.", LEMMA: "to znaczy", POS: ADV},`
			`{ORTH: "tj.", LEMMA: "to jest", POS: ADV},`
			`{ORTH: "tzw.", LEMMA: "tak zwany", POS: ADJ}]:`
			`_exc[exc_data[ORTH]] = [dict(exc_data)],`

			`for orth in [`
			`"w.", "r."]:`
			`_exc[orth] = [{ORTH: orth}]`


Don't copy exception dicts if not necessary and tidy up 2017-10-31 20:05:29 +00:00			`TOKENIZER_EXCEPTIONS = _exc`