spaCy/spacy/lang/lt/tokenizer_exceptions.py

# coding: utf8
from __future__ import unicode_literals

from ...symbols import ORTH

_exc = {}

for orth in [
    "n-tosios",
    "?!",
    #    "G.",
    #    "J. E.",
    #    "J. Em.",
    #    "J.E.",
    #    "J.Em.",
    #    "K.",
    #    "N.",
    #    "V.",
    #    "Vt.",
    #    "a.",
    #    "a.k.",
    #    "a.s.",
    #    "adv.",
    #    "akad.",
    #    "aklg.",
    #    "akt.",
    #    "al.",
    #    "ang.",
    #    "angl.",
    #    "aps.",
    #    "apskr.",
    #    "apyg.",
    #    "arbat.",
    #    "asist.",
    #    "asm.",
    #    "asm.k.",
    #    "asmv.",
    #    "atk.",
    #    "atsak.",
    #    "atsisk.",
    #    "atsisk.sąsk.",
    #    "atv.",
    #    "aut.",
    #    "avd.",
    #    "b.k.",
    #    "baud.",
    #    "biol.",
    #    "bkl.",
    #    "bot.",
    #    "bt.",
    #    "buv.",
    #    "ch.",
    #    "chem.",
    #    "corp.",
    #    "d.",
    #    "dab.",
    #    "dail.",
    #    "dek.",
    #    "deš.",
    #    "dir.",
    #    "dirig.",
    #    "doc.",
    #    "dol.",
    #    "dr.",
    #    "drp.",
    #    "dvit.",
    #    "dėst.",
    #    "dš.",
    #    "dž.",
    #    "e.b.",
    #    "e.bankas",
    #    "e.p.",
    #    "e.parašas",
    #    "e.paštas",
    #    "e.v.",
    #    "e.valdžia",
    #    "egz.",
    #    "eil.",
    #    "ekon.",
    #    "el.",
    #    "el.bankas",
    #    "el.p.",
    #    "el.parašas",
    #    "el.paštas",
    #    "el.valdžia",
    #    "etc.",
    #    "ež.",
    #    "fak.",
    #    "faks.",
    #    "feat.",
    #    "filol.",
    #    "filos.",
    #    "g.",
    #    "gen.",
    #    "geol.",
    #    "gerb.",
    #    "gim.",
    #    "gr.",
    #    "gv.",
    #    "gyd.",
    #    "gyv.",
    #    "habil.",
    #    "inc.",
    #    "insp.",
    #    "inž.",
    #    "ir pan.",
    #    "ir t. t.",
    #    "isp.",
    #    "istor.",
    #    "it.",
    #    "just.",
    #    "k.",
    #    "k. a.",
    #    "k.a.",
    #    "kab.",
    #    "kand.",
    #    "kart.",
    #    "kat.",
    #    "ketv.",
    #    "kh.",
    #    "kl.",
    #    "kln.",
    #    "km.",
    #    "kn.",
    #    "koresp.",
    #    "kpt.",
    #    "kr.",
    #    "kt.",
    #    "kub.",
    #    "kun.",
    #    "kv.",
    #    "kyš.",
    #    "l. e. p.",
    #    "l.e.p.",
    #    "lenk.",
    #    "liet.",
    #    "lot.",
    #    "lt.",
    #    "ltd.",
    #    "ltn.",
    #    "m.",
    #    "m.e..",
    #    "m.m.",
    #    "mat.",
    #    "med.",
    #    "mgnt.",
    #    "mgr.",
    #    "min.",
    #    "mjr.",
    #    "ml.",
    #    "mln.",
    #    "mlrd.",
    #    "mob.",
    #    "mok.",
    #    "moksl.",
    #    "mokyt.",
    #    "mot.",
    #    "mr.",
    #    "mst.",
    #    "mstl.",
    #    "mėn.",
    #    "nkt.",
    #    "no.",
    #    "nr.",
    #    "ntk.",
    #    "nuotr.",
    #    "op.",
    #    "org.",
    #    "orig.",
    #    "p.",
    #    "p.d.",
    #    "p.m.e.",
    #    "p.s.",
    #    "pab.",
    #    "pan.",
    #    "past.",
    #    "pav.",
    #    "pavad.",
    #    "per.",
    #    "perd.",
    #    "pirm.",
    #    "pl.",
    #    "plg.",
    #    "plk.",
    #    "pr.",
    #    "pr.Kr.",
    #    "pranc.",
    #    "proc.",
    #    "prof.",
    #    "prom.",
    #    "prot.",
    #    "psl.",
    #    "pss.",
    #    "pvz.",
    #    "pšt.",
    #    "r.",
    #    "raj.",
    #    "red.",
    #    "rez.",
    #    "rež.",
    #    "rus.",
    #    "rš.",
    #    "s.",
    #    "sav.",
    #    "saviv.",
    #    "sek.",
    #    "sekr.",
    #    "sen.",
    #    "sh.",
    #    "sk.",
    #    "skg.",
    #    "skv.",
    #    "skyr.",
    #    "sp.",
    #    "spec.",
    #    "sr.",
    #    "st.",
    #    "str.",
    #    "stud.",
    #    "sąs.",
    #    "t.",
    #    "t. p.",
    #    "t. y.",
    #    "t.p.",
    #    "t.t.",
    #    "t.y.",
    #    "techn.",
    #    "tel.",
    #    "teol.",
    #    "th.",
    #    "tir.",
    #    "trit.",
    #    "trln.",
    #    "tšk.",
    #    "tūks.",
    #    "tūkst.",
    #    "up.",
    #    "upl.",
    #    "v.s.",
    #    "vad.",
    #    "val.",
    #    "valg.",
    #    "ved.",
    #    "vert.",
    #    "vet.",
    #    "vid.",
    #    "virš.",
    #    "vlsč.",
    #    "vnt.",
    #    "vok.",
    #    "vs.",
    #    "vtv.",
    #    "vv.",
    #    "vyr.",
    #    "vyresn.",
    #    "zool.",
    #    "Įn",
    #    "įl.",
    #    "š.m.",
    #    "šnek.",
    #    "šv.",
    #    "švč.",
    #    "ž.ū.",
    #    "žin.",
    #    "žml.",
    #    "žr.",
]:
    _exc[orth] = [{ORTH: orth}]

TOKENIZER_EXCEPTIONS = _exc