mirror of https://github.com/explosion/spaCy.git
271 lines
4.6 KiB
Python
271 lines
4.6 KiB
Python
# coding: utf8
|
|
from __future__ import unicode_literals
|
|
|
|
from ...symbols import ORTH
|
|
|
|
_exc = {}
|
|
|
|
for orth in [
|
|
"n-tosios",
|
|
"?!",
|
|
# "G.",
|
|
# "J. E.",
|
|
# "J. Em.",
|
|
# "J.E.",
|
|
# "J.Em.",
|
|
# "K.",
|
|
# "N.",
|
|
# "V.",
|
|
# "Vt.",
|
|
# "a.",
|
|
# "a.k.",
|
|
# "a.s.",
|
|
# "adv.",
|
|
# "akad.",
|
|
# "aklg.",
|
|
# "akt.",
|
|
# "al.",
|
|
# "ang.",
|
|
# "angl.",
|
|
# "aps.",
|
|
# "apskr.",
|
|
# "apyg.",
|
|
# "arbat.",
|
|
# "asist.",
|
|
# "asm.",
|
|
# "asm.k.",
|
|
# "asmv.",
|
|
# "atk.",
|
|
# "atsak.",
|
|
# "atsisk.",
|
|
# "atsisk.sąsk.",
|
|
# "atv.",
|
|
# "aut.",
|
|
# "avd.",
|
|
# "b.k.",
|
|
# "baud.",
|
|
# "biol.",
|
|
# "bkl.",
|
|
# "bot.",
|
|
# "bt.",
|
|
# "buv.",
|
|
# "ch.",
|
|
# "chem.",
|
|
# "corp.",
|
|
# "d.",
|
|
# "dab.",
|
|
# "dail.",
|
|
# "dek.",
|
|
# "deš.",
|
|
# "dir.",
|
|
# "dirig.",
|
|
# "doc.",
|
|
# "dol.",
|
|
# "dr.",
|
|
# "drp.",
|
|
# "dvit.",
|
|
# "dėst.",
|
|
# "dš.",
|
|
# "dž.",
|
|
# "e.b.",
|
|
# "e.bankas",
|
|
# "e.p.",
|
|
# "e.parašas",
|
|
# "e.paštas",
|
|
# "e.v.",
|
|
# "e.valdžia",
|
|
# "egz.",
|
|
# "eil.",
|
|
# "ekon.",
|
|
# "el.",
|
|
# "el.bankas",
|
|
# "el.p.",
|
|
# "el.parašas",
|
|
# "el.paštas",
|
|
# "el.valdžia",
|
|
# "etc.",
|
|
# "ež.",
|
|
# "fak.",
|
|
# "faks.",
|
|
# "feat.",
|
|
# "filol.",
|
|
# "filos.",
|
|
# "g.",
|
|
# "gen.",
|
|
# "geol.",
|
|
# "gerb.",
|
|
# "gim.",
|
|
# "gr.",
|
|
# "gv.",
|
|
# "gyd.",
|
|
# "gyv.",
|
|
# "habil.",
|
|
# "inc.",
|
|
# "insp.",
|
|
# "inž.",
|
|
# "ir pan.",
|
|
# "ir t. t.",
|
|
# "isp.",
|
|
# "istor.",
|
|
# "it.",
|
|
# "just.",
|
|
# "k.",
|
|
# "k. a.",
|
|
# "k.a.",
|
|
# "kab.",
|
|
# "kand.",
|
|
# "kart.",
|
|
# "kat.",
|
|
# "ketv.",
|
|
# "kh.",
|
|
# "kl.",
|
|
# "kln.",
|
|
# "km.",
|
|
# "kn.",
|
|
# "koresp.",
|
|
# "kpt.",
|
|
# "kr.",
|
|
# "kt.",
|
|
# "kub.",
|
|
# "kun.",
|
|
# "kv.",
|
|
# "kyš.",
|
|
# "l. e. p.",
|
|
# "l.e.p.",
|
|
# "lenk.",
|
|
# "liet.",
|
|
# "lot.",
|
|
# "lt.",
|
|
# "ltd.",
|
|
# "ltn.",
|
|
# "m.",
|
|
# "m.e..",
|
|
# "m.m.",
|
|
# "mat.",
|
|
# "med.",
|
|
# "mgnt.",
|
|
# "mgr.",
|
|
# "min.",
|
|
# "mjr.",
|
|
# "ml.",
|
|
# "mln.",
|
|
# "mlrd.",
|
|
# "mob.",
|
|
# "mok.",
|
|
# "moksl.",
|
|
# "mokyt.",
|
|
# "mot.",
|
|
# "mr.",
|
|
# "mst.",
|
|
# "mstl.",
|
|
# "mėn.",
|
|
# "nkt.",
|
|
# "no.",
|
|
# "nr.",
|
|
# "ntk.",
|
|
# "nuotr.",
|
|
# "op.",
|
|
# "org.",
|
|
# "orig.",
|
|
# "p.",
|
|
# "p.d.",
|
|
# "p.m.e.",
|
|
# "p.s.",
|
|
# "pab.",
|
|
# "pan.",
|
|
# "past.",
|
|
# "pav.",
|
|
# "pavad.",
|
|
# "per.",
|
|
# "perd.",
|
|
# "pirm.",
|
|
# "pl.",
|
|
# "plg.",
|
|
# "plk.",
|
|
# "pr.",
|
|
# "pr.Kr.",
|
|
# "pranc.",
|
|
# "proc.",
|
|
# "prof.",
|
|
# "prom.",
|
|
# "prot.",
|
|
# "psl.",
|
|
# "pss.",
|
|
# "pvz.",
|
|
# "pšt.",
|
|
# "r.",
|
|
# "raj.",
|
|
# "red.",
|
|
# "rez.",
|
|
# "rež.",
|
|
# "rus.",
|
|
# "rš.",
|
|
# "s.",
|
|
# "sav.",
|
|
# "saviv.",
|
|
# "sek.",
|
|
# "sekr.",
|
|
# "sen.",
|
|
# "sh.",
|
|
# "sk.",
|
|
# "skg.",
|
|
# "skv.",
|
|
# "skyr.",
|
|
# "sp.",
|
|
# "spec.",
|
|
# "sr.",
|
|
# "st.",
|
|
# "str.",
|
|
# "stud.",
|
|
# "sąs.",
|
|
# "t.",
|
|
# "t. p.",
|
|
# "t. y.",
|
|
# "t.p.",
|
|
# "t.t.",
|
|
# "t.y.",
|
|
# "techn.",
|
|
# "tel.",
|
|
# "teol.",
|
|
# "th.",
|
|
# "tir.",
|
|
# "trit.",
|
|
# "trln.",
|
|
# "tšk.",
|
|
# "tūks.",
|
|
# "tūkst.",
|
|
# "up.",
|
|
# "upl.",
|
|
# "v.s.",
|
|
# "vad.",
|
|
# "val.",
|
|
# "valg.",
|
|
# "ved.",
|
|
# "vert.",
|
|
# "vet.",
|
|
# "vid.",
|
|
# "virš.",
|
|
# "vlsč.",
|
|
# "vnt.",
|
|
# "vok.",
|
|
# "vs.",
|
|
# "vtv.",
|
|
# "vv.",
|
|
# "vyr.",
|
|
# "vyresn.",
|
|
# "zool.",
|
|
# "Įn",
|
|
# "įl.",
|
|
# "š.m.",
|
|
# "šnek.",
|
|
# "šv.",
|
|
# "švč.",
|
|
# "ž.ū.",
|
|
# "žin.",
|
|
# "žml.",
|
|
# "žr.",
|
|
]:
|
|
_exc[orth] = [{ORTH: orth}]
|
|
|
|
TOKENIZER_EXCEPTIONS = _exc
|