mirror of https://github.com/explosion/spaCy.git
109 lines
2.3 KiB
Python
109 lines
2.3 KiB
Python
# coding: utf8
|
|
from __future__ import unicode_literals
|
|
|
|
from pathlib import Path
|
|
|
|
from ....util import load_language_data
|
|
|
|
lemma_path = Path(__file__).parent / "lookup.json"
|
|
LOOKUP = load_language_data(lemma_path)
|
|
|
|
LEMMA_RULES = {
|
|
"noun": [
|
|
["t", ""],
|
|
["n", ""],
|
|
["na", ""],
|
|
["na", "e"],
|
|
["or", "a"],
|
|
["orna", "a"],
|
|
["et", ""],
|
|
["en", ""],
|
|
["en", "e"],
|
|
["er", ""],
|
|
["erna", ""],
|
|
["ar", "e"],
|
|
["ar", ""],
|
|
["lar", "el"],
|
|
["arna", "e"],
|
|
["arna", ""],
|
|
["larna", "el"],
|
|
],
|
|
"verb": [
|
|
["r", ""],
|
|
["de", ""],
|
|
["t", ""],
|
|
["er", ""],
|
|
["te", ""],
|
|
["a", ""],
|
|
["e", ""],
|
|
["t", "d"],
|
|
["tt", "d"],
|
|
["tt", ""],
|
|
["ev", "iv"],
|
|
["ack", "ick"],
|
|
["ög", "yg"],
|
|
["it", ""],
|
|
["uckit", "ick"],
|
|
["ugit", "yg"],
|
|
["it", "et"],
|
|
["id", "ed"],
|
|
["ip", "ep"],
|
|
["iv", "ev"],
|
|
["in", "en"],
|
|
["ik", "ek"],
|
|
["ig", "eg"],
|
|
["ind", ""],
|
|
["inn", "ann"],
|
|
["nder", "nd"],
|
|
["inner", "inn"],
|
|
["and", "ind"],
|
|
["ann", "inn"],
|
|
["s", ""],
|
|
["anns", "inn"],
|
|
["undit", "ind"],
|
|
["unnit", "inn"],
|
|
["unnits", "inn"],
|
|
["uppit", "ipp"],
|
|
["ungit", "ing"],
|
|
["öd", "ud"],
|
|
["öt", "jut"],
|
|
["öt", "ut"],
|
|
["ög", "ug"],
|
|
["ögg", "ugg"],
|
|
["öng", "ung"],
|
|
["önk", "unk"],
|
|
["öt", "yt"],
|
|
["utit", "yt"],
|
|
["ös", "ys"],
|
|
["öv", "yv"],
|
|
["uvit", "yv"],
|
|
["öp", "yp"],
|
|
["upit", "yp"],
|
|
["ök", "yk"],
|
|
["ukit", "yk"],
|
|
["or", "ar"],
|
|
["öll", "all"],
|
|
["ät", "åt"],
|
|
["öll", "åll"],
|
|
["or", "är"],
|
|
["urit", "är"],
|
|
["åt", "ät"],
|
|
["ar", "är"],
|
|
["alt", "ält"],
|
|
["ultit", "ält"],
|
|
],
|
|
"adj": [
|
|
["are", ""],
|
|
["ast", ""],
|
|
["re", ""],
|
|
["st", ""],
|
|
["ägre", "åg"],
|
|
["ägst", "åg"],
|
|
["ängre", "ång"],
|
|
["ängst", "ång"],
|
|
["örre", "or"],
|
|
["örst", "or"],
|
|
],
|
|
"punct": [["“", '"'], ["”", '"'], ["\u2018", "'"], ["\u2019", "'"]],
|
|
}
|