spaCy/spacy/lang/sv/lemmatizer/__init__.py

# coding: utf8
from __future__ import unicode_literals

from pathlib import Path

from ....util import load_language_data

lemma_path = Path(__file__).parent / "lookup.json"
LOOKUP = load_language_data(lemma_path)

LEMMA_RULES = {
    "noun": [
        ["t", ""],
        ["n", ""],
        ["na", ""],
        ["na", "e"],
        ["or", "a"],
        ["orna", "a"],
        ["et", ""],
        ["en", ""],
        ["en", "e"],
        ["er", ""],
        ["erna", ""],
        ["ar", "e"],
        ["ar", ""],
        ["lar", "el"],
        ["arna", "e"],
        ["arna", ""],
        ["larna", "el"],
    ],
    "verb": [
        ["r", ""],
        ["de", ""],
        ["t", ""],
        ["er", ""],
        ["te", ""],
        ["a", ""],
        ["e", ""],
        ["t", "d"],
        ["tt", "d"],
        ["tt", ""],
        ["ev", "iv"],
        ["ack", "ick"],
        ["ög", "yg"],
        ["it", ""],
        ["uckit", "ick"],
        ["ugit", "yg"],
        ["it", "et"],
        ["id", "ed"],
        ["ip", "ep"],
        ["iv", "ev"],
        ["in", "en"],
        ["ik", "ek"],
        ["ig", "eg"],
        ["ind", ""],
        ["inn", "ann"],
        ["nder", "nd"],
        ["inner", "inn"],
        ["and", "ind"],
        ["ann", "inn"],
        ["s", ""],
        ["anns", "inn"],
        ["undit", "ind"],
        ["unnit", "inn"],
        ["unnits", "inn"],
        ["uppit", "ipp"],
        ["ungit", "ing"],
        ["öd", "ud"],
        ["öt", "jut"],
        ["öt", "ut"],
        ["ög", "ug"],
        ["ögg", "ugg"],
        ["öng", "ung"],
        ["önk", "unk"],
        ["öt", "yt"],
        ["utit", "yt"],
        ["ös", "ys"],
        ["öv", "yv"],
        ["uvit", "yv"],
        ["öp", "yp"],
        ["upit", "yp"],
        ["ök", "yk"],
        ["ukit", "yk"],
        ["or", "ar"],
        ["öll", "all"],
        ["ät", "åt"],
        ["öll", "åll"],
        ["or", "är"],
        ["urit", "är"],
        ["åt", "ät"],
        ["ar", "är"],
        ["alt", "ält"],
        ["ultit", "ält"],
    ],
    "adj": [
        ["are", ""],
        ["ast", ""],
        ["re", ""],
        ["st", ""],
        ["ägre", "åg"],
        ["ägst", "åg"],
        ["ängre", "ång"],
        ["ängst", "ång"],
        ["örre", "or"],
        ["örst", "or"],
    ],
    "punct": [["“", '"'], ["”", '"'], ["\u2018", "'"], ["\u2019", "'"]],
}