spaCy/spacy/lang/sv/lemmatizer/__init__.py

113 lines
2.3 KiB
Python
Raw Normal View History

2017-03-12 12:07:28 +00:00
# coding: utf8
2017-02-04 16:53:32 +00:00
from __future__ import unicode_literals
2017-05-08 13:54:29 +00:00
from .lookup import LOOKUP
2017-02-04 16:53:32 +00:00
LEMMA_RULES = {
"noun": [
["t", ""],
["n", ""],
["na", ""],
["na", "e"],
["or", "a"],
["orna", "a"],
["et", ""],
["en", ""],
["en", "e"],
["er", ""],
["erna", ""],
["ar", "e"],
["ar", ""],
["lar", "el"],
["arna", "e"],
["arna", ""],
["larna", "el"]
],
2017-02-17 09:04:04 +00:00
"verb": [
["r", ""],
["de", ""],
["t", ""],
["er", ""],
["te", ""],
["a", ""],
["e", ""],
["t", "d"],
["tt", "d"],
["tt", ""],
["ev", "iv"],
["ack", "ick"],
["ög", "yg"],
["it", ""],
["uckit", "ick"],
["ugit", "yg"],
["it", "et"],
["id", "ed"],
["ip", "ep"],
["iv", "ev"],
["in", "en"],
["ik", "ek"],
["ig", "eg"],
["ind", ""],
["inn", "ann"],
["nder", "nd"],
["inner", "inn"],
["and", "ind"],
["ann", "inn"],
["s", ""],
["anns", "inn"],
["undit", "ind"],
["unnit", "inn"],
["unnits", "inn"],
["uppit", "ipp"],
["ungit", "ing"],
["öd", "ud"],
["öt", "jut"],
["öt", "ut"],
["ög", "ug"],
["ögg", "ugg"],
["öng", "ung"],
["önk", "unk"],
["öt", "yt"],
["utit", "yt"],
["ös", "ys"],
["öv", "yv"],
["uvit", "yv"],
["öp", "yp"],
["upit", "yp"],
["ök", "yk"],
["ukit", "yk"],
["or", "ar"],
["öll", "all"],
["ät", "åt"],
["öll", "åll"],
["or", "är"],
["urit", "är"],
["åt", "ät"],
["ar", "är"],
["alt", "ält"],
["ultit", "ält"]
],
2017-02-04 16:53:32 +00:00
"adj": [
["are", ""],
["ast", ""],
["re", ""],
["st", ""],
["ägre", "åg"],
["ägst", "åg"],
["ängre", "ång"],
["ängst", "ång"],
["örre", "or"],
2017-02-17 09:04:04 +00:00
["örst", "or"]
2017-02-04 16:53:32 +00:00
],
"punct": [
["", "\""],
["", "\""],
["\u2018", "'"],
["\u2019", "'"]
]
}