spaCy/spacy/lang/uk/lex_attrs.py

# coding: utf8
from __future__ import unicode_literals

from ...attrs import LIKE_NUM

_num_words = [
    "більйон",
    "вісім",
    "вісімдесят",
    "вісімнадцять",
    "вісімсот",
    "восьмий",
    "два",
    "двадцять",
    "дванадцять",
    "двісті",
    "дев'яносто",
    "дев'ятнадцять",
    "дев'ятсот",
    "дев'ять",
    "десять",
    "децильйон",
    "квадрильйон",
    "квінтильйон",
    "мільйон",
    "мільярд",
    "нонильйон",
    "один",
    "одинадцять",
    "октильйон",
    "п'ятий",
    "п'ятисотий",
    "п'ятнадцять",
    "п'ятсот",
    "п'ять",
    "секстильйон",
    "септильйон",
    "сім",
    "сімдесят",
    "сімнадцять",
    "сімсот",
    "сорок",
    "сто",
    "тисяча",
    "три",
    "тридцять",
    "трильйон",
    "тринадцять",
    "триста",
    "чотири",
    "чотириста",
    "чотирнадцять",
    "шістдесят",
    "шістнадцять",
    "шістсот",
    "шість",
]


def like_num(text):
    text = text.replace(",", "").replace(".", "")
    if text.isdigit():
        return True
    if text.count("/") == 1:
        num, denom = text.split("/")
        if num.isdigit() and denom.isdigit():
            return True
    if text in _num_words:
        return True
    return False


LEX_ATTRS = {LIKE_NUM: like_num}
Ukrainian language added. Small fixes in Russian (#3241) * Classes for Ukrainian; small fix in Russian. * Contributor agreement 2019-02-07 20:05:11 +00:00			`# coding: utf8`
			`from __future__ import unicode_literals`

			`from ...attrs import LIKE_NUM`

Tidy up and fix small bugs and typos 2019-02-08 13:14:49 +00:00			`_num_words = [`
			`"більйон",`
			`"вісім",`
			`"вісімдесят",`
			`"вісімнадцять",`
			`"вісімсот",`
			`"восьмий",`
			`"два",`
			`"двадцять",`
			`"дванадцять",`
			`"двісті",`
			`"дев'яносто",`
			`"дев'ятнадцять",`
			`"дев'ятсот",`
			`"дев'ять",`
			`"десять",`
			`"децильйон",`
			`"квадрильйон",`
			`"квінтильйон",`
			`"мільйон",`
			`"мільярд",`
			`"нонильйон",`
			`"один",`
			`"одинадцять",`
			`"октильйон",`
			`"п'ятий",`
			`"п'ятисотий",`
			`"п'ятнадцять",`
			`"п'ятсот",`
			`"п'ять",`
			`"секстильйон",`
			`"септильйон",`
			`"сім",`
			`"сімдесят",`
			`"сімнадцять",`
			`"сімсот",`
			`"сорок",`
			`"сто",`
			`"тисяча",`
			`"три",`
			`"тридцять",`
			`"трильйон",`
			`"тринадцять",`
			`"триста",`
			`"чотири",`
			`"чотириста",`
			`"чотирнадцять",`
			`"шістдесят",`
			`"шістнадцять",`
			`"шістсот",`
			`"шість",`
			`]`
Ukrainian language added. Small fixes in Russian (#3241) * Classes for Ukrainian; small fix in Russian. * Contributor agreement 2019-02-07 20:05:11 +00:00

			`def like_num(text):`
Tidy up and fix small bugs and typos 2019-02-08 13:14:49 +00:00			`text = text.replace(",", "").replace(".", "")`
Ukrainian language added. Small fixes in Russian (#3241) * Classes for Ukrainian; small fix in Russian. * Contributor agreement 2019-02-07 20:05:11 +00:00			`if text.isdigit():`
			`return True`
Tidy up and fix small bugs and typos 2019-02-08 13:14:49 +00:00			`if text.count("/") == 1:`
			`num, denom = text.split("/")`
Ukrainian language added. Small fixes in Russian (#3241) * Classes for Ukrainian; small fix in Russian. * Contributor agreement 2019-02-07 20:05:11 +00:00			`if num.isdigit() and denom.isdigit():`
			`return True`
			`if text in _num_words:`
			`return True`
			`return False`


Tidy up and fix small bugs and typos 2019-02-08 13:14:49 +00:00			`LEX_ATTRS = {LIKE_NUM: like_num}`