Implement like_num getter for French (via #1161)

2017-09-26 16:47:45 +02:00 · 2017-09-26 16:47:45 +02:00 · bb5c631402
parent 15479b3bae
commit bb5c631402
2 changed files with 43 additions and 0 deletions
--- a/spacy/lang/fr/init.py
+++ b/spacy/lang/fr/init.py
@ -4,6 +4,7 @@ from __future__ import unicode_literals
 from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS, TOKEN_MATCH
 from .punctuation import TOKENIZER_SUFFIXES, TOKENIZER_INFIXES
 from .stop_words import STOP_WORDS
 from .lex_attrs import LEX_ATTRS
 from .lemmatizer import LOOKUP
 from .syntax_iterators import SYNTAX_ITERATORS
@ -17,6 +18,7 @@ from ...util import update_exc, add_lookups
 class FrenchDefaults(Language.Defaults):
    lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
    lex_attr_getters.update(LEX_ATTRS)
    lex_attr_getters[LANG] = lambda text: 'fr'
    lex_attr_getters[NORM] = add_lookups(Language.Defaults.lex_attr_getters[NORM], BASE_NORMS)
--- a/spacy/lang/fr/lex_attrs.py
+++ b/spacy/lang/fr/lex_attrs.py
@ -0,0 +1,41 @@
 # coding: utf8
 from __future__ import unicode_literals
 from ...attrs import LIKE_NUM
 _num_words = set("""
 zero un deux trois quatre cinq six sept huit neuf dix
 onze douze treize quatorze quinze seize dix-sept dix-huit dix-neuf
 vingt trente quanrante cinquante soixante septante quatre-vingt huitante nonante
 cent mille mil million milliard billion quadrillion quintillion
 sextillion septillion octillion nonillion decillion
 """.split())
 _ordinal_words = set("""
 premier deuxième second troisième quatrième cinquième sixième septième huitième neuvième dixième
 onzième douzième treizième quatorzième quinzième seizième dix-septième dix-huitième dix-neufième
 vingtième trentième quanrantième cinquantième soixantième septantième quatre-vingtième huitantième nonantième
 centième millième millionnième milliardième billionnième quadrillionnième quintillionnième
 sextillionnième septillionnième octillionnième nonillionnième decillionnième
 """.split())
 def like_num(text):
    # Might require more work?
    # See this discussion: https://github.com/explosion/spaCy/pull/1161
    text = text.replace(',', '').replace('.', '')
    if text.isdigit():
        return True
    if text.count('/') == 1:
        num, denom = text.split('/')
        if num.isdigit() and denom.isdigit():
            return True
    if text in _num_words:
        return True
    return False
 LEX_ATTRS = {
    LIKE_NUM: like_num
 }