spaCy/spacy/lang/fr/lemmatizer/_auxiliary_verbs_irreg.py

# coding: utf8
from __future__ import unicode_literals


AUXILIARY_VERBS_IRREG = {
    "suis": ("être",),
    "es": ("être",),
    "est": ("être",),
    "sommes": ("être",),
    "êtes": ("être",),
    "sont": ("être",),
    "étais": ("être",),
    "étais": ("être",),
    "était": ("être",),
    "étions": ("être",),
    "étiez": ("être",),
    "étaient": ("être",),
    "fus": ("être",),
    "fut": ("être",),
    "fûmes": ("être",),
    "fûtes": ("être",),
    "furent": ("être",),
    "serai": ("être",),
    "seras": ("être",),
    "sera": ("être",),
    "serons": ("être",),
    "serez": ("être",),
    "seront": ("être",),
    "serais": ("être",),
    "serait": ("être",),
    "serions": ("être",),
    "seriez": ("être",),
    "seraient": ("être",),
    "sois": ("être",),
    "soit": ("être",),
    "soyons": ("être",),
    "soyez": ("être",),
    "soient": ("être",),
    "fusse": ("être",),
    "fusses": ("être",),
    "fût": ("être",),
    "fussions": ("être",),
    "fussiez": ("être",),
    "fussent": ("être",),
    "étant": ("être",),
    "ai": ("avoir",),
    "as": ("avoir",),
    "a": ("avoir",),
    "avons": ("avoir",),
    "avez": ("avoir",),
    "ont": ("avoir",),
    "avais": ("avoir",),
    "avait": ("avoir",),
    "avions": ("avoir",),
    "aviez": ("avoir",),
    "avaient": ("avoir",),
    "eus": ("avoir",),
    "eut": ("avoir",),
    "eûmes": ("avoir",),
    "eûtes": ("avoir",),
    "eurent": ("avoir",),
    "aurai": ("avoir",),
    "auras": ("avoir",),
    "aura": ("avoir",),
    "aurons": ("avoir",),
    "aurez": ("avoir",),
    "auront": ("avoir",),
    "aurais": ("avoir",),
    "aurait": ("avoir",),
    "aurions": ("avoir",),
    "auriez": ("avoir",),
    "auraient": ("avoir",),
    "aie": ("avoir",),
    "aies": ("avoir",),
    "ait": ("avoir",),
    "ayons": ("avoir",),
    "ayez": ("avoir",),
    "aient": ("avoir",),
    "eusse": ("avoir",),
    "eusses": ("avoir",),
    "eût": ("avoir",),
    "eussions": ("avoir",),
    "eussiez": ("avoir",),
    "eussent": ("avoir",),
    "ayant": ("avoir",)
}
Rule-based French Lemmatizer (#2818) <!--- Provide a general summary of your changes in the title. --> ## Description <!--- Use this section to describe your changes. If your changes required testing, include information about the testing environment and the tests you ran. If your test fixes a bug reported in an issue, don't forget to include the issue number. If your PR is still a work in progress, that's totally fine – just include a note to let us know. --> Add a rule-based French Lemmatizer following the english one and the excellent PR for [greek language optimizations](https://github.com/explosion/spaCy/pull/2558) to adapt the Lemmatizer class. ### Types of change <!-- What type of change does your PR cover? Is it a bug fix, an enhancement or new feature, or a change to the documentation? --> - Lemma dictionary used can be found [here](http://infolingu.univ-mlv.fr/DonneesLinguistiques/Dictionnaires/telechargement.html), I used the XML version. - Add several files containing exhaustive list of words for each part of speech - Add some lemma rules - Add POS that are not checked in the standard Lemmatizer, i.e PRON, DET, ADV and AUX - Modify the Lemmatizer class to check in lookup table as a last resort if POS not mentionned - Modify the lemmatize function to check in lookup table as a last resort - Init files are updated so the model can support all the functionalities mentioned above - Add words to tokenizer_exceptions_list.py in respect to regex used in tokenizer_exceptions.py ## Checklist <!--- Before you submit the PR, go over this checklist and make sure you can tick off all the boxes. [] -> [x] --> - [X] I have submitted the spaCy Contributor Agreement. - [X] I ran the tests, and all new and existing tests passed. - [X] My changes don't require a change to the documentation, or if they do, I've added all required information. 2018-10-13 14:38:21 +00:00			`# coding: utf8`
			`from __future__ import unicode_literals`


			`AUXILIARY_VERBS_IRREG = {`
			`"suis": ("être",),`
			`"es": ("être",),`
			`"est": ("être",),`
			`"sommes": ("être",),`
			`"êtes": ("être",),`
			`"sont": ("être",),`
			`"étais": ("être",),`
			`"étais": ("être",),`
			`"était": ("être",),`
			`"étions": ("être",),`
			`"étiez": ("être",),`
			`"étaient": ("être",),`
			`"fus": ("être",),`
			`"fut": ("être",),`
			`"fûmes": ("être",),`
			`"fûtes": ("être",),`
			`"furent": ("être",),`
			`"serai": ("être",),`
			`"seras": ("être",),`
			`"sera": ("être",),`
			`"serons": ("être",),`
			`"serez": ("être",),`
			`"seront": ("être",),`
			`"serais": ("être",),`
			`"serait": ("être",),`
			`"serions": ("être",),`
			`"seriez": ("être",),`
			`"seraient": ("être",),`
			`"sois": ("être",),`
			`"soit": ("être",),`
			`"soyons": ("être",),`
			`"soyez": ("être",),`
			`"soient": ("être",),`
			`"fusse": ("être",),`
			`"fusses": ("être",),`
			`"fût": ("être",),`
			`"fussions": ("être",),`
			`"fussiez": ("être",),`
			`"fussent": ("être",),`
			`"étant": ("être",),`
			`"ai": ("avoir",),`
			`"as": ("avoir",),`
			`"a": ("avoir",),`
			`"avons": ("avoir",),`
			`"avez": ("avoir",),`
			`"ont": ("avoir",),`
			`"avais": ("avoir",),`
			`"avait": ("avoir",),`
			`"avions": ("avoir",),`
			`"aviez": ("avoir",),`
			`"avaient": ("avoir",),`
			`"eus": ("avoir",),`
			`"eut": ("avoir",),`
			`"eûmes": ("avoir",),`
			`"eûtes": ("avoir",),`
			`"eurent": ("avoir",),`
			`"aurai": ("avoir",),`
			`"auras": ("avoir",),`
			`"aura": ("avoir",),`
			`"aurons": ("avoir",),`
			`"aurez": ("avoir",),`
			`"auront": ("avoir",),`
			`"aurais": ("avoir",),`
			`"aurait": ("avoir",),`
			`"aurions": ("avoir",),`
			`"auriez": ("avoir",),`
			`"auraient": ("avoir",),`
			`"aie": ("avoir",),`
			`"aies": ("avoir",),`
			`"ait": ("avoir",),`
			`"ayons": ("avoir",),`
			`"ayez": ("avoir",),`
			`"aient": ("avoir",),`
			`"eusse": ("avoir",),`
			`"eusses": ("avoir",),`
			`"eût": ("avoir",),`
			`"eussions": ("avoir",),`
			`"eussiez": ("avoir",),`
			`"eussent": ("avoir",),`
			`"ayant": ("avoir",)`
			`}`