spaCy/spacy/morphology.pyx

from os import path
from .lemmatizer import Lemmatizer

try:
    import ujson as json
except ImportError:
    import json

from .parts_of_speech import UNIV_POS_NAMES
from .parts_of_speech cimport ADJ, VERB, NOUN


cdef class Morphology:
    def __init__(self, StringStore string_store, tag_map, lemmatizer):
        self.mem = Pool()
        self.strings = string_store
        self.lemmatizer = lemmatizer
        self.n_tags = len(tag_map) + 1
        self.tag_names = tuple(sorted(tag_map.keys()))
        self.reverse_index = {}
        
        self.rich_tags = <RichTagC*>self.mem.alloc(self.n_tags, sizeof(RichTagC))
        for i, (tag_str, props) in enumerate(sorted(tag_map.items())):
            self.rich_tags[i].id = i
            self.rich_tags[i].name = self.strings[tag_str]
            self.rich_tags[i].morph = 0
            self.reverse_index[self.rich_tags[i].name] = i
        self._cache = PreshMapArray(self.n_tags)

    cdef int assign_tag(self, TokenC* token, tag) except -1:
        cdef int tag_id
        if isinstance(tag, basestring):
            try:
                tag_id = self.reverse_index[self.strings[tag]]
            except KeyError:
                print tag
                raise
        else:
            tag_id = tag
        analysis = <MorphAnalysisC*>self._cache.get(tag_id, token.lex.orth)
        if analysis is NULL:
            analysis = <MorphAnalysisC*>self.mem.alloc(1, sizeof(MorphAnalysisC))
            analysis.tag = self.rich_tags[tag_id]
            analysis.lemma = self.lemmatize(analysis.tag.pos, token.lex.orth)
        token.lemma = analysis.lemma
        token.pos = analysis.tag.pos
        token.tag = analysis.tag.name
        token.morph = analysis.tag.morph

    cdef int assign_feature(self, uint64_t* morph, feature, value) except -1:
        pass

    def load_morph_exceptions(self, dict exc):
        # Map (form, pos) to (lemma, rich tag)
        cdef unicode pos_str
        cdef unicode form_str
        cdef unicode lemma_str
        cdef dict entries
        cdef dict props
        cdef int lemma
        cdef attr_t orth
        cdef int pos
        for tag_str, entries in exc.items():
            tag = self.strings[tag_str]
            rich_tag = self.rich_tags[self.reverse_index[tag]]
            for form_str, props in entries.items():
                cached = <MorphAnalysisC*>self.mem.alloc(1, sizeof(MorphAnalysisC))
                orth = self.strings[form_str]
                for name_str, value_str in props.items():
                    if name_str == 'L':
                        cached.lemma = self.strings[value_str]
                    else:
                        self.assign_feature(&cached.tag.morph, name_str, value_str)
                if cached.lemma == 0:
                    cached.lemma = self.lemmatize(rich_tag.pos, orth)
                self._cache.set(rich_tag.pos, orth, <void*>cached)

    def lemmatize(self, const univ_pos_t pos, attr_t orth):
        if self.lemmatizer is None:
            return orth
        cdef unicode py_string = self.strings[orth]
        if pos != NOUN and pos != VERB and pos != ADJ:
            return orth
        cdef set lemma_strings
        cdef unicode lemma_string
        lemma_strings = self.lemmatizer(py_string, pos)
        lemma_string = sorted(lemma_strings)[0]
        lemma = self.strings[lemma_string]
        return lemma
* Hack Morphology class towards usability 2015-08-26 17:17:21 +00:00			`from os import path`
* Tagger training now working. Still need to test load/save of model. Morphology still broken. 2015-08-27 07:16:11 +00:00			`from .lemmatizer import Lemmatizer`
* Move morphological analysis into its own module, morphology.pyx 2014-12-09 10:16:17 +00:00
* Hack Morphology class towards usability 2015-08-26 17:17:21 +00:00			`try:`
			`import ujson as json`
			`except ImportError:`
			`import json`
* Improve efficiency of tagger, and improve morphological processing 2014-12-09 14:02:04 +00:00
* More work on language-generic parsing 2015-08-28 00:02:33 +00:00			`from .parts_of_speech import UNIV_POS_NAMES`
			`from .parts_of_speech cimport ADJ, VERB, NOUN`
* Work on new morphology organization 2015-08-27 21:11:51 +00:00

* Hack Morphology class towards usability 2015-08-26 17:17:21 +00:00			`cdef class Morphology:`
* More work on language independent parsing 2015-08-28 01:44:54 +00:00			`def __init__(self, StringStore string_store, tag_map, lemmatizer):`
* More work on language-generic parsing 2015-08-28 00:02:33 +00:00			`self.mem = Pool()`
			`self.strings = string_store`
* Tagger training now working. Still need to test load/save of model. Morphology still broken. 2015-08-27 07:16:11 +00:00			`self.lemmatizer = lemmatizer`
* More work on language independent parsing 2015-08-28 01:44:54 +00:00			`self.n_tags = len(tag_map) + 1`
* Hack Morphology class towards usability 2015-08-26 17:17:21 +00:00			`self.tag_names = tuple(sorted(tag_map.keys()))`
* More work on language-generic parsing 2015-08-28 00:02:33 +00:00			`self.reverse_index = {}`
* More work on language independent parsing 2015-08-28 01:44:54 +00:00
			`self.rich_tags = <RichTagC*>self.mem.alloc(self.n_tags, sizeof(RichTagC))`
* More work on language-generic parsing 2015-08-28 00:02:33 +00:00			`for i, (tag_str, props) in enumerate(sorted(tag_map.items())):`
			`self.rich_tags[i].id = i`
			`self.rich_tags[i].name = self.strings[tag_str]`
			`self.rich_tags[i].morph = 0`
			`self.reverse_index[self.rich_tags[i].name] = i`
			`self._cache = PreshMapArray(self.n_tags)`
* Hack Morphology class towards usability 2015-08-26 17:17:21 +00:00
* Work on new morphology organization 2015-08-27 21:11:51 +00:00			`cdef int assign_tag(self, TokenC* token, tag) except -1:`
* More work on language independent parsing 2015-08-28 01:44:54 +00:00			`cdef int tag_id`
			`if isinstance(tag, basestring):`
* Fix morphology look up 2015-09-06 15:53:39 +00:00			`try:`
			`tag_id = self.reverse_index[self.strings[tag]]`
			`except KeyError:`
			`print tag`
			`raise`
* More work on language independent parsing 2015-08-28 01:44:54 +00:00			`else:`
			`tag_id = tag`
* More work on language-generic parsing 2015-08-28 00:02:33 +00:00			`analysis = <MorphAnalysisC*>self._cache.get(tag_id, token.lex.orth)`
* Work on new morphology organization 2015-08-27 21:11:51 +00:00			`if analysis is NULL:`
			`analysis = <MorphAnalysisC*>self.mem.alloc(1, sizeof(MorphAnalysisC))`
* More work on language-generic parsing 2015-08-28 00:02:33 +00:00			`analysis.tag = self.rich_tags[tag_id]`
* More work on language independent parsing 2015-08-28 01:44:54 +00:00			`analysis.lemma = self.lemmatize(analysis.tag.pos, token.lex.orth)`
* Work on new morphology organization 2015-08-27 21:11:51 +00:00			`token.lemma = analysis.lemma`
* More work on language-generic parsing 2015-08-28 00:02:33 +00:00			`token.pos = analysis.tag.pos`
			`token.tag = analysis.tag.name`
			`token.morph = analysis.tag.morph`
* Hack Morphology class towards usability 2015-08-26 17:17:21 +00:00
* More work on language-generic parsing 2015-08-28 00:02:33 +00:00			`cdef int assign_feature(self, uint64_t* morph, feature, value) except -1:`
* Hack Morphology class towards usability 2015-08-26 17:17:21 +00:00			`pass`

			`def load_morph_exceptions(self, dict exc):`
* More work on language-generic parsing 2015-08-28 00:02:33 +00:00			`# Map (form, pos) to (lemma, rich tag)`
* Work on new morphology organization 2015-08-27 21:11:51 +00:00			`cdef unicode pos_str`
			`cdef unicode form_str`
			`cdef unicode lemma_str`
			`cdef dict entries`
			`cdef dict props`
			`cdef int lemma`
			`cdef attr_t orth`
			`cdef int pos`
* More work on language-generic parsing 2015-08-28 00:02:33 +00:00			`for tag_str, entries in exc.items():`
			`tag = self.strings[tag_str]`
			`rich_tag = self.rich_tags[self.reverse_index[tag]]`
* Work on new morphology organization 2015-08-27 21:11:51 +00:00			`for form_str, props in entries.items():`
			`cached = <MorphAnalysisC*>self.mem.alloc(1, sizeof(MorphAnalysisC))`
* More work on language-generic parsing 2015-08-28 00:02:33 +00:00			`orth = self.strings[form_str]`
			`for name_str, value_str in props.items():`
			`if name_str == 'L':`
			`cached.lemma = self.strings[value_str]`
			`else:`
			`self.assign_feature(&cached.tag.morph, name_str, value_str)`
			`if cached.lemma == 0:`
			`cached.lemma = self.lemmatize(rich_tag.pos, orth)`
			`self._cache.set(rich_tag.pos, orth, <void*>cached)`
* Hack Morphology class towards usability 2015-08-26 17:17:21 +00:00
* More work on language-generic parsing 2015-08-28 00:02:33 +00:00			`def lemmatize(self, const univ_pos_t pos, attr_t orth):`
			`if self.lemmatizer is None:`
			`return orth`
			`cdef unicode py_string = self.strings[orth]`
			`if pos != NOUN and pos != VERB and pos != ADJ:`
			`return orth`
			`cdef set lemma_strings`
			`cdef unicode lemma_string`
			`lemma_strings = self.lemmatizer(py_string, pos)`
			`lemma_string = sorted(lemma_strings)[0]`
			`lemma = self.strings[lemma_string]`
			`return lemma`