Trigger on_data hooks in parser model

2018-09-14 20:50:59 +02:00 · 2018-09-14 20:50:59 +02:00 · c046392317
parent 5afd98dff5
commit c046392317
2 changed files with 13 additions and 2 deletions
--- a/spacy/syntax/_parser_model.pyx
+++ b/spacy/syntax/_parser_model.pyx
@ -211,6 +211,10 @@ class ParserModel(Model):
        copy_array(larger.W[:smaller.nO], smaller.W)
        copy_array(larger.b[:smaller.nO], smaller.b)
        self._layers[-1]._layers[-1] = larger
    def begin_training(self, X, y=None):
        for layer in self._layers:
            layer.begin_training(X, y=y)
    @property
    def tok2vec(self):
--- a/spacy/syntax/nn_parser.pyx
+++ b/spacy/syntax/nn_parser.pyx
@ -510,8 +510,15 @@ cdef class Parser:
            self.model, cfg = self.Model(self.moves.n_moves, **cfg)
            if sgd is None:
                sgd = self.create_optimizer()
-            self.model.begin_training(
+            doc_sample = []
-                self.model.ops.allocate((5, cfg['token_vector_width'])))
+            gold_sample = []
            for raw_text, annots_brackets in cytoolz.take(1000, get_gold_tuples()):
                for annots, brackets in annots_brackets:
                    ids, words, tags, heads, deps, ents = annots
                    doc_sample.append(Doc(self.vocab, words=words))
                    gold_sample.append(GoldParse(doc_sample[-1], words=words, tags=tags,
                                                 heads=heads, deps=deps, ents=ents))
            self.model.begin_training(doc_sample, gold_sample)
            if pipeline is not None:
                self.init_multitask_objectives(get_gold_tuples, pipeline, sgd=sgd, **cfg)
            link_vectors_to_models(self.vocab)