spaCy/spacy/tests/doc/test_pickle_doc.py

from __future__ import unicode_literals

from ...language import Language
from ...compat import pickle, unicode_


def test_pickle_single_doc():
    nlp = Language()
    doc = nlp(u'pickle roundtrip')
    data = pickle.dumps(doc, 1)
    doc2 = pickle.loads(data)
    assert doc2.text == 'pickle roundtrip'


def test_list_of_docs_pickles_efficiently():
    nlp = Language()
    for i in range(10000):
        _ = nlp.vocab[unicode_(i)]
    one_pickled = pickle.dumps(nlp(u'0'), -1)
    docs = list(nlp.pipe(unicode_(i) for i in range(100)))
    many_pickled = pickle.dumps(docs, -1)
    assert len(many_pickled) < (len(one_pickled) * 2)
    many_unpickled = pickle.loads(many_pickled)
    assert many_unpickled[0].text == '0'
    assert many_unpickled[-1].text == '99'
    assert len(many_unpickled) == 100
Add tests for pickling doc 2017-10-17 15:20:58 +00:00			`from __future__ import unicode_literals`

			`from ...language import Language`
Fix doc pickling test 2017-10-17 16:19:57 +00:00			`from ...compat import pickle, unicode_`
Add tests for pickling doc 2017-10-17 15:20:58 +00:00

			`def test_pickle_single_doc():`
			`nlp = Language()`
			`doc = nlp(u'pickle roundtrip')`
			`data = pickle.dumps(doc, 1)`
			`doc2 = pickle.loads(data)`
			`assert doc2.text == 'pickle roundtrip'`


			`def test_list_of_docs_pickles_efficiently():`
			`nlp = Language()`
Fix doc pickling test 2017-10-17 16:19:57 +00:00			`for i in range(10000):`
			`_ = nlp.vocab[unicode_(i)]`
Add tests for pickling doc 2017-10-17 15:20:58 +00:00			`one_pickled = pickle.dumps(nlp(u'0'), -1)`
Fix doc pickling test 2017-10-17 16:19:57 +00:00			`docs = list(nlp.pipe(unicode_(i) for i in range(100)))`
Add tests for pickling doc 2017-10-17 15:20:58 +00:00			`many_pickled = pickle.dumps(docs, -1)`
			`assert len(many_pickled) < (len(one_pickled) * 2)`
			`many_unpickled = pickle.loads(many_pickled)`
			`assert many_unpickled[0].text == '0'`
			`assert many_unpickled[-1].text == '99'`
Fix doc pickling test 2017-10-17 16:19:57 +00:00			`assert len(many_unpickled) == 100`