spaCy/spacy/tests/en/test_exceptions.py

# coding: utf-8
"""Test that tokenizer exceptions are handled correctly."""


from __future__ import unicode_literals

import pytest


@pytest.mark.parametrize('text', ["e.g.", "p.m.", "Jan.", "Dec.", "Inc."])
def test_tokenizer_handles_abbr(en_tokenizer, text):
    tokens = en_tokenizer(text)
    assert len(tokens) == 1


def test_tokenizer_handles_exc_in_text(en_tokenizer):
    text = "It's mediocre i.e. bad."
    tokens = en_tokenizer(text)
    assert len(tokens) == 6
    assert tokens[3].text == "i.e."
Modernize and merge tokenizer tests for exception and emoticons 2017-01-05 12:11:31 +00:00			`# coding: utf-8`
Move non-English-specific tests back to general tokenizer tests 2017-01-05 17:09:29 +00:00			`"""Test that tokenizer exceptions are handled correctly."""`
Modernize and merge tokenizer tests for exception and emoticons 2017-01-05 12:11:31 +00:00

			`from __future__ import unicode_literals`

			`import pytest`


			`@pytest.mark.parametrize('text', ["e.g.", "p.m.", "Jan.", "Dec.", "Inc."])`
			`def test_tokenizer_handles_abbr(en_tokenizer, text):`
			`tokens = en_tokenizer(text)`
			`assert len(tokens) == 1`


			`def test_tokenizer_handles_exc_in_text(en_tokenizer):`
			`text = "It's mediocre i.e. bad."`
			`tokens = en_tokenizer(text)`
			`assert len(tokens) == 6`
			`assert tokens[3].text == "i.e."`