diff --git a/spacy/tests/he/test_tokenizer.py b/spacy/tests/he/test_tokenizer.py index a6c65805a..c2504a0e7 100644 --- a/spacy/tests/he/test_tokenizer.py +++ b/spacy/tests/he/test_tokenizer.py @@ -3,15 +3,21 @@ from __future__ import unicode_literals import pytest -ABBREVIATION_TESTS = [ - ('פייתון היא שפת תכנות דינמית', ['פייתון', 'היא', 'שפת', 'תכנות', 'דינמית']) -] -TESTCASES = ABBREVIATION_TESTS - - -@pytest.mark.parametrize('text,expected_tokens', TESTCASES) -def test_tokenizer_handles_testcases(he_tokenizer, text, expected_tokens): +@pytest.mark.parametrize('text,expected_tokens', + [('פייתון היא שפת תכנות דינמית', ['פייתון', 'היא', 'שפת', 'תכנות', 'דינמית'])]) +def test_tokenizer_handles_abbreviation(he_tokenizer, text, expected_tokens): tokens = he_tokenizer(text) token_list = [token.text for token in tokens if not token.is_space] - assert expected_tokens == token_list \ No newline at end of file + assert expected_tokens == token_list + + +@pytest.mark.parametrize('text,expected_tokens', [ + pytest.mark.xfail(('עקבת אחריו בכל רחבי המדינה.', ['עקבת', 'אחריו', 'בכל', 'רחבי', 'המדינה', '.'])), + ('עקבת אחריו בכל רחבי המדינה?', ['עקבת', 'אחריו', 'בכל', 'רחבי', 'המדינה', '?']), + ('עקבת אחריו בכל רחבי המדינה!', ['עקבת', 'אחריו', 'בכל', 'רחבי', 'המדינה', '!']), + ('עקבת אחריו בכל רחבי המדינה..', ['עקבת', 'אחריו', 'בכל', 'רחבי', 'המדינה', '..']), + ('עקבת אחריו בכל רחבי המדינה...', ['עקבת', 'אחריו', 'בכל', 'רחבי', 'המדינה', '...'])]) +def test_tokenizer_handles_punct(he_tokenizer, text, expected_tokens): + tokens = he_tokenizer(text) + assert expected_tokens == [token.text for token in tokens]