From 2bd89e7ade7bfb01a82380f65caa30d1d9fc9fb2 Mon Sep 17 00:00:00 2001
From: ines <ines@ines.io>
Date: Wed, 19 Apr 2017 19:28:00 +0200
Subject: [PATCH] Tidy up Hebrew tests and test for punctuation (see #995)

---
 spacy/tests/he/test_tokenizer.py | 24 +++++++++++++++---------
 1 file changed, 15 insertions(+), 9 deletions(-)

diff --git a/spacy/tests/he/test_tokenizer.py b/spacy/tests/he/test_tokenizer.py
index a6c65805a..c2504a0e7 100644
--- a/spacy/tests/he/test_tokenizer.py
+++ b/spacy/tests/he/test_tokenizer.py
@@ -3,15 +3,21 @@ from __future__ import unicode_literals
 
 import pytest
 
-ABBREVIATION_TESTS = [
-    ('פייתון היא שפת תכנות דינמית', ['פייתון', 'היא', 'שפת', 'תכנות', 'דינמית'])
-]
 
-TESTCASES = ABBREVIATION_TESTS
-
-
-@pytest.mark.parametrize('text,expected_tokens', TESTCASES)
-def test_tokenizer_handles_testcases(he_tokenizer, text, expected_tokens):
+@pytest.mark.parametrize('text,expected_tokens',
+    [('פייתון היא שפת תכנות דינמית', ['פייתון', 'היא', 'שפת', 'תכנות', 'דינמית'])])
+def test_tokenizer_handles_abbreviation(he_tokenizer, text, expected_tokens):
     tokens = he_tokenizer(text)
     token_list = [token.text for token in tokens if not token.is_space]
-    assert expected_tokens == token_list
\ No newline at end of file
+    assert expected_tokens == token_list
+
+
+@pytest.mark.parametrize('text,expected_tokens', [
+    pytest.mark.xfail(('עקבת אחריו בכל רחבי המדינה.', ['עקבת', 'אחריו', 'בכל', 'רחבי', 'המדינה', '.'])),
+    ('עקבת אחריו בכל רחבי המדינה?', ['עקבת', 'אחריו', 'בכל', 'רחבי', 'המדינה', '?']),
+    ('עקבת אחריו בכל רחבי המדינה!', ['עקבת', 'אחריו', 'בכל', 'רחבי', 'המדינה', '!']),
+    ('עקבת אחריו בכל רחבי המדינה..', ['עקבת', 'אחריו', 'בכל', 'רחבי', 'המדינה', '..']),
+    ('עקבת אחריו בכל רחבי המדינה...', ['עקבת', 'אחריו', 'בכל', 'רחבי', 'המדינה', '...'])])
+def test_tokenizer_handles_punct(he_tokenizer, text, expected_tokens):
+    tokens = he_tokenizer(text)
+    assert expected_tokens == [token.text for token in tokens]