diff --git a/spacy/hu/punctuation.py b/spacy/hu/punctuation.py index ca1656a18..777a6af82 100644 --- a/spacy/hu/punctuation.py +++ b/spacy/hu/punctuation.py @@ -35,7 +35,7 @@ TOKENIZER_INFIXES = ( r'(?<=[{a}"])[:<>=](?=[{a}])'.format(a=ALPHA), r'(?<=[{a}])--(?=[{a}])'.format(a=ALPHA), r'(?<=[{a}]),(?=[{a}])'.format(a=ALPHA), - r'(?<=[0-9{a}])(({q})|[\)\]])(?=\-[{a}])'.format(a=ALPHA, q=QUOTES), + r'(?<=[{a}])(({q})|[\)\]\(\[])(?=[\-{a}])'.format(a=ALPHA, q=QUOTES), ] ) __all__ = ["TOKENIZER_PREFIXES", "TOKENIZER_SUFFIXES", "TOKENIZER_INFIXES"] diff --git a/spacy/tests/hu/test_tokenizer.py b/spacy/tests/hu/test_tokenizer.py index e4d40c195..e77579ede 100644 --- a/spacy/tests/hu/test_tokenizer.py +++ b/spacy/tests/hu/test_tokenizer.py @@ -147,7 +147,7 @@ NUMBER_TESTS = [ ('A 15.-ben.', ['A', '15.-ben', '.']), ('A 2002--2003. van.', ['A', '2002--2003.', 'van', '.']), ('A 2002--2003-ben van.', ['A', '2002--2003-ben', 'van', '.']), - ('A 2002--2003-ben.', ['A', '2002--2003-ben', '.']), + ('A 2002-2003-ben.', ['A', '2002-2003-ben', '.']), ('A +0,99% van.', ['A', '+0,99%', 'van', '.']), ('A -0,99% van.', ['A', '-0,99%', 'van', '.']), ('A -0,99%-ben van.', ['A', '-0,99%-ben', 'van', '.']), @@ -217,7 +217,7 @@ QUOTE_TESTS = [ ('Az "Ime, hat"-ban irja.', ['Az', '"', 'Ime', ',', 'hat', '"', '-ban', 'irja', '.']), ('"Ime, hat"-ban irja.', ['"', 'Ime', ',', 'hat', '"', '-ban', 'irja', '.']), ('Az "Ime, hat".', ['Az', '"', 'Ime', ',', 'hat', '"', '.']), - ('Egy 24"-os monitor.', ['Egy', '24', '"', '-os', 'monitor', '.']), + ('Egy 24"-os monitor.', ['Egy', '24"-os', 'monitor', '.']), # ("A don't van.", ['A', "don't", 'van', '.']) ] @@ -241,11 +241,14 @@ DOT_TESTS = [ WIKI_TESTS = [ ('!"', ['!', '"']), + ('lány"a', ['lány', '"', 'a']), + ('lány"a', ['lány', '"', 'a']), ('!"-lel', ['!', '"', '-lel']), ('""-sorozat ', ['"', '"', '-sorozat']), ('"(Köszönöm', ['"', '(', 'Köszönöm']), ('(törvénykönyv)-ben ', ['(', 'törvénykönyv', ')', '-ben']), ('"(...)"–sokkal ', ['"', '(', '...', ')', '"', '–sokkal']), + ('cérium(IV)-oxid', ['cérium', '(', 'IV', ')', '-oxid']) ] TESTCASES = DEFAULT_TESTS + DOT_TESTS + QUOTE_TESTS + NUMBER_TESTS + HYPHEN_TESTS + WIKI_TESTS