Rooba/spaCy - spaCy - Hypermine gitea

17 lines

353 B

Python

Raw Normal View History

-												Add support for elision in French

											
										
										
											2017-01-24 08:47:13 +00:00
+								# encoding: utf8
 								from __future__ import unicode_literals
-												Revert "Merge pull request #818 from raphael0202/tokenizer_exceptions"

This reverts commit b95afdf39cfcae646b2438c628da1b91bc1029e6, reversing
changes made to b0ccf32378883bdd153763fe23d84107d99e0f25.

											
										
										
											2017-02-09 16:07:21 +00:00
+								from ..language_data.punctuation import ALPHA, TOKENIZER_INFIXES
-												Add support for elision in French

											
										
										
											2017-01-24 08:47:13 +00:00
 								_ELISION = " ' ’ "
 								ELISION = _ELISION.strip().replace(' ', '').replace('\n', '')
 								TOKENIZER_INFIXES += [
 								    r'(?<=[{a}][{el}])(?=[{a}])'.format(a=ALPHA, el=ELISION),
 								]
 								__all__ = ["TOKENIZER_SUFFIXES", "TOKENIZER_INFIXES"]