From 2b2ea8ca11d1658325a855861150e2dbd5d709fb Mon Sep 17 00:00:00 2001 From: Ines Montani Date: Sun, 18 Dec 2016 16:54:19 +0100 Subject: [PATCH] Reorganise language data --- spacy/de/__init__.py | 22 +- spacy/de/language_data.py | 19 +- spacy/en/__init__.py | 28 +-- spacy/en/language_data.py | 24 +- spacy/es/__init__.py | 23 +- spacy/es/language_data.py | 407 +------------------------------ spacy/es/stop_words.py | 84 +++++++ spacy/es/tokenizer_exceptions.py | 318 ++++++++++++++++++++++++ spacy/fr/__init__.py | 23 +- spacy/fr/language_data.py | 109 +-------- spacy/fr/stop_words.py | 88 +++++++ spacy/it/__init__.py | 23 +- spacy/it/language_data.py | 106 +------- spacy/it/stop_words.py | 85 +++++++ spacy/language_data/__init__.py | 1 + spacy/nl/__init__.py | 25 +- spacy/nl/language_data.py | 83 +------ spacy/nl/stop_words.py | 43 ++++ spacy/pt/__init__.py | 23 +- spacy/pt/language_data.py | 87 +------ spacy/pt/stop_words.py | 66 +++++ 21 files changed, 760 insertions(+), 927 deletions(-) create mode 100644 spacy/es/stop_words.py create mode 100644 spacy/es/tokenizer_exceptions.py create mode 100644 spacy/fr/stop_words.py create mode 100644 spacy/it/stop_words.py create mode 100644 spacy/nl/stop_words.py create mode 100644 spacy/pt/stop_words.py diff --git a/spacy/de/__init__.py b/spacy/de/__init__.py index 2e7cba4b2..3143a5cd4 100644 --- a/spacy/de/__init__.py +++ b/spacy/de/__init__.py @@ -5,25 +5,8 @@ from os import path from ..language import Language from ..attrs import LANG -from . import language_data -from ..language_data import update_exc -from ..language_data import strings_to_exc -from ..language_data import EMOTICONS - -from .language_data import ORTH_ONLY - - -TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS) -TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES) -TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES) -TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES) -TAG_MAP = dict(language_data.TAG_MAP) -STOP_WORDS = set(language_data.STOP_WORDS) - - -update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS)) -update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY)) +from .language_data import * class German(Language): @@ -35,8 +18,5 @@ class German(Language): lex_attr_getters[LANG] = lambda text: 'de' tokenizer_exceptions = TOKENIZER_EXCEPTIONS - prefixes = TOKENIZER_PREFIXES - suffixes = TOKENIZER_SUFFIXES - infixes = TOKENIZER_INFIXES tag_map = TAG_MAP stop_words = STOP_WORDS diff --git a/spacy/de/language_data.py b/spacy/de/language_data.py index 4fefdb6a6..f64c915f6 100644 --- a/spacy/de/language_data.py +++ b/spacy/de/language_data.py @@ -1,12 +1,21 @@ # encoding: utf8 from __future__ import unicode_literals -from ..symbols import * -from ..language_data import PRON_LEMMA -from ..language_data import TOKENIZER_PREFIXES -from ..language_data import TOKENIZER_SUFFIXES -from ..language_data import TOKENIZER_INFIXES +from .. import language_data as base +from ..language_data import update_exc, strings_to_exc from .tag_map import TAG_MAP from .stop_words import STOP_WORDS from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS, ORTH_ONLY + + +TOKENIZER_EXCEPTIONS = dict(TOKENIZER_EXCEPTIONS) +TAG_MAP = dict(TAG_MAP) +STOP_WORDS = set(STOP_WORDS) + + +update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY)) +update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.EMOTICONS)) + + +__all__ = ["TOKENIZER_EXCEPTIONS", "TAG_MAP", "STOP_WORDS"] diff --git a/spacy/en/__init__.py b/spacy/en/__init__.py index 623585f7d..2ac839120 100644 --- a/spacy/en/__init__.py +++ b/spacy/en/__init__.py @@ -4,35 +4,12 @@ from __future__ import unicode_literals, print_function from os import path from ..language import Language -from . import language_data -from .. import util from ..lemmatizer import Lemmatizer from ..vocab import Vocab from ..tokenizer import Tokenizer from ..attrs import LANG -from ..language_data import update_exc -from ..language_data import strings_to_exc -from ..language_data import expand_exc -from ..language_data import EMOTICONS - -from .language_data import ORTH_ONLY -from .language_data import get_time_exc - - -TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS) -TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES) -TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES) -TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES) -TAG_MAP = dict(language_data.TAG_MAP) -STOP_WORDS = set(language_data.STOP_WORDS) - - -update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS)) -update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY)) -update_exc(TOKENIZER_EXCEPTIONS, get_time_exc(range(1, 12 + 1))) -update_exc(TOKENIZER_EXCEPTIONS, expand_exc(TOKENIZER_EXCEPTIONS, "'", "’")) - +from .language_data import * class English(Language): lang = 'en' @@ -42,8 +19,5 @@ class English(Language): lex_attr_getters[LANG] = lambda text: 'en' tokenizer_exceptions = TOKENIZER_EXCEPTIONS - prefixes = TOKENIZER_PREFIXES - suffixes = TOKENIZER_SUFFIXES - infixes = TOKENIZER_INFIXES tag_map = TAG_MAP stop_words = STOP_WORDS diff --git a/spacy/en/language_data.py b/spacy/en/language_data.py index 1b0ba47df..0bfbe13b7 100644 --- a/spacy/en/language_data.py +++ b/spacy/en/language_data.py @@ -1,13 +1,9 @@ # encoding: utf8 from __future__ import unicode_literals -from ..symbols import * -from ..language_data import PRON_LEMMA -from ..language_data import ENT_ID -from ..language_data import TOKENIZER_PREFIXES -from ..language_data import TOKENIZER_SUFFIXES -from ..language_data import TOKENIZER_INFIXES -from ..language_data import ENTITY_RULES, FALSE_POSITIVES +from .. import language_data as base +from ..language_data import update_exc, strings_to_exc, expand_exc +from ..symbols import ORTH, LEMMA from .tag_map import TAG_MAP from .stop_words import STOP_WORDS @@ -39,3 +35,17 @@ def get_time_exc(hours): {ORTH: "pm", LEMMA: "p.m."} ] return exc + + +TOKENIZER_EXCEPTIONS = dict(TOKENIZER_EXCEPTIONS) +TAG_MAP = dict(TAG_MAP) +STOP_WORDS = set(STOP_WORDS) + + +update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY)) +update_exc(TOKENIZER_EXCEPTIONS, get_time_exc(range(1, 12 + 1))) +update_exc(TOKENIZER_EXCEPTIONS, expand_exc(TOKENIZER_EXCEPTIONS, "'", "’")) +update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.EMOTICONS)) + + +__all__ = ["TOKENIZER_EXCEPTIONS", "TAG_MAP", "STOP_WORDS", "LEMMA_RULES", "MORPH_RULES"] diff --git a/spacy/es/__init__.py b/spacy/es/__init__.py index f6d54714a..216a60d15 100644 --- a/spacy/es/__init__.py +++ b/spacy/es/__init__.py @@ -4,26 +4,9 @@ from __future__ import unicode_literals, print_function from os import path from ..language import Language -from . import language_data from ..attrs import LANG -from ..language_data import update_exc -from ..language_data import strings_to_exc -from ..language_data import EMOTICONS - -from .language_data import ORTH_ONLY - - -TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS) -TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES) -TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES) -TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES) -TAG_MAP = dict(language_data.TAG_MAP) -STOP_WORDS = set(language_data.STOP_WORDS) - - -update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS)) -update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY)) +from .language_data import * class Spanish(Language): @@ -34,8 +17,4 @@ class Spanish(Language): lex_attr_getters[LANG] = lambda text: 'es' tokenizer_exceptions = TOKENIZER_EXCEPTIONS - prefixes = TOKENIZER_PREFIXES - suffixes = TOKENIZER_SUFFIXES - infixes = TOKENIZER_INFIXES - tag_map = TAG_MAP stop_words = STOP_WORDS diff --git a/spacy/es/language_data.py b/spacy/es/language_data.py index 344adf59b..90595be82 100644 --- a/spacy/es/language_data.py +++ b/spacy/es/language_data.py @@ -1,408 +1,19 @@ # encoding: utf8 from __future__ import unicode_literals -from ..symbols import * -from ..language_data import PRON_LEMMA -from ..language_data import TOKENIZER_PREFIXES -from ..language_data import TOKENIZER_SUFFIXES -from ..language_data import TOKENIZER_INFIXES +from .. import language_data as base +from ..language_data import update_exc, strings_to_exc +from .stop_words import STOP_WORDS +from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS, ORTH_ONLY -TAG_MAP = { -} +TOKENIZER_EXCEPTIONS = dict(TOKENIZER_EXCEPTIONS) +STOP_WORDS = set(STOP_WORDS) -STOP_WORDS = set(""" -actualmente acuerdo adelante ademas además adrede afirmó agregó ahi ahora ahí -al algo alguna algunas alguno algunos algún alli allí alrededor ambos ampleamos -antano antaño ante anterior antes apenas aproximadamente aquel aquella aquellas -aquello aquellos aqui aquél aquélla aquéllas aquéllos aquí arriba arribaabajo -aseguró asi así atras aun aunque ayer añadió aún +update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY)) +update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.EMOTICONS)) -bajo bastante bien breve buen buena buenas bueno buenos -cada casi cerca cierta ciertas cierto ciertos cinco claro comentó como con -conmigo conocer conseguimos conseguir considera consideró consigo consigue -consiguen consigues contigo contra cosas creo cual cuales cualquier cuando -cuanta cuantas cuanto cuantos cuatro cuenta cuál cuáles cuándo cuánta cuántas -cuánto cuántos cómo - -da dado dan dar de debajo debe deben debido decir dejó del delante demasiado -demás dentro deprisa desde despacio despues después detras detrás dia dias dice -dicen dicho dieron diferente diferentes dijeron dijo dio donde dos durante día -días dónde - -ejemplo el ella ellas ello ellos embargo empleais emplean emplear empleas -empleo en encima encuentra enfrente enseguida entonces entre era eramos eran -eras eres es esa esas ese eso esos esta estaba estaban estado estados estais -estamos estan estar estará estas este esto estos estoy estuvo está están ex -excepto existe existen explicó expresó él ésa ésas ése ésos ésta éstas éste -éstos - -fin final fue fuera fueron fui fuimos - -general gran grandes gueno - -ha haber habia habla hablan habrá había habían hace haceis hacemos hacen hacer -hacerlo haces hacia haciendo hago han hasta hay haya he hecho hemos hicieron -hizo horas hoy hubo - -igual incluso indicó informo informó intenta intentais intentamos intentan -intentar intentas intento ir - -junto - -la lado largo las le lejos les llegó lleva llevar lo los luego lugar - -mal manera manifestó mas mayor me mediante medio mejor mencionó menos menudo mi -mia mias mientras mio mios mis misma mismas mismo mismos modo momento mucha -muchas mucho muchos muy más mí mía mías mío míos - -nada nadie ni ninguna ningunas ninguno ningunos ningún no nos nosotras nosotros -nuestra nuestras nuestro nuestros nueva nuevas nuevo nuevos nunca - -ocho os otra otras otro otros - -pais para parece parte partir pasada pasado paìs peor pero pesar poca pocas -poco pocos podeis podemos poder podria podriais podriamos podrian podrias podrá -podrán podría podrían poner por porque posible primer primera primero primeros -principalmente pronto propia propias propio propios proximo próximo próximos -pudo pueda puede pueden puedo pues - -qeu que quedó queremos quien quienes quiere quiza quizas quizá quizás quién quiénes qué - -raras realizado realizar realizó repente respecto - -sabe sabeis sabemos saben saber sabes salvo se sea sean segun segunda segundo -según seis ser sera será serán sería señaló si sido siempre siendo siete sigue -siguiente sin sino sobre sois sola solamente solas solo solos somos son soy -soyos su supuesto sus suya suyas suyo sé sí sólo - -tal tambien también tampoco tan tanto tarde te temprano tendrá tendrán teneis -tenemos tener tenga tengo tenido tenía tercera ti tiempo tiene tienen toda -todas todavia todavía todo todos total trabaja trabajais trabajamos trabajan -trabajar trabajas trabajo tras trata través tres tu tus tuvo tuya tuyas tuyo -tuyos tú - -ultimo un una unas uno unos usa usais usamos usan usar usas uso usted ustedes -última últimas último últimos - -va vais valor vamos van varias varios vaya veces ver verdad verdadera verdadero -vez vosotras vosotros voy vuestra vuestras vuestro vuestros - -ya yo -""".split()) - - -TOKENIZER_EXCEPTIONS = { - "accidentarse": [ - {ORTH: "accidentar", LEMMA: "accidentar", POS: AUX}, - {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "aceptarlo": [ - {ORTH: "aceptar", LEMMA: "aceptar", POS: AUX}, - {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "acompañarla": [ - {ORTH: "acompañar", LEMMA: "acompañar", POS: AUX}, - {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "advertirle": [ - {ORTH: "advertir", LEMMA: "advertir", POS: AUX}, - {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "al": [ - {ORTH: "a", LEMMA: "a", POS: ADP}, - {ORTH: "el", LEMMA: "el", POS: DET} - ], - - "anunciarnos": [ - {ORTH: "anunciar", LEMMA: "anunciar", POS: AUX}, - {ORTH: "nos", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "asegurándole": [ - {ORTH: "asegurando", LEMMA: "asegurar", POS: AUX}, - {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "considerarle": [ - {ORTH: "considerar", LEMMA: "considerar", POS: AUX}, - {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "decirle": [ - {ORTH: "decir", LEMMA: "decir", POS: AUX}, - {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "decirles": [ - {ORTH: "decir", LEMMA: "decir", POS: AUX}, - {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "decirte": [ - {ORTH: "Decir", LEMMA: "decir", POS: AUX}, - {ORTH: "te", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "dejarla": [ - {ORTH: "dejar", LEMMA: "dejar", POS: AUX}, - {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "dejarnos": [ - {ORTH: "dejar", LEMMA: "dejar", POS: AUX}, - {ORTH: "nos", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "dejándole": [ - {ORTH: "dejando", LEMMA: "dejar", POS: AUX}, - {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "del": [ - {ORTH: "de", LEMMA: "de", POS: ADP}, - {ORTH: "el", LEMMA: "el", POS: DET} - ], - - "demostrarles": [ - {ORTH: "demostrar", LEMMA: "demostrar", POS: AUX}, - {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "diciéndole": [ - {ORTH: "diciendo", LEMMA: "decir", POS: AUX}, - {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "diciéndoles": [ - {ORTH: "diciendo", LEMMA: "decir", POS: AUX}, - {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "diferenciarse": [ - {ORTH: "diferenciar", LEMMA: "diferenciar", POS: AUX}, - {ORTH: "se", LEMMA: "él", POS: PRON} - ], - - "divirtiéndome": [ - {ORTH: "divirtiendo", LEMMA: "divertir", POS: AUX}, - {ORTH: "me", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "ensanchándose": [ - {ORTH: "ensanchando", LEMMA: "ensanchar", POS: AUX}, - {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "explicarles": [ - {ORTH: "explicar", LEMMA: "explicar", POS: AUX}, - {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "haberla": [ - {ORTH: "haber", LEMMA: "haber", POS: AUX}, - {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "haberlas": [ - {ORTH: "haber", LEMMA: "haber", POS: AUX}, - {ORTH: "las", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "haberlo": [ - {ORTH: "haber", LEMMA: "haber", POS: AUX}, - {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "haberlos": [ - {ORTH: "haber", LEMMA: "haber", POS: AUX}, - {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "haberme": [ - {ORTH: "haber", LEMMA: "haber", POS: AUX}, - {ORTH: "me", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "haberse": [ - {ORTH: "haber", LEMMA: "haber", POS: AUX}, - {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "hacerle": [ - {ORTH: "hacer", LEMMA: "hacer", POS: AUX}, - {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "hacerles": [ - {ORTH: "hacer", LEMMA: "hacer", POS: AUX}, - {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "hallarse": [ - {ORTH: "hallar", LEMMA: "hallar", POS: AUX}, - {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "imaginaros": [ - {ORTH: "imaginar", LEMMA: "imaginar", POS: AUX}, - {ORTH: "os", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "insinuarle": [ - {ORTH: "insinuar", LEMMA: "insinuar", POS: AUX}, - {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "justificarla": [ - {ORTH: "justificar", LEMMA: "justificar", POS: AUX}, - {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "mantenerlas": [ - {ORTH: "mantener", LEMMA: "mantener", POS: AUX}, - {ORTH: "las", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "mantenerlos": [ - {ORTH: "mantener", LEMMA: "mantener", POS: AUX}, - {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "mantenerme": [ - {ORTH: "mantener", LEMMA: "mantener", POS: AUX}, - {ORTH: "me", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "pasarte": [ - {ORTH: "pasar", LEMMA: "pasar", POS: AUX}, - {ORTH: "te", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "pedirle": [ - {ORTH: "pedir", LEMMA: "pedir", POS: AUX}, - {ORTH: "le", LEMMA: "él", POS: PRON} - ], - - "pel": [ - {ORTH: "per", LEMMA: "per", POS: ADP}, - {ORTH: "el", LEMMA: "el", POS: DET} - ], - - "pidiéndonos": [ - {ORTH: "pidiendo", LEMMA: "pedir", POS: AUX}, - {ORTH: "nos", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "poderle": [ - {ORTH: "poder", LEMMA: "poder", POS: AUX}, - {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "preguntarse": [ - {ORTH: "preguntar", LEMMA: "preguntar", POS: AUX}, - {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "preguntándose": [ - {ORTH: "preguntando", LEMMA: "preguntar", POS: AUX}, - {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "presentarla": [ - {ORTH: "presentar", LEMMA: "presentar", POS: AUX}, - {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "pudiéndolo": [ - {ORTH: "pudiendo", LEMMA: "poder", POS: AUX}, - {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "pudiéndose": [ - {ORTH: "pudiendo", LEMMA: "poder", POS: AUX}, - {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "quererle": [ - {ORTH: "querer", LEMMA: "querer", POS: AUX}, - {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "rasgarse": [ - {ORTH: "Rasgar", LEMMA: "rasgar", POS: AUX}, - {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "repetirlo": [ - {ORTH: "repetir", LEMMA: "repetir", POS: AUX}, - {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "robarle": [ - {ORTH: "robar", LEMMA: "robar", POS: AUX}, - {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "seguirlos": [ - {ORTH: "seguir", LEMMA: "seguir", POS: AUX}, - {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "serle": [ - {ORTH: "ser", LEMMA: "ser", POS: AUX}, - {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "serlo": [ - {ORTH: "ser", LEMMA: "ser", POS: AUX}, - {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "señalándole": [ - {ORTH: "señalando", LEMMA: "señalar", POS: AUX}, - {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "suplicarle": [ - {ORTH: "suplicar", LEMMA: "suplicar", POS: AUX}, - {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "tenerlos": [ - {ORTH: "tener", LEMMA: "tener", POS: AUX}, - {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "vengarse": [ - {ORTH: "vengar", LEMMA: "vengar", POS: AUX}, - {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "verla": [ - {ORTH: "ver", LEMMA: "ver", POS: AUX}, - {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "verle": [ - {ORTH: "ver", LEMMA: "ver", POS: AUX}, - {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON} - ], - - "volverlo": [ - {ORTH: "volver", LEMMA: "volver", POS: AUX}, - {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON} - ] -} - - -ORTH_ONLY = [ - -] +__all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"] diff --git a/spacy/es/stop_words.py b/spacy/es/stop_words.py new file mode 100644 index 000000000..8dc4f11e0 --- /dev/null +++ b/spacy/es/stop_words.py @@ -0,0 +1,84 @@ +# encoding: utf8 +from __future__ import unicode_literals + + +STOP_WORDS = set(""" +actualmente acuerdo adelante ademas además adrede afirmó agregó ahi ahora ahí +al algo alguna algunas alguno algunos algún alli allí alrededor ambos ampleamos +antano antaño ante anterior antes apenas aproximadamente aquel aquella aquellas +aquello aquellos aqui aquél aquélla aquéllas aquéllos aquí arriba arribaabajo +aseguró asi así atras aun aunque ayer añadió aún + +bajo bastante bien breve buen buena buenas bueno buenos + +cada casi cerca cierta ciertas cierto ciertos cinco claro comentó como con +conmigo conocer conseguimos conseguir considera consideró consigo consigue +consiguen consigues contigo contra cosas creo cual cuales cualquier cuando +cuanta cuantas cuanto cuantos cuatro cuenta cuál cuáles cuándo cuánta cuántas +cuánto cuántos cómo + +da dado dan dar de debajo debe deben debido decir dejó del delante demasiado +demás dentro deprisa desde despacio despues después detras detrás dia dias dice +dicen dicho dieron diferente diferentes dijeron dijo dio donde dos durante día +días dónde + +ejemplo el ella ellas ello ellos embargo empleais emplean emplear empleas +empleo en encima encuentra enfrente enseguida entonces entre era eramos eran +eras eres es esa esas ese eso esos esta estaba estaban estado estados estais +estamos estan estar estará estas este esto estos estoy estuvo está están ex +excepto existe existen explicó expresó él ésa ésas ése ésos ésta éstas éste +éstos + +fin final fue fuera fueron fui fuimos + +general gran grandes gueno + +ha haber habia habla hablan habrá había habían hace haceis hacemos hacen hacer +hacerlo haces hacia haciendo hago han hasta hay haya he hecho hemos hicieron +hizo horas hoy hubo + +igual incluso indicó informo informó intenta intentais intentamos intentan +intentar intentas intento ir + +junto + +la lado largo las le lejos les llegó lleva llevar lo los luego lugar + +mal manera manifestó mas mayor me mediante medio mejor mencionó menos menudo mi +mia mias mientras mio mios mis misma mismas mismo mismos modo momento mucha +muchas mucho muchos muy más mí mía mías mío míos + +nada nadie ni ninguna ningunas ninguno ningunos ningún no nos nosotras nosotros +nuestra nuestras nuestro nuestros nueva nuevas nuevo nuevos nunca + +ocho os otra otras otro otros + +pais para parece parte partir pasada pasado paìs peor pero pesar poca pocas +poco pocos podeis podemos poder podria podriais podriamos podrian podrias podrá +podrán podría podrían poner por porque posible primer primera primero primeros +principalmente pronto propia propias propio propios proximo próximo próximos +pudo pueda puede pueden puedo pues + +qeu que quedó queremos quien quienes quiere quiza quizas quizá quizás quién quiénes qué + +raras realizado realizar realizó repente respecto + +sabe sabeis sabemos saben saber sabes salvo se sea sean segun segunda segundo +según seis ser sera será serán sería señaló si sido siempre siendo siete sigue +siguiente sin sino sobre sois sola solamente solas solo solos somos son soy +soyos su supuesto sus suya suyas suyo sé sí sólo + +tal tambien también tampoco tan tanto tarde te temprano tendrá tendrán teneis +tenemos tener tenga tengo tenido tenía tercera ti tiempo tiene tienen toda +todas todavia todavía todo todos total trabaja trabajais trabajamos trabajan +trabajar trabajas trabajo tras trata través tres tu tus tuvo tuya tuyas tuyo +tuyos tú + +ultimo un una unas uno unos usa usais usamos usan usar usas uso usted ustedes +última últimas último últimos + +va vais valor vamos van varias varios vaya veces ver verdad verdadera verdadero +vez vosotras vosotros voy vuestra vuestras vuestro vuestros + +ya yo +""".split()) diff --git a/spacy/es/tokenizer_exceptions.py b/spacy/es/tokenizer_exceptions.py new file mode 100644 index 000000000..36a2a8d23 --- /dev/null +++ b/spacy/es/tokenizer_exceptions.py @@ -0,0 +1,318 @@ +# encoding: utf8 +from __future__ import unicode_literals + +from ..symbols import * +from ..language_data import PRON_LEMMA + + +TOKENIZER_EXCEPTIONS = { + "accidentarse": [ + {ORTH: "accidentar", LEMMA: "accidentar", POS: AUX}, + {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "aceptarlo": [ + {ORTH: "aceptar", LEMMA: "aceptar", POS: AUX}, + {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "acompañarla": [ + {ORTH: "acompañar", LEMMA: "acompañar", POS: AUX}, + {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "advertirle": [ + {ORTH: "advertir", LEMMA: "advertir", POS: AUX}, + {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "al": [ + {ORTH: "a", LEMMA: "a", POS: ADP}, + {ORTH: "el", LEMMA: "el", POS: DET} + ], + + "anunciarnos": [ + {ORTH: "anunciar", LEMMA: "anunciar", POS: AUX}, + {ORTH: "nos", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "asegurándole": [ + {ORTH: "asegurando", LEMMA: "asegurar", POS: AUX}, + {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "considerarle": [ + {ORTH: "considerar", LEMMA: "considerar", POS: AUX}, + {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "decirle": [ + {ORTH: "decir", LEMMA: "decir", POS: AUX}, + {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "decirles": [ + {ORTH: "decir", LEMMA: "decir", POS: AUX}, + {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "decirte": [ + {ORTH: "Decir", LEMMA: "decir", POS: AUX}, + {ORTH: "te", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "dejarla": [ + {ORTH: "dejar", LEMMA: "dejar", POS: AUX}, + {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "dejarnos": [ + {ORTH: "dejar", LEMMA: "dejar", POS: AUX}, + {ORTH: "nos", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "dejándole": [ + {ORTH: "dejando", LEMMA: "dejar", POS: AUX}, + {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "del": [ + {ORTH: "de", LEMMA: "de", POS: ADP}, + {ORTH: "el", LEMMA: "el", POS: DET} + ], + + "demostrarles": [ + {ORTH: "demostrar", LEMMA: "demostrar", POS: AUX}, + {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "diciéndole": [ + {ORTH: "diciendo", LEMMA: "decir", POS: AUX}, + {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "diciéndoles": [ + {ORTH: "diciendo", LEMMA: "decir", POS: AUX}, + {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "diferenciarse": [ + {ORTH: "diferenciar", LEMMA: "diferenciar", POS: AUX}, + {ORTH: "se", LEMMA: "él", POS: PRON} + ], + + "divirtiéndome": [ + {ORTH: "divirtiendo", LEMMA: "divertir", POS: AUX}, + {ORTH: "me", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "ensanchándose": [ + {ORTH: "ensanchando", LEMMA: "ensanchar", POS: AUX}, + {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "explicarles": [ + {ORTH: "explicar", LEMMA: "explicar", POS: AUX}, + {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "haberla": [ + {ORTH: "haber", LEMMA: "haber", POS: AUX}, + {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "haberlas": [ + {ORTH: "haber", LEMMA: "haber", POS: AUX}, + {ORTH: "las", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "haberlo": [ + {ORTH: "haber", LEMMA: "haber", POS: AUX}, + {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "haberlos": [ + {ORTH: "haber", LEMMA: "haber", POS: AUX}, + {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "haberme": [ + {ORTH: "haber", LEMMA: "haber", POS: AUX}, + {ORTH: "me", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "haberse": [ + {ORTH: "haber", LEMMA: "haber", POS: AUX}, + {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "hacerle": [ + {ORTH: "hacer", LEMMA: "hacer", POS: AUX}, + {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "hacerles": [ + {ORTH: "hacer", LEMMA: "hacer", POS: AUX}, + {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "hallarse": [ + {ORTH: "hallar", LEMMA: "hallar", POS: AUX}, + {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "imaginaros": [ + {ORTH: "imaginar", LEMMA: "imaginar", POS: AUX}, + {ORTH: "os", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "insinuarle": [ + {ORTH: "insinuar", LEMMA: "insinuar", POS: AUX}, + {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "justificarla": [ + {ORTH: "justificar", LEMMA: "justificar", POS: AUX}, + {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "mantenerlas": [ + {ORTH: "mantener", LEMMA: "mantener", POS: AUX}, + {ORTH: "las", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "mantenerlos": [ + {ORTH: "mantener", LEMMA: "mantener", POS: AUX}, + {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "mantenerme": [ + {ORTH: "mantener", LEMMA: "mantener", POS: AUX}, + {ORTH: "me", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "pasarte": [ + {ORTH: "pasar", LEMMA: "pasar", POS: AUX}, + {ORTH: "te", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "pedirle": [ + {ORTH: "pedir", LEMMA: "pedir", POS: AUX}, + {ORTH: "le", LEMMA: "él", POS: PRON} + ], + + "pel": [ + {ORTH: "per", LEMMA: "per", POS: ADP}, + {ORTH: "el", LEMMA: "el", POS: DET} + ], + + "pidiéndonos": [ + {ORTH: "pidiendo", LEMMA: "pedir", POS: AUX}, + {ORTH: "nos", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "poderle": [ + {ORTH: "poder", LEMMA: "poder", POS: AUX}, + {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "preguntarse": [ + {ORTH: "preguntar", LEMMA: "preguntar", POS: AUX}, + {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "preguntándose": [ + {ORTH: "preguntando", LEMMA: "preguntar", POS: AUX}, + {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "presentarla": [ + {ORTH: "presentar", LEMMA: "presentar", POS: AUX}, + {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "pudiéndolo": [ + {ORTH: "pudiendo", LEMMA: "poder", POS: AUX}, + {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "pudiéndose": [ + {ORTH: "pudiendo", LEMMA: "poder", POS: AUX}, + {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "quererle": [ + {ORTH: "querer", LEMMA: "querer", POS: AUX}, + {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "rasgarse": [ + {ORTH: "Rasgar", LEMMA: "rasgar", POS: AUX}, + {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "repetirlo": [ + {ORTH: "repetir", LEMMA: "repetir", POS: AUX}, + {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "robarle": [ + {ORTH: "robar", LEMMA: "robar", POS: AUX}, + {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "seguirlos": [ + {ORTH: "seguir", LEMMA: "seguir", POS: AUX}, + {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "serle": [ + {ORTH: "ser", LEMMA: "ser", POS: AUX}, + {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "serlo": [ + {ORTH: "ser", LEMMA: "ser", POS: AUX}, + {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "señalándole": [ + {ORTH: "señalando", LEMMA: "señalar", POS: AUX}, + {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "suplicarle": [ + {ORTH: "suplicar", LEMMA: "suplicar", POS: AUX}, + {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "tenerlos": [ + {ORTH: "tener", LEMMA: "tener", POS: AUX}, + {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "vengarse": [ + {ORTH: "vengar", LEMMA: "vengar", POS: AUX}, + {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "verla": [ + {ORTH: "ver", LEMMA: "ver", POS: AUX}, + {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "verle": [ + {ORTH: "ver", LEMMA: "ver", POS: AUX}, + {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON} + ], + + "volverlo": [ + {ORTH: "volver", LEMMA: "volver", POS: AUX}, + {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON} + ] +} + + +ORTH_ONLY = [ + +] diff --git a/spacy/fr/__init__.py b/spacy/fr/__init__.py index 9f259b1b5..81584b926 100644 --- a/spacy/fr/__init__.py +++ b/spacy/fr/__init__.py @@ -4,26 +4,9 @@ from __future__ import unicode_literals, print_function from os import path from ..language import Language -from . import language_data from ..attrs import LANG -from ..language_data import update_exc -from ..language_data import strings_to_exc -from ..language_data import EMOTICONS - -from .language_data import ORTH_ONLY - - -TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS) -TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES) -TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES) -TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES) -TAG_MAP = dict(language_data.TAG_MAP) -STOP_WORDS = set(language_data.STOP_WORDS) - - -update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS)) -update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY)) +from .language_data import * class French(Language): @@ -34,8 +17,4 @@ class French(Language): lex_attr_getters[LANG] = lambda text: 'fr' tokenizer_exceptions = TOKENIZER_EXCEPTIONS - prefixes = TOKENIZER_PREFIXES - suffixes = TOKENIZER_SUFFIXES - infixes = TOKENIZER_INFIXES - tag_map = TAG_MAP stop_words = STOP_WORDS diff --git a/spacy/fr/language_data.py b/spacy/fr/language_data.py index b35ecfd71..e612fe064 100644 --- a/spacy/fr/language_data.py +++ b/spacy/fr/language_data.py @@ -1,109 +1,14 @@ # encoding: utf8 from __future__ import unicode_literals -from ..symbols import * -from ..language_data import PRON_LEMMA -from ..language_data import TOKENIZER_PREFIXES -from ..language_data import TOKENIZER_SUFFIXES -from ..language_data import TOKENIZER_INFIXES +from .. import language_data as base +from ..language_data import strings_to_exc + +from .stop_words import STOP_WORDS -TAG_MAP = { - -} +TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS) +STOP_WORDS = set(STOP_WORDS) -STOP_WORDS = set(""" -a à â abord absolument afin ah ai aie ailleurs ainsi ait allaient allo allons -allô alors anterieur anterieure anterieures apres après as assez attendu au -aucun aucune aujourd aujourd'hui aupres auquel aura auraient aurait auront -aussi autre autrefois autrement autres autrui aux auxquelles auxquels avaient -avais avait avant avec avoir avons ayant - -bah bas basee bat beau beaucoup bien bigre boum bravo brrr - -ça car ce ceci cela celle celle-ci celle-là celles celles-ci celles-là celui -celui-ci celui-là cent cependant certain certaine certaines certains certes ces -cet cette ceux ceux-ci ceux-là chacun chacune chaque cher chers chez chiche -chut chère chères ci cinq cinquantaine cinquante cinquantième cinquième clac -clic combien comme comment comparable comparables compris concernant contre -couic crac - -da dans de debout dedans dehors deja delà depuis dernier derniere derriere -derrière des desormais desquelles desquels dessous dessus deux deuxième -deuxièmement devant devers devra different differentes differents différent -différente différentes différents dire directe directement dit dite dits divers -diverse diverses dix dix-huit dix-neuf dix-sept dixième doit doivent donc dont -douze douzième dring du duquel durant dès désormais - -effet egale egalement egales eh elle elle-même elles elles-mêmes en encore -enfin entre envers environ es ès est et etaient étaient etais étais etait était -etant étant etc été etre être eu euh eux eux-mêmes exactement excepté extenso -exterieur - -fais faisaient faisant fait façon feront fi flac floc font - -gens - -ha hein hem hep hi ho holà hop hormis hors hou houp hue hui huit huitième hum -hurrah hé hélas i il ils importe - -je jusqu jusque juste - -la laisser laquelle las le lequel les lesquelles lesquels leur leurs longtemps -lors lorsque lui lui-meme lui-même là lès - -ma maint maintenant mais malgre malgré maximale me meme memes merci mes mien -mienne miennes miens mille mince minimale moi moi-meme moi-même moindres moins -mon moyennant multiple multiples même mêmes - -na naturel naturelle naturelles ne neanmoins necessaire necessairement neuf -neuvième ni nombreuses nombreux non nos notamment notre nous nous-mêmes nouveau -nul néanmoins nôtre nôtres - -o ô oh ohé ollé olé on ont onze onzième ore ou ouf ouias oust ouste outre -ouvert ouverte ouverts où - -paf pan par parce parfois parle parlent parler parmi parseme partant -particulier particulière particulièrement pas passé pendant pense permet -personne peu peut peuvent peux pff pfft pfut pif pire plein plouf plus -plusieurs plutôt possessif possessifs possible possibles pouah pour pourquoi -pourrais pourrait pouvait prealable precisement premier première premièrement -pres probable probante procedant proche près psitt pu puis puisque pur pure - -qu quand quant quant-à-soi quanta quarante quatorze quatre quatre-vingt -quatrième quatrièmement que quel quelconque quelle quelles quelqu'un quelque -quelques quels qui quiconque quinze quoi quoique - -rare rarement rares relative relativement remarquable rend rendre restant reste -restent restrictif retour revoici revoilà rien - -sa sacrebleu sait sans sapristi sauf se sein seize selon semblable semblaient -semble semblent sent sept septième sera seraient serait seront ses seul seule -seulement si sien sienne siennes siens sinon six sixième soi soi-même soit -soixante son sont sous souvent specifique specifiques speculatif stop -strictement subtiles suffisant suffisante suffit suis suit suivant suivante -suivantes suivants suivre superpose sur surtout - -ta tac tant tardive te tel telle tellement telles tels tenant tend tenir tente -tes tic tien tienne tiennes tiens toc toi toi-même ton touchant toujours tous -tout toute toutefois toutes treize trente tres trois troisième troisièmement -trop très tsoin tsouin tu té - -un une unes uniformement unique uniques uns - -va vais vas vers via vif vifs vingt vivat vive vives vlan voici voilà vont vos -votre vous vous-mêmes vu vé vôtre vôtres - -zut -""".split()) - - -TOKENIZER_EXCEPTIONS = { - -} - - -ORTH_ONLY = { - -} +__all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"] diff --git a/spacy/fr/stop_words.py b/spacy/fr/stop_words.py new file mode 100644 index 000000000..52e4f6f0c --- /dev/null +++ b/spacy/fr/stop_words.py @@ -0,0 +1,88 @@ +# encoding: utf8 +from __future__ import unicode_literals + + +STOP_WORDS = set(""" +a à â abord absolument afin ah ai aie ailleurs ainsi ait allaient allo allons +allô alors anterieur anterieure anterieures apres après as assez attendu au +aucun aucune aujourd aujourd'hui aupres auquel aura auraient aurait auront +aussi autre autrefois autrement autres autrui aux auxquelles auxquels avaient +avais avait avant avec avoir avons ayant + +bah bas basee bat beau beaucoup bien bigre boum bravo brrr + +ça car ce ceci cela celle celle-ci celle-là celles celles-ci celles-là celui +celui-ci celui-là cent cependant certain certaine certaines certains certes ces +cet cette ceux ceux-ci ceux-là chacun chacune chaque cher chers chez chiche +chut chère chères ci cinq cinquantaine cinquante cinquantième cinquième clac +clic combien comme comment comparable comparables compris concernant contre +couic crac + +da dans de debout dedans dehors deja delà depuis dernier derniere derriere +derrière des desormais desquelles desquels dessous dessus deux deuxième +deuxièmement devant devers devra different differentes differents différent +différente différentes différents dire directe directement dit dite dits divers +diverse diverses dix dix-huit dix-neuf dix-sept dixième doit doivent donc dont +douze douzième dring du duquel durant dès désormais + +effet egale egalement egales eh elle elle-même elles elles-mêmes en encore +enfin entre envers environ es ès est et etaient étaient etais étais etait était +etant étant etc été etre être eu euh eux eux-mêmes exactement excepté extenso +exterieur + +fais faisaient faisant fait façon feront fi flac floc font + +gens + +ha hein hem hep hi ho holà hop hormis hors hou houp hue hui huit huitième hum +hurrah hé hélas i il ils importe + +je jusqu jusque juste + +la laisser laquelle las le lequel les lesquelles lesquels leur leurs longtemps +lors lorsque lui lui-meme lui-même là lès + +ma maint maintenant mais malgre malgré maximale me meme memes merci mes mien +mienne miennes miens mille mince minimale moi moi-meme moi-même moindres moins +mon moyennant multiple multiples même mêmes + +na naturel naturelle naturelles ne neanmoins necessaire necessairement neuf +neuvième ni nombreuses nombreux non nos notamment notre nous nous-mêmes nouveau +nul néanmoins nôtre nôtres + +o ô oh ohé ollé olé on ont onze onzième ore ou ouf ouias oust ouste outre +ouvert ouverte ouverts où + +paf pan par parce parfois parle parlent parler parmi parseme partant +particulier particulière particulièrement pas passé pendant pense permet +personne peu peut peuvent peux pff pfft pfut pif pire plein plouf plus +plusieurs plutôt possessif possessifs possible possibles pouah pour pourquoi +pourrais pourrait pouvait prealable precisement premier première premièrement +pres probable probante procedant proche près psitt pu puis puisque pur pure + +qu quand quant quant-à-soi quanta quarante quatorze quatre quatre-vingt +quatrième quatrièmement que quel quelconque quelle quelles quelqu'un quelque +quelques quels qui quiconque quinze quoi quoique + +rare rarement rares relative relativement remarquable rend rendre restant reste +restent restrictif retour revoici revoilà rien + +sa sacrebleu sait sans sapristi sauf se sein seize selon semblable semblaient +semble semblent sent sept septième sera seraient serait seront ses seul seule +seulement si sien sienne siennes siens sinon six sixième soi soi-même soit +soixante son sont sous souvent specifique specifiques speculatif stop +strictement subtiles suffisant suffisante suffit suis suit suivant suivante +suivantes suivants suivre superpose sur surtout + +ta tac tant tardive te tel telle tellement telles tels tenant tend tenir tente +tes tic tien tienne tiennes tiens toc toi toi-même ton touchant toujours tous +tout toute toutefois toutes treize trente tres trois troisième troisièmement +trop très tsoin tsouin tu té + +un une unes uniformement unique uniques uns + +va vais vas vers via vif vifs vingt vivat vive vives vlan voici voilà vont vos +votre vous vous-mêmes vu vé vôtre vôtres + +zut +""".split()) diff --git a/spacy/it/__init__.py b/spacy/it/__init__.py index cc3d9143f..2ef60fd94 100644 --- a/spacy/it/__init__.py +++ b/spacy/it/__init__.py @@ -4,26 +4,9 @@ from __future__ import unicode_literals, print_function from os import path from ..language import Language -from . import language_data from ..attrs import LANG -from ..language_data import update_exc -from ..language_data import strings_to_exc -from ..language_data import EMOTICONS - -from .language_data import ORTH_ONLY - - -TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS) -TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES) -TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES) -TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES) -TAG_MAP = dict(language_data.TAG_MAP) -STOP_WORDS = set(language_data.STOP_WORDS) - - -update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS)) -update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY)) +from .language_data import * class Italian(Language): @@ -34,8 +17,4 @@ class Italian(Language): lex_attr_getters[LANG] = lambda text: 'it' tokenizer_exceptions = TOKENIZER_EXCEPTIONS - prefixes = TOKENIZER_PREFIXES - suffixes = TOKENIZER_SUFFIXES - infixes = TOKENIZER_INFIXES - tag_map = TAG_MAP stop_words = STOP_WORDS diff --git a/spacy/it/language_data.py b/spacy/it/language_data.py index d47be449b..8683f83ac 100644 --- a/spacy/it/language_data.py +++ b/spacy/it/language_data.py @@ -1,106 +1,14 @@ # encoding: utf8 from __future__ import unicode_literals -from ..symbols import * -from ..language_data import PRON_LEMMA -from ..language_data import TOKENIZER_PREFIXES -from ..language_data import TOKENIZER_SUFFIXES -from ..language_data import TOKENIZER_INFIXES +from .. import language_data as base +from ..language_data import update_exc, strings_to_exc + +from .stop_words import STOP_WORDS -TAG_MAP = { - -} +TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS) +STOP_WORDS = set(STOP_WORDS) -STOP_WORDS = set(""" -a abbastanza abbia abbiamo abbiano abbiate accidenti ad adesso affinche agl -agli ahime ahimè ai al alcuna alcuni alcuno all alla alle allo allora altri -altrimenti altro altrove altrui anche ancora anni anno ansa anticipo assai -attesa attraverso avanti avemmo avendo avente aver avere averlo avesse -avessero avessi avessimo aveste avesti avete aveva avevamo avevano avevate -avevi avevo avrai avranno avrebbe avrebbero avrei avremmo avremo avreste -avresti avrete avrà avrò avuta avute avuti avuto - -basta bene benissimo brava bravo - -casa caso cento certa certe certi certo che chi chicchessia chiunque ci -ciascuna ciascuno cima cio cioe circa citta città co codesta codesti codesto -cogli coi col colei coll coloro colui come cominci comunque con concernente -conciliarsi conclusione consiglio contro cortesia cos cosa cosi così cui - -da dagl dagli dai dal dall dalla dalle dallo dappertutto davanti degl degli -dei del dell della delle dello dentro detto deve di dice dietro dire -dirimpetto diventa diventare diventato dopo dov dove dovra dovrà dovunque due -dunque durante - -ebbe ebbero ebbi ecc ecco ed effettivamente egli ella entrambi eppure era -erano eravamo eravate eri ero esempio esse essendo esser essere essi ex - -fa faccia facciamo facciano facciate faccio facemmo facendo facesse facessero -facessi facessimo faceste facesti faceva facevamo facevano facevate facevi -facevo fai fanno farai faranno fare farebbe farebbero farei faremmo faremo -fareste faresti farete farà farò fatto favore fece fecero feci fin finalmente -finche fine fino forse forza fosse fossero fossi fossimo foste fosti fra -frattempo fu fui fummo fuori furono futuro generale - -gia già giacche giorni giorno gli gliela gliele glieli glielo gliene governo -grande grazie gruppo - -ha haha hai hanno ho - -ieri il improvviso in inc infatti inoltre insieme intanto intorno invece io - -la là lasciato lato lavoro le lei li lo lontano loro lui lungo luogo - -ma macche magari maggior mai male malgrado malissimo mancanza marche me -medesimo mediante meglio meno mentre mesi mezzo mi mia mie miei mila miliardi -milioni minimi ministro mio modo molti moltissimo molto momento mondo mosto - -nazionale ne negl negli nei nel nell nella nelle nello nemmeno neppure nessun -nessuna nessuno niente no noi non nondimeno nonostante nonsia nostra nostre -nostri nostro novanta nove nulla nuovo - -od oggi ogni ognuna ognuno oltre oppure ora ore osi ossia ottanta otto - -paese parecchi parecchie parecchio parte partendo peccato peggio per perche -perché percio perciò perfino pero persino persone però piedi pieno piglia piu -piuttosto più po pochissimo poco poi poiche possa possedere posteriore posto -potrebbe preferibilmente presa press prima primo principalmente probabilmente -proprio puo può pure purtroppo - -qualche qualcosa qualcuna qualcuno quale quali qualunque quando quanta quante -quanti quanto quantunque quasi quattro quel quella quelle quelli quello quest -questa queste questi questo qui quindi - -realmente recente recentemente registrazione relativo riecco salvo - -sara sarà sarai saranno sarebbe sarebbero sarei saremmo saremo sareste -saresti sarete saro sarò scola scopo scorso se secondo seguente seguito sei -sembra sembrare sembrato sembri sempre senza sette si sia siamo siano siate -siete sig solito solo soltanto sono sopra sotto spesso srl sta stai stando -stanno starai staranno starebbe starebbero starei staremmo staremo stareste -staresti starete starà starò stata state stati stato stava stavamo stavano -stavate stavi stavo stemmo stessa stesse stessero stessi stessimo stesso -steste stesti stette stettero stetti stia stiamo stiano stiate sto su sua -subito successivamente successivo sue sugl sugli sui sul sull sulla sulle -sullo suo suoi - -tale tali talvolta tanto te tempo ti titolo torino tra tranne tre trenta -troppo trovato tu tua tue tuo tuoi tutta tuttavia tutte tutti tutto - -uguali ulteriore ultimo un una uno uomo - -va vale vari varia varie vario verso vi via vicino visto vita voi volta volte -vostra vostre vostri vostro -""".split()) - - -TOKENIZER_EXCEPTIONS = { - -} - - -ORTH_ONLY = { - -} +__all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"] diff --git a/spacy/it/stop_words.py b/spacy/it/stop_words.py new file mode 100644 index 000000000..cf5697514 --- /dev/null +++ b/spacy/it/stop_words.py @@ -0,0 +1,85 @@ +# encoding: utf8 +from __future__ import unicode_literals + + +STOP_WORDS = set(""" +a abbastanza abbia abbiamo abbiano abbiate accidenti ad adesso affinche agl +agli ahime ahimè ai al alcuna alcuni alcuno all alla alle allo allora altri +altrimenti altro altrove altrui anche ancora anni anno ansa anticipo assai +attesa attraverso avanti avemmo avendo avente aver avere averlo avesse +avessero avessi avessimo aveste avesti avete aveva avevamo avevano avevate +avevi avevo avrai avranno avrebbe avrebbero avrei avremmo avremo avreste +avresti avrete avrà avrò avuta avute avuti avuto + +basta bene benissimo brava bravo + +casa caso cento certa certe certi certo che chi chicchessia chiunque ci +ciascuna ciascuno cima cio cioe circa citta città co codesta codesti codesto +cogli coi col colei coll coloro colui come cominci comunque con concernente +conciliarsi conclusione consiglio contro cortesia cos cosa cosi così cui + +da dagl dagli dai dal dall dalla dalle dallo dappertutto davanti degl degli +dei del dell della delle dello dentro detto deve di dice dietro dire +dirimpetto diventa diventare diventato dopo dov dove dovra dovrà dovunque due +dunque durante + +ebbe ebbero ebbi ecc ecco ed effettivamente egli ella entrambi eppure era +erano eravamo eravate eri ero esempio esse essendo esser essere essi ex + +fa faccia facciamo facciano facciate faccio facemmo facendo facesse facessero +facessi facessimo faceste facesti faceva facevamo facevano facevate facevi +facevo fai fanno farai faranno fare farebbe farebbero farei faremmo faremo +fareste faresti farete farà farò fatto favore fece fecero feci fin finalmente +finche fine fino forse forza fosse fossero fossi fossimo foste fosti fra +frattempo fu fui fummo fuori furono futuro generale + +gia già giacche giorni giorno gli gliela gliele glieli glielo gliene governo +grande grazie gruppo + +ha haha hai hanno ho + +ieri il improvviso in inc infatti inoltre insieme intanto intorno invece io + +la là lasciato lato lavoro le lei li lo lontano loro lui lungo luogo + +ma macche magari maggior mai male malgrado malissimo mancanza marche me +medesimo mediante meglio meno mentre mesi mezzo mi mia mie miei mila miliardi +milioni minimi ministro mio modo molti moltissimo molto momento mondo mosto + +nazionale ne negl negli nei nel nell nella nelle nello nemmeno neppure nessun +nessuna nessuno niente no noi non nondimeno nonostante nonsia nostra nostre +nostri nostro novanta nove nulla nuovo + +od oggi ogni ognuna ognuno oltre oppure ora ore osi ossia ottanta otto + +paese parecchi parecchie parecchio parte partendo peccato peggio per perche +perché percio perciò perfino pero persino persone però piedi pieno piglia piu +piuttosto più po pochissimo poco poi poiche possa possedere posteriore posto +potrebbe preferibilmente presa press prima primo principalmente probabilmente +proprio puo può pure purtroppo + +qualche qualcosa qualcuna qualcuno quale quali qualunque quando quanta quante +quanti quanto quantunque quasi quattro quel quella quelle quelli quello quest +questa queste questi questo qui quindi + +realmente recente recentemente registrazione relativo riecco salvo + +sara sarà sarai saranno sarebbe sarebbero sarei saremmo saremo sareste +saresti sarete saro sarò scola scopo scorso se secondo seguente seguito sei +sembra sembrare sembrato sembri sempre senza sette si sia siamo siano siate +siete sig solito solo soltanto sono sopra sotto spesso srl sta stai stando +stanno starai staranno starebbe starebbero starei staremmo staremo stareste +staresti starete starà starò stata state stati stato stava stavamo stavano +stavate stavi stavo stemmo stessa stesse stessero stessi stessimo stesso +steste stesti stette stettero stetti stia stiamo stiano stiate sto su sua +subito successivamente successivo sue sugl sugli sui sul sull sulla sulle +sullo suo suoi + +tale tali talvolta tanto te tempo ti titolo torino tra tranne tre trenta +troppo trovato tu tua tue tuo tuoi tutta tuttavia tutte tutti tutto + +uguali ulteriore ultimo un una uno uomo + +va vale vari varia varie vario verso vi via vicino visto vita voi volta volte +vostra vostre vostri vostro +""".split()) diff --git a/spacy/language_data/__init__.py b/spacy/language_data/__init__.py index 3aba785c2..f6aa4317c 100644 --- a/spacy/language_data/__init__.py +++ b/spacy/language_data/__init__.py @@ -1,4 +1,5 @@ from .emoticons import * from .punctuation import * +from .tag_map import * from .entity_rules import * from .util import * diff --git a/spacy/nl/__init__.py b/spacy/nl/__init__.py index 9c6d4af7d..d958783ea 100644 --- a/spacy/nl/__init__.py +++ b/spacy/nl/__init__.py @@ -4,39 +4,16 @@ from __future__ import unicode_literals, print_function from os import path from ..language import Language -from . import language_data from ..attrs import LANG - -from ..language_data import update_exc -from ..language_data import strings_to_exc -from ..language_data import EMOTICONS - -from .language_data import ORTH_ONLY - - -TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS) -TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES) -TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES) -TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES) -TAG_MAP = dict(language_data.TAG_MAP) -STOP_WORDS = set(language_data.STOP_WORDS) - - -update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS)) -update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY)) +from .language_data import * class Dutch(Language): lang = 'nl' class Defaults(Language.Defaults): - tokenizer_exceptions = dict(language_data.TOKENIZER_EXCEPTIONS) lex_attr_getters = dict(Language.Defaults.lex_attr_getters) lex_attr_getters[LANG] = lambda text: 'nl' tokenizer_exceptions = TOKENIZER_EXCEPTIONS - prefixes = TOKENIZER_PREFIXES - suffixes = TOKENIZER_SUFFIXES - infixes = TOKENIZER_INFIXES - tag_map = TAG_MAP stop_words = STOP_WORDS diff --git a/spacy/nl/language_data.py b/spacy/nl/language_data.py index 7fa3b247d..8683f83ac 100644 --- a/spacy/nl/language_data.py +++ b/spacy/nl/language_data.py @@ -1,83 +1,14 @@ # encoding: utf8 from __future__ import unicode_literals -from ..symbols import * -from ..language_data import PRON_LEMMA -from ..language_data import TOKENIZER_PREFIXES -from ..language_data import TOKENIZER_SUFFIXES -from ..language_data import TOKENIZER_INFIXES +from .. import language_data as base +from ..language_data import update_exc, strings_to_exc + +from .stop_words import STOP_WORDS -# TODO insert TAG_MAP for Dutch - -TAG_MAP = { - "ADV": {POS: ADV}, - "NOUN": {POS: NOUN}, - "ADP": {POS: ADP}, - "PRON": {POS: PRON}, - "SCONJ": {POS: SCONJ}, - "PROPN": {POS: PROPN}, - "DET": {POS: DET}, - "SYM": {POS: SYM}, - "INTJ": {POS: INTJ}, - "PUNCT": {POS: PUNCT}, - "NUM": {POS: NUM}, - "AUX": {POS: AUX}, - "X": {POS: X}, - "CONJ": {POS: CONJ}, - "ADJ": {POS: ADJ}, - "VERB": {POS: VERB} -} +TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS) +STOP_WORDS = set(STOP_WORDS) -# Stop words are retrieved from http://www.damienvanholten.com/downloads/dutch-stop-words.txt - -STOP_WORDS = set(""" -aan af al alles als altijd andere - -ben bij - -daar dan dat de der deze die dit doch doen door dus - -een eens en er - -ge geen geweest - -haar had heb hebben heeft hem het hier hij hoe hun - -iemand iets ik in is - -ja je - -kan kon kunnen - -maar me meer men met mij mijn moet - -na naar niet niets nog nu - -of om omdat ons ook op over - -reeds - -te tegen toch toen tot - -u uit uw - -van veel voor - -want waren was wat we wel werd wezen wie wij wil worden - -zal ze zei zelf zich zij zijn zo zonder zou -""".split()) - - -# TODO Make tokenizer excpetions for Dutch - -TOKENIZER_EXCEPTIONS = { - -} - - -ORTH_ONLY = { - -} +__all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"] diff --git a/spacy/nl/stop_words.py b/spacy/nl/stop_words.py new file mode 100644 index 000000000..bef6871b2 --- /dev/null +++ b/spacy/nl/stop_words.py @@ -0,0 +1,43 @@ +# encoding: utf8 +from __future__ import unicode_literals + + +# Stop words are retrieved from http://www.damienvanholten.com/downloads/dutch-stop-words.txt + +STOP_WORDS = set(""" +aan af al alles als altijd andere + +ben bij + +daar dan dat de der deze die dit doch doen door dus + +een eens en er + +ge geen geweest + +haar had heb hebben heeft hem het hier hij hoe hun + +iemand iets ik in is + +ja je + +kan kon kunnen + +maar me meer men met mij mijn moet + +na naar niet niets nog nu + +of om omdat ons ook op over + +reeds + +te tegen toch toen tot + +u uit uw + +van veel voor + +want waren was wat we wel werd wezen wie wij wil worden + +zal ze zei zelf zich zij zijn zo zonder zou +""".split()) diff --git a/spacy/pt/__init__.py b/spacy/pt/__init__.py index 5381b1926..06c6417dc 100644 --- a/spacy/pt/__init__.py +++ b/spacy/pt/__init__.py @@ -4,26 +4,9 @@ from __future__ import unicode_literals, print_function from os import path from ..language import Language -from . import language_data from ..attrs import LANG -from ..language_data import update_exc -from ..language_data import strings_to_exc -from ..language_data import EMOTICONS - -from .language_data import ORTH_ONLY - - -TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS) -TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES) -TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES) -TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES) -TAG_MAP = dict(language_data.TAG_MAP) -STOP_WORDS = set(language_data.STOP_WORDS) - - -update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS)) -update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY)) +from .language_data import * class Portuguese(Language): @@ -34,8 +17,4 @@ class Portuguese(Language): lex_attr_getters[LANG] = lambda text: 'pt' tokenizer_exceptions = TOKENIZER_EXCEPTIONS - prefixes = TOKENIZER_PREFIXES - suffixes = TOKENIZER_SUFFIXES - infixes = TOKENIZER_INFIXES - tag_map = TAG_MAP stop_words = STOP_WORDS diff --git a/spacy/pt/language_data.py b/spacy/pt/language_data.py index a7379615c..8683f83ac 100644 --- a/spacy/pt/language_data.py +++ b/spacy/pt/language_data.py @@ -1,87 +1,14 @@ # encoding: utf8 from __future__ import unicode_literals -from ..symbols import * -from ..language_data import PRON_LEMMA -from ..language_data import TOKENIZER_PREFIXES -from ..language_data import TOKENIZER_SUFFIXES -from ..language_data import TOKENIZER_INFIXES +from .. import language_data as base +from ..language_data import update_exc, strings_to_exc + +from .stop_words import STOP_WORDS -TAG_MAP = { - -} +TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS) +STOP_WORDS = set(STOP_WORDS) -STOP_WORDS = set(""" -à às acerca adeus agora ainda algmas algo algumas alguns ali além ambos ano -anos antes ao aos apenas apoio apontar após aquela aquelas aquele aqueles aqui -aquilo area área as assim através atrás até aí - -baixo bastante bem bom breve - -cada caminho catorze cedo cento certamente certeza cima cinco coisa com como -comprido conhecido conselho contra corrente custa cá - -da daquela daquele dar das de debaixo demais dentro depois desde desligado -dessa desse desta deste deve devem deverá dez dezanove dezasseis dezassete -dezoito dia diante direita diz dizem dizer do dois dos doze duas dá dão dúvida - -é ela elas ele eles em embora enquanto entre então era és essa essas esse esses -esta estado estar estará estas estava este estes esteve estive estivemos -estiveram estiveste estivestes estou está estás estão eu exemplo - -falta fará favor faz fazeis fazem fazemos fazer fazes fazia faço fez fim final -foi fomos for fora foram forma foste fostes fui - -geral grande grandes grupo - -hoje horas há - -iniciar inicio ir irá isso ista iste isto já - -lado ligado local logo longe lugar lá - -maior maioria maiorias mais mal mas me meio menor menos meses mesmo meu meus -mil minha minhas momento muito muitos máximo mês - -na nada naquela naquele nas nem nenhuma nessa nesse nesta neste no noite nome -nos nossa nossas nosso nossos nova nove novo novos num numa nunca não nível nós -número - -obra obrigada obrigado oitava oitavo oito onde ontem onze os ou outra outras -outro outros - -para parece parte partir pegar pela pelas pelo pelos perto pessoas pode podem -poder poderá podia ponto pontos por porque porquê posição possivelmente posso -possível pouca pouco povo primeira primeiro promeiro próprio próximo puderam -pôde põe põem - -qual qualquer quando quanto quarta quarto quatro que quem quer quero questão -quieto quinta quinto quinze quê relação - -sabe saber se segunda segundo sei seis sem sempre ser seria sete seu seus sexta -sexto sim sistema sob sobre sois somente somos sou sua suas são sétima sétimo - -tal talvez também tanto tarde te tem temos tempo tendes tenho tens tentar -tentaram tente tentei ter terceira terceiro teu teus teve tipo tive tivemos -tiveram tiveste tivestes toda todas todo todos trabalhar trabalho treze três tu -tua tuas tudo tão têm - -último um uma umas uns usa usar - -vai vais valor veja vem vens ver verdade verdadeiro vez vezes viagem vindo -vinte você vocês vos vossa vossas vosso vossos vários vão vêm vós - -zero -""".split()) - - -TOKENIZER_EXCEPTIONS = { - -} - - -ORTH_ONLY = { - -} +__all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"] diff --git a/spacy/pt/stop_words.py b/spacy/pt/stop_words.py new file mode 100644 index 000000000..d0008457c --- /dev/null +++ b/spacy/pt/stop_words.py @@ -0,0 +1,66 @@ +# encoding: utf8 +from __future__ import unicode_literals + + +STOP_WORDS = set(""" +à às acerca adeus agora ainda algmas algo algumas alguns ali além ambos ano +anos antes ao aos apenas apoio apontar após aquela aquelas aquele aqueles aqui +aquilo area área as assim através atrás até aí + +baixo bastante bem bom breve + +cada caminho catorze cedo cento certamente certeza cima cinco coisa com como +comprido conhecido conselho contra corrente custa cá + +da daquela daquele dar das de debaixo demais dentro depois desde desligado +dessa desse desta deste deve devem deverá dez dezanove dezasseis dezassete +dezoito dia diante direita diz dizem dizer do dois dos doze duas dá dão dúvida + +é ela elas ele eles em embora enquanto entre então era és essa essas esse esses +esta estado estar estará estas estava este estes esteve estive estivemos +estiveram estiveste estivestes estou está estás estão eu exemplo + +falta fará favor faz fazeis fazem fazemos fazer fazes fazia faço fez fim final +foi fomos for fora foram forma foste fostes fui + +geral grande grandes grupo + +hoje horas há + +iniciar inicio ir irá isso ista iste isto já + +lado ligado local logo longe lugar lá + +maior maioria maiorias mais mal mas me meio menor menos meses mesmo meu meus +mil minha minhas momento muito muitos máximo mês + +na nada naquela naquele nas nem nenhuma nessa nesse nesta neste no noite nome +nos nossa nossas nosso nossos nova nove novo novos num numa nunca não nível nós +número + +obra obrigada obrigado oitava oitavo oito onde ontem onze os ou outra outras +outro outros + +para parece parte partir pegar pela pelas pelo pelos perto pessoas pode podem +poder poderá podia ponto pontos por porque porquê posição possivelmente posso +possível pouca pouco povo primeira primeiro promeiro próprio próximo puderam +pôde põe põem + +qual qualquer quando quanto quarta quarto quatro que quem quer quero questão +quieto quinta quinto quinze quê relação + +sabe saber se segunda segundo sei seis sem sempre ser seria sete seu seus sexta +sexto sim sistema sob sobre sois somente somos sou sua suas são sétima sétimo + +tal talvez também tanto tarde te tem temos tempo tendes tenho tens tentar +tentaram tente tentei ter terceira terceiro teu teus teve tipo tive tivemos +tiveram tiveste tivestes toda todas todo todos trabalhar trabalho treze três tu +tua tuas tudo tão têm + +último um uma umas uns usa usar + +vai vais valor veja vem vens ver verdade verdadeiro vez vezes viagem vindo +vinte você vocês vos vossa vossas vosso vossos vários vão vêm vós + +zero +""".split())