Reorganise language data

2016-12-18 16:54:19 +01:00 · 2016-12-18 16:54:19 +01:00 · 2b2ea8ca11
parent 32b36c3882
commit 2b2ea8ca11
21 changed files with 760 additions and 927 deletions
--- a/spacy/de/init.py
+++ b/spacy/de/init.py
@ -5,25 +5,8 @@ from os import path

 from ..language import Language
 from ..attrs import LANG
-from . import language_data

-from ..language_data import update_exc
-from ..language_data import strings_to_exc
-from ..language_data import EMOTICONS
-
-from .language_data import ORTH_ONLY
-
-
-TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS)
-TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES)
-TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES)
-TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES)
-TAG_MAP = dict(language_data.TAG_MAP)
-STOP_WORDS = set(language_data.STOP_WORDS)
-
-
-update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS))
-update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
+from .language_data import *


 class German(Language):
@ -35,8 +18,5 @@ class German(Language):
        lex_attr_getters[LANG] = lambda text: 'de'

        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
-        prefixes = TOKENIZER_PREFIXES
-        suffixes = TOKENIZER_SUFFIXES
-        infixes = TOKENIZER_INFIXES
        tag_map = TAG_MAP
        stop_words = STOP_WORDS
--- a/spacy/de/language_data.py
+++ b/spacy/de/language_data.py
@ -1,12 +1,21 @@
 # encoding: utf8
 from __future__ import unicode_literals

-from ..symbols import *
-from ..language_data import PRON_LEMMA
-from ..language_data import TOKENIZER_PREFIXES
-from ..language_data import TOKENIZER_SUFFIXES
-from ..language_data import TOKENIZER_INFIXES
+from .. import language_data as base
+from ..language_data import update_exc, strings_to_exc

 from .tag_map import TAG_MAP
 from .stop_words import STOP_WORDS
 from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS, ORTH_ONLY
+
+
+TOKENIZER_EXCEPTIONS = dict(TOKENIZER_EXCEPTIONS)
+TAG_MAP = dict(TAG_MAP)
+STOP_WORDS = set(STOP_WORDS)
+
+
+update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
+update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.EMOTICONS))
+
+
+__all__ = ["TOKENIZER_EXCEPTIONS", "TAG_MAP", "STOP_WORDS"]
--- a/spacy/en/init.py
+++ b/spacy/en/init.py
@ -4,35 +4,12 @@ from __future__ import unicode_literals, print_function
 from os import path

 from ..language import Language
-from . import language_data
-from .. import util
 from ..lemmatizer import Lemmatizer
 from ..vocab import Vocab
 from ..tokenizer import Tokenizer
 from ..attrs import LANG

-from ..language_data import update_exc
-from ..language_data import strings_to_exc
-from ..language_data import expand_exc
-from ..language_data import EMOTICONS
-
-from .language_data import ORTH_ONLY
-from .language_data import get_time_exc
-
-
-TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS)
-TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES)
-TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES)
-TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES)
-TAG_MAP = dict(language_data.TAG_MAP)
-STOP_WORDS = set(language_data.STOP_WORDS)
-
-
-update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS))
-update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
-update_exc(TOKENIZER_EXCEPTIONS, get_time_exc(range(1, 12 + 1)))
-update_exc(TOKENIZER_EXCEPTIONS, expand_exc(TOKENIZER_EXCEPTIONS, "'", "’"))
-
+from .language_data import *

 class English(Language):
    lang = 'en'
@ -42,8 +19,5 @@ class English(Language):
        lex_attr_getters[LANG] = lambda text: 'en'

        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
-        prefixes = TOKENIZER_PREFIXES
-        suffixes = TOKENIZER_SUFFIXES
-        infixes = TOKENIZER_INFIXES
        tag_map = TAG_MAP
        stop_words = STOP_WORDS
--- a/spacy/en/language_data.py
+++ b/spacy/en/language_data.py
@ -1,13 +1,9 @@
 # encoding: utf8
 from __future__ import unicode_literals

-from ..symbols import *
-from ..language_data import PRON_LEMMA
-from ..language_data import ENT_ID
-from ..language_data import TOKENIZER_PREFIXES
-from ..language_data import TOKENIZER_SUFFIXES
-from ..language_data import TOKENIZER_INFIXES
-from ..language_data import ENTITY_RULES, FALSE_POSITIVES
+from .. import language_data as base
+from ..language_data import update_exc, strings_to_exc, expand_exc
+from ..symbols import ORTH, LEMMA

 from .tag_map import TAG_MAP
 from .stop_words import STOP_WORDS
@ -39,3 +35,17 @@ def get_time_exc(hours):
            {ORTH: "pm", LEMMA: "p.m."}
        ]
    return exc
+
+
+TOKENIZER_EXCEPTIONS = dict(TOKENIZER_EXCEPTIONS)
+TAG_MAP = dict(TAG_MAP)
+STOP_WORDS = set(STOP_WORDS)
+
+
+update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
+update_exc(TOKENIZER_EXCEPTIONS, get_time_exc(range(1, 12 + 1)))
+update_exc(TOKENIZER_EXCEPTIONS, expand_exc(TOKENIZER_EXCEPTIONS, "'", "’"))
+update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.EMOTICONS))
+
+
+__all__ = ["TOKENIZER_EXCEPTIONS", "TAG_MAP", "STOP_WORDS", "LEMMA_RULES", "MORPH_RULES"]
--- a/spacy/es/init.py
+++ b/spacy/es/init.py
@ -4,26 +4,9 @@ from __future__ import unicode_literals, print_function
 from os import path

 from ..language import Language
-from . import language_data
 from ..attrs import LANG

-from ..language_data import update_exc
-from ..language_data import strings_to_exc
-from ..language_data import EMOTICONS
-
-from .language_data import ORTH_ONLY
-
-
-TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS)
-TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES)
-TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES)
-TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES)
-TAG_MAP = dict(language_data.TAG_MAP)
-STOP_WORDS = set(language_data.STOP_WORDS)
-
-
-update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS))
-update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
+from .language_data import *


 class Spanish(Language):
@ -34,8 +17,4 @@ class Spanish(Language):
        lex_attr_getters[LANG] = lambda text: 'es'

        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
-        prefixes = TOKENIZER_PREFIXES
-        suffixes = TOKENIZER_SUFFIXES
-        infixes = TOKENIZER_INFIXES
-        tag_map = TAG_MAP
        stop_words = STOP_WORDS
--- a/spacy/es/language_data.py
+++ b/spacy/es/language_data.py
@ -1,408 +1,19 @@
 # encoding: utf8
 from __future__ import unicode_literals

-from ..symbols import *
-from ..language_data import PRON_LEMMA
-from ..language_data import TOKENIZER_PREFIXES
-from ..language_data import TOKENIZER_SUFFIXES
-from ..language_data import TOKENIZER_INFIXES
+from .. import language_data as base
+from ..language_data import update_exc, strings_to_exc

+from .stop_words import STOP_WORDS
+from .tokenizer_exceptions import TOKENIZER_EXCEPTIONS, ORTH_ONLY

-TAG_MAP = {

-}
+TOKENIZER_EXCEPTIONS = dict(TOKENIZER_EXCEPTIONS)
+STOP_WORDS = set(STOP_WORDS)


-STOP_WORDS = set("""
-actualmente acuerdo adelante ademas además adrede afirmó agregó ahi ahora ahí
-al algo alguna algunas alguno algunos algún alli allí alrededor ambos ampleamos
-antano antaño ante anterior antes apenas aproximadamente aquel aquella aquellas
-aquello aquellos aqui aquél aquélla aquéllas aquéllos aquí arriba arribaabajo
-aseguró asi así atras aun aunque ayer añadió aún
+update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
+update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(base.EMOTICONS))

-bajo bastante bien breve buen buena buenas bueno buenos

-cada casi cerca cierta ciertas cierto ciertos cinco claro comentó como con
-conmigo conocer conseguimos conseguir considera consideró consigo consigue
-consiguen consigues contigo contra cosas creo cual cuales cualquier cuando
-cuanta cuantas cuanto cuantos cuatro cuenta cuál cuáles cuándo cuánta cuántas
-cuánto cuántos cómo
-
-da dado dan dar de debajo debe deben debido decir dejó del delante demasiado
-demás dentro deprisa desde despacio despues después detras detrás dia dias dice
-dicen dicho dieron diferente diferentes dijeron dijo dio donde dos durante día
-días dónde
-
-ejemplo el ella ellas ello ellos embargo empleais emplean emplear empleas
-empleo en encima encuentra enfrente enseguida entonces entre era eramos eran
-eras eres es esa esas ese eso esos esta estaba estaban estado estados estais
-estamos estan estar estará estas este esto estos estoy estuvo está están ex
-excepto existe existen explicó expresó él ésa ésas ése ésos ésta éstas éste
-éstos
-
-fin final fue fuera fueron fui fuimos
-
-general gran grandes gueno
-
-ha haber habia habla hablan habrá había habían hace haceis hacemos hacen hacer
-hacerlo haces hacia haciendo hago han hasta hay haya he hecho hemos hicieron
-hizo horas hoy hubo
-
-igual incluso indicó informo informó intenta intentais intentamos intentan
-intentar intentas intento ir
-
-junto
-
-la lado largo las le lejos les llegó lleva llevar lo los luego lugar
-
-mal manera manifestó mas mayor me mediante medio mejor mencionó menos menudo mi
-mia mias mientras mio mios mis misma mismas mismo mismos modo momento mucha
-muchas mucho muchos muy más mí mía mías mío míos
-
-nada nadie ni ninguna ningunas ninguno ningunos ningún no nos nosotras nosotros
-nuestra nuestras nuestro nuestros nueva nuevas nuevo nuevos nunca
-
-ocho os otra otras otro otros
-
-pais para parece parte partir pasada pasado paìs peor pero pesar poca pocas
-poco pocos podeis podemos poder podria podriais podriamos podrian podrias podrá
-podrán podría podrían poner por porque posible primer primera primero primeros
-principalmente pronto propia propias propio propios proximo próximo próximos
-pudo pueda puede pueden puedo pues
-
-qeu que quedó queremos quien quienes quiere quiza quizas quizá quizás quién quiénes qué
-
-raras realizado realizar realizó repente respecto
-
-sabe sabeis sabemos saben saber sabes salvo se sea sean segun segunda segundo
-según seis ser sera será serán sería señaló si sido siempre siendo siete sigue
-siguiente sin sino sobre sois sola solamente solas solo solos somos son soy
-soyos su supuesto sus suya suyas suyo sé sí sólo
-
-tal tambien también tampoco tan tanto tarde te temprano tendrá tendrán teneis
-tenemos tener tenga tengo tenido tenía tercera ti tiempo tiene tienen toda
-todas todavia todavía todo todos total trabaja trabajais trabajamos trabajan
-trabajar trabajas trabajo tras trata través tres tu tus tuvo tuya tuyas tuyo
-tuyos tú
-
-ultimo un una unas uno unos usa usais usamos usan usar usas uso usted ustedes
-última últimas último últimos
-
-va vais valor vamos van varias varios vaya veces ver verdad verdadera verdadero
-vez vosotras vosotros voy vuestra vuestras vuestro vuestros
-
-ya yo
-""".split())
-
-
-TOKENIZER_EXCEPTIONS = {
-    "accidentarse": [
-        {ORTH: "accidentar", LEMMA: "accidentar", POS: AUX},
-        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "aceptarlo": [
-        {ORTH: "aceptar", LEMMA: "aceptar", POS: AUX},
-        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "acompañarla": [
-        {ORTH: "acompañar", LEMMA: "acompañar", POS: AUX},
-        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "advertirle": [
-        {ORTH: "advertir", LEMMA: "advertir", POS: AUX},
-        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "al": [
-        {ORTH: "a", LEMMA: "a", POS: ADP},
-        {ORTH: "el", LEMMA: "el", POS: DET}
-    ],
-
-    "anunciarnos": [
-        {ORTH: "anunciar", LEMMA: "anunciar", POS: AUX},
-        {ORTH: "nos", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "asegurándole": [
-        {ORTH: "asegurando", LEMMA: "asegurar", POS: AUX},
-        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "considerarle": [
-        {ORTH: "considerar", LEMMA: "considerar", POS: AUX},
-        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "decirle": [
-        {ORTH: "decir", LEMMA: "decir", POS: AUX},
-        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "decirles": [
-        {ORTH: "decir", LEMMA: "decir", POS: AUX},
-        {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "decirte": [
-        {ORTH: "Decir", LEMMA: "decir", POS: AUX},
-        {ORTH: "te", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "dejarla": [
-        {ORTH: "dejar", LEMMA: "dejar", POS: AUX},
-        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "dejarnos": [
-        {ORTH: "dejar", LEMMA: "dejar", POS: AUX},
-        {ORTH: "nos", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "dejándole": [
-        {ORTH: "dejando", LEMMA: "dejar", POS: AUX},
-        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "del": [
-        {ORTH: "de", LEMMA: "de", POS: ADP},
-        {ORTH: "el", LEMMA: "el", POS: DET}
-    ],
-
-    "demostrarles": [
-        {ORTH: "demostrar", LEMMA: "demostrar", POS: AUX},
-        {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "diciéndole": [
-        {ORTH: "diciendo", LEMMA: "decir", POS: AUX},
-        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "diciéndoles": [
-        {ORTH: "diciendo", LEMMA: "decir", POS: AUX},
-        {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "diferenciarse": [
-        {ORTH: "diferenciar", LEMMA: "diferenciar", POS: AUX},
-        {ORTH: "se", LEMMA: "él", POS: PRON}
-    ],
-
-    "divirtiéndome": [
-        {ORTH: "divirtiendo", LEMMA: "divertir", POS: AUX},
-        {ORTH: "me", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "ensanchándose": [
-        {ORTH: "ensanchando", LEMMA: "ensanchar", POS: AUX},
-        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "explicarles": [
-        {ORTH: "explicar", LEMMA: "explicar", POS: AUX},
-        {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "haberla": [
-        {ORTH: "haber", LEMMA: "haber", POS: AUX},
-        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "haberlas": [
-        {ORTH: "haber", LEMMA: "haber", POS: AUX},
-        {ORTH: "las", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "haberlo": [
-        {ORTH: "haber", LEMMA: "haber", POS: AUX},
-        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "haberlos": [
-        {ORTH: "haber", LEMMA: "haber", POS: AUX},
-        {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "haberme": [
-        {ORTH: "haber", LEMMA: "haber", POS: AUX},
-        {ORTH: "me", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "haberse": [
-        {ORTH: "haber", LEMMA: "haber", POS: AUX},
-        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "hacerle": [
-        {ORTH: "hacer", LEMMA: "hacer", POS: AUX},
-        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "hacerles": [
-        {ORTH: "hacer", LEMMA: "hacer", POS: AUX},
-        {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "hallarse": [
-        {ORTH: "hallar", LEMMA: "hallar", POS: AUX},
-        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "imaginaros": [
-        {ORTH: "imaginar", LEMMA: "imaginar", POS: AUX},
-        {ORTH: "os", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "insinuarle": [
-        {ORTH: "insinuar", LEMMA: "insinuar", POS: AUX},
-        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "justificarla": [
-        {ORTH: "justificar", LEMMA: "justificar", POS: AUX},
-        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "mantenerlas": [
-        {ORTH: "mantener", LEMMA: "mantener", POS: AUX},
-        {ORTH: "las", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "mantenerlos": [
-        {ORTH: "mantener", LEMMA: "mantener", POS: AUX},
-        {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "mantenerme": [
-        {ORTH: "mantener", LEMMA: "mantener", POS: AUX},
-        {ORTH: "me", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "pasarte": [
-        {ORTH: "pasar", LEMMA: "pasar", POS: AUX},
-        {ORTH: "te", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "pedirle": [
-        {ORTH: "pedir", LEMMA: "pedir", POS: AUX},
-        {ORTH: "le", LEMMA: "él", POS: PRON}
-    ],
-
-    "pel": [
-        {ORTH: "per", LEMMA: "per", POS: ADP},
-        {ORTH: "el", LEMMA: "el", POS: DET}
-    ],
-
-    "pidiéndonos": [
-        {ORTH: "pidiendo", LEMMA: "pedir", POS: AUX},
-        {ORTH: "nos", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "poderle": [
-        {ORTH: "poder", LEMMA: "poder", POS: AUX},
-        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "preguntarse": [
-        {ORTH: "preguntar", LEMMA: "preguntar", POS: AUX},
-        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "preguntándose": [
-        {ORTH: "preguntando", LEMMA: "preguntar", POS: AUX},
-        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "presentarla": [
-        {ORTH: "presentar", LEMMA: "presentar", POS: AUX},
-        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "pudiéndolo": [
-        {ORTH: "pudiendo", LEMMA: "poder", POS: AUX},
-        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "pudiéndose": [
-        {ORTH: "pudiendo", LEMMA: "poder", POS: AUX},
-        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "quererle": [
-        {ORTH: "querer", LEMMA: "querer", POS: AUX},
-        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "rasgarse": [
-        {ORTH: "Rasgar", LEMMA: "rasgar", POS: AUX},
-        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "repetirlo": [
-        {ORTH: "repetir", LEMMA: "repetir", POS: AUX},
-        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "robarle": [
-        {ORTH: "robar", LEMMA: "robar", POS: AUX},
-        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "seguirlos": [
-        {ORTH: "seguir", LEMMA: "seguir", POS: AUX},
-        {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "serle": [
-        {ORTH: "ser", LEMMA: "ser", POS: AUX},
-        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "serlo": [
-        {ORTH: "ser", LEMMA: "ser", POS: AUX},
-        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "señalándole": [
-        {ORTH: "señalando", LEMMA: "señalar", POS: AUX},
-        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "suplicarle": [
-        {ORTH: "suplicar", LEMMA: "suplicar", POS: AUX},
-        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "tenerlos": [
-        {ORTH: "tener", LEMMA: "tener", POS: AUX},
-        {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "vengarse": [
-        {ORTH: "vengar", LEMMA: "vengar", POS: AUX},
-        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "verla": [
-        {ORTH: "ver", LEMMA: "ver", POS: AUX},
-        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "verle": [
-        {ORTH: "ver", LEMMA: "ver", POS: AUX},
-        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
-    ],
-
-    "volverlo": [
-        {ORTH: "volver", LEMMA: "volver", POS: AUX},
-        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
-    ]
-}
-
-
-ORTH_ONLY = [
-
-]
+__all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"]
--- a/spacy/es/stop_words.py
+++ b/spacy/es/stop_words.py
@ -0,0 +1,84 @@
+# encoding: utf8
+from __future__ import unicode_literals
+
+
+STOP_WORDS = set("""
+actualmente acuerdo adelante ademas además adrede afirmó agregó ahi ahora ahí
+al algo alguna algunas alguno algunos algún alli allí alrededor ambos ampleamos
+antano antaño ante anterior antes apenas aproximadamente aquel aquella aquellas
+aquello aquellos aqui aquél aquélla aquéllas aquéllos aquí arriba arribaabajo
+aseguró asi así atras aun aunque ayer añadió aún
+
+bajo bastante bien breve buen buena buenas bueno buenos
+
+cada casi cerca cierta ciertas cierto ciertos cinco claro comentó como con
+conmigo conocer conseguimos conseguir considera consideró consigo consigue
+consiguen consigues contigo contra cosas creo cual cuales cualquier cuando
+cuanta cuantas cuanto cuantos cuatro cuenta cuál cuáles cuándo cuánta cuántas
+cuánto cuántos cómo
+
+da dado dan dar de debajo debe deben debido decir dejó del delante demasiado
+demás dentro deprisa desde despacio despues después detras detrás dia dias dice
+dicen dicho dieron diferente diferentes dijeron dijo dio donde dos durante día
+días dónde
+
+ejemplo el ella ellas ello ellos embargo empleais emplean emplear empleas
+empleo en encima encuentra enfrente enseguida entonces entre era eramos eran
+eras eres es esa esas ese eso esos esta estaba estaban estado estados estais
+estamos estan estar estará estas este esto estos estoy estuvo está están ex
+excepto existe existen explicó expresó él ésa ésas ése ésos ésta éstas éste
+éstos
+
+fin final fue fuera fueron fui fuimos
+
+general gran grandes gueno
+
+ha haber habia habla hablan habrá había habían hace haceis hacemos hacen hacer
+hacerlo haces hacia haciendo hago han hasta hay haya he hecho hemos hicieron
+hizo horas hoy hubo
+
+igual incluso indicó informo informó intenta intentais intentamos intentan
+intentar intentas intento ir
+
+junto
+
+la lado largo las le lejos les llegó lleva llevar lo los luego lugar
+
+mal manera manifestó mas mayor me mediante medio mejor mencionó menos menudo mi
+mia mias mientras mio mios mis misma mismas mismo mismos modo momento mucha
+muchas mucho muchos muy más mí mía mías mío míos
+
+nada nadie ni ninguna ningunas ninguno ningunos ningún no nos nosotras nosotros
+nuestra nuestras nuestro nuestros nueva nuevas nuevo nuevos nunca
+
+ocho os otra otras otro otros
+
+pais para parece parte partir pasada pasado paìs peor pero pesar poca pocas
+poco pocos podeis podemos poder podria podriais podriamos podrian podrias podrá
+podrán podría podrían poner por porque posible primer primera primero primeros
+principalmente pronto propia propias propio propios proximo próximo próximos
+pudo pueda puede pueden puedo pues
+
+qeu que quedó queremos quien quienes quiere quiza quizas quizá quizás quién quiénes qué
+
+raras realizado realizar realizó repente respecto
+
+sabe sabeis sabemos saben saber sabes salvo se sea sean segun segunda segundo
+según seis ser sera será serán sería señaló si sido siempre siendo siete sigue
+siguiente sin sino sobre sois sola solamente solas solo solos somos son soy
+soyos su supuesto sus suya suyas suyo sé sí sólo
+
+tal tambien también tampoco tan tanto tarde te temprano tendrá tendrán teneis
+tenemos tener tenga tengo tenido tenía tercera ti tiempo tiene tienen toda
+todas todavia todavía todo todos total trabaja trabajais trabajamos trabajan
+trabajar trabajas trabajo tras trata través tres tu tus tuvo tuya tuyas tuyo
+tuyos tú
+
+ultimo un una unas uno unos usa usais usamos usan usar usas uso usted ustedes
+última últimas último últimos
+
+va vais valor vamos van varias varios vaya veces ver verdad verdadera verdadero
+vez vosotras vosotros voy vuestra vuestras vuestro vuestros
+
+ya yo
+""".split())
--- a/spacy/es/tokenizer_exceptions.py
+++ b/spacy/es/tokenizer_exceptions.py
@ -0,0 +1,318 @@
+# encoding: utf8
+from __future__ import unicode_literals
+
+from ..symbols import *
+from ..language_data import PRON_LEMMA
+
+
+TOKENIZER_EXCEPTIONS = {
+    "accidentarse": [
+        {ORTH: "accidentar", LEMMA: "accidentar", POS: AUX},
+        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "aceptarlo": [
+        {ORTH: "aceptar", LEMMA: "aceptar", POS: AUX},
+        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "acompañarla": [
+        {ORTH: "acompañar", LEMMA: "acompañar", POS: AUX},
+        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "advertirle": [
+        {ORTH: "advertir", LEMMA: "advertir", POS: AUX},
+        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "al": [
+        {ORTH: "a", LEMMA: "a", POS: ADP},
+        {ORTH: "el", LEMMA: "el", POS: DET}
+    ],
+
+    "anunciarnos": [
+        {ORTH: "anunciar", LEMMA: "anunciar", POS: AUX},
+        {ORTH: "nos", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "asegurándole": [
+        {ORTH: "asegurando", LEMMA: "asegurar", POS: AUX},
+        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "considerarle": [
+        {ORTH: "considerar", LEMMA: "considerar", POS: AUX},
+        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "decirle": [
+        {ORTH: "decir", LEMMA: "decir", POS: AUX},
+        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "decirles": [
+        {ORTH: "decir", LEMMA: "decir", POS: AUX},
+        {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "decirte": [
+        {ORTH: "Decir", LEMMA: "decir", POS: AUX},
+        {ORTH: "te", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "dejarla": [
+        {ORTH: "dejar", LEMMA: "dejar", POS: AUX},
+        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "dejarnos": [
+        {ORTH: "dejar", LEMMA: "dejar", POS: AUX},
+        {ORTH: "nos", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "dejándole": [
+        {ORTH: "dejando", LEMMA: "dejar", POS: AUX},
+        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "del": [
+        {ORTH: "de", LEMMA: "de", POS: ADP},
+        {ORTH: "el", LEMMA: "el", POS: DET}
+    ],
+
+    "demostrarles": [
+        {ORTH: "demostrar", LEMMA: "demostrar", POS: AUX},
+        {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "diciéndole": [
+        {ORTH: "diciendo", LEMMA: "decir", POS: AUX},
+        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "diciéndoles": [
+        {ORTH: "diciendo", LEMMA: "decir", POS: AUX},
+        {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "diferenciarse": [
+        {ORTH: "diferenciar", LEMMA: "diferenciar", POS: AUX},
+        {ORTH: "se", LEMMA: "él", POS: PRON}
+    ],
+
+    "divirtiéndome": [
+        {ORTH: "divirtiendo", LEMMA: "divertir", POS: AUX},
+        {ORTH: "me", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "ensanchándose": [
+        {ORTH: "ensanchando", LEMMA: "ensanchar", POS: AUX},
+        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "explicarles": [
+        {ORTH: "explicar", LEMMA: "explicar", POS: AUX},
+        {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "haberla": [
+        {ORTH: "haber", LEMMA: "haber", POS: AUX},
+        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "haberlas": [
+        {ORTH: "haber", LEMMA: "haber", POS: AUX},
+        {ORTH: "las", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "haberlo": [
+        {ORTH: "haber", LEMMA: "haber", POS: AUX},
+        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "haberlos": [
+        {ORTH: "haber", LEMMA: "haber", POS: AUX},
+        {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "haberme": [
+        {ORTH: "haber", LEMMA: "haber", POS: AUX},
+        {ORTH: "me", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "haberse": [
+        {ORTH: "haber", LEMMA: "haber", POS: AUX},
+        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "hacerle": [
+        {ORTH: "hacer", LEMMA: "hacer", POS: AUX},
+        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "hacerles": [
+        {ORTH: "hacer", LEMMA: "hacer", POS: AUX},
+        {ORTH: "les", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "hallarse": [
+        {ORTH: "hallar", LEMMA: "hallar", POS: AUX},
+        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "imaginaros": [
+        {ORTH: "imaginar", LEMMA: "imaginar", POS: AUX},
+        {ORTH: "os", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "insinuarle": [
+        {ORTH: "insinuar", LEMMA: "insinuar", POS: AUX},
+        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "justificarla": [
+        {ORTH: "justificar", LEMMA: "justificar", POS: AUX},
+        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "mantenerlas": [
+        {ORTH: "mantener", LEMMA: "mantener", POS: AUX},
+        {ORTH: "las", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "mantenerlos": [
+        {ORTH: "mantener", LEMMA: "mantener", POS: AUX},
+        {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "mantenerme": [
+        {ORTH: "mantener", LEMMA: "mantener", POS: AUX},
+        {ORTH: "me", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "pasarte": [
+        {ORTH: "pasar", LEMMA: "pasar", POS: AUX},
+        {ORTH: "te", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "pedirle": [
+        {ORTH: "pedir", LEMMA: "pedir", POS: AUX},
+        {ORTH: "le", LEMMA: "él", POS: PRON}
+    ],
+
+    "pel": [
+        {ORTH: "per", LEMMA: "per", POS: ADP},
+        {ORTH: "el", LEMMA: "el", POS: DET}
+    ],
+
+    "pidiéndonos": [
+        {ORTH: "pidiendo", LEMMA: "pedir", POS: AUX},
+        {ORTH: "nos", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "poderle": [
+        {ORTH: "poder", LEMMA: "poder", POS: AUX},
+        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "preguntarse": [
+        {ORTH: "preguntar", LEMMA: "preguntar", POS: AUX},
+        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "preguntándose": [
+        {ORTH: "preguntando", LEMMA: "preguntar", POS: AUX},
+        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "presentarla": [
+        {ORTH: "presentar", LEMMA: "presentar", POS: AUX},
+        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "pudiéndolo": [
+        {ORTH: "pudiendo", LEMMA: "poder", POS: AUX},
+        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "pudiéndose": [
+        {ORTH: "pudiendo", LEMMA: "poder", POS: AUX},
+        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "quererle": [
+        {ORTH: "querer", LEMMA: "querer", POS: AUX},
+        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "rasgarse": [
+        {ORTH: "Rasgar", LEMMA: "rasgar", POS: AUX},
+        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "repetirlo": [
+        {ORTH: "repetir", LEMMA: "repetir", POS: AUX},
+        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "robarle": [
+        {ORTH: "robar", LEMMA: "robar", POS: AUX},
+        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "seguirlos": [
+        {ORTH: "seguir", LEMMA: "seguir", POS: AUX},
+        {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "serle": [
+        {ORTH: "ser", LEMMA: "ser", POS: AUX},
+        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "serlo": [
+        {ORTH: "ser", LEMMA: "ser", POS: AUX},
+        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "señalándole": [
+        {ORTH: "señalando", LEMMA: "señalar", POS: AUX},
+        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "suplicarle": [
+        {ORTH: "suplicar", LEMMA: "suplicar", POS: AUX},
+        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "tenerlos": [
+        {ORTH: "tener", LEMMA: "tener", POS: AUX},
+        {ORTH: "los", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "vengarse": [
+        {ORTH: "vengar", LEMMA: "vengar", POS: AUX},
+        {ORTH: "se", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "verla": [
+        {ORTH: "ver", LEMMA: "ver", POS: AUX},
+        {ORTH: "la", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "verle": [
+        {ORTH: "ver", LEMMA: "ver", POS: AUX},
+        {ORTH: "le", LEMMA: PRON_LEMMA, POS: PRON}
+    ],
+
+    "volverlo": [
+        {ORTH: "volver", LEMMA: "volver", POS: AUX},
+        {ORTH: "lo", LEMMA: PRON_LEMMA, POS: PRON}
+    ]
+}
+
+
+ORTH_ONLY = [
+
+]
--- a/spacy/fr/init.py
+++ b/spacy/fr/init.py
@ -4,26 +4,9 @@ from __future__ import unicode_literals, print_function
 from os import path

 from ..language import Language
-from . import language_data
 from ..attrs import LANG

-from ..language_data import update_exc
-from ..language_data import strings_to_exc
-from ..language_data import EMOTICONS
-
-from .language_data import ORTH_ONLY
-
-
-TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS)
-TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES)
-TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES)
-TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES)
-TAG_MAP = dict(language_data.TAG_MAP)
-STOP_WORDS = set(language_data.STOP_WORDS)
-
-
-update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS))
-update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
+from .language_data import *


 class French(Language):
@ -34,8 +17,4 @@ class French(Language):
        lex_attr_getters[LANG] = lambda text: 'fr'

        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
-        prefixes = TOKENIZER_PREFIXES
-        suffixes = TOKENIZER_SUFFIXES
-        infixes = TOKENIZER_INFIXES
-        tag_map = TAG_MAP
        stop_words = STOP_WORDS
--- a/spacy/fr/language_data.py
+++ b/spacy/fr/language_data.py
@ -1,109 +1,14 @@
 # encoding: utf8
 from __future__ import unicode_literals

-from ..symbols import *
-from ..language_data import PRON_LEMMA
-from ..language_data import TOKENIZER_PREFIXES
-from ..language_data import TOKENIZER_SUFFIXES
-from ..language_data import TOKENIZER_INFIXES
+from .. import language_data as base
+from ..language_data import strings_to_exc
+
+from .stop_words import STOP_WORDS


-TAG_MAP = {
-
-}
+TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS)
+STOP_WORDS = set(STOP_WORDS)


-STOP_WORDS = set("""
-a à â abord absolument afin ah ai aie ailleurs ainsi ait allaient allo allons
-allô alors anterieur anterieure anterieures apres après as assez attendu au
-aucun aucune aujourd aujourd'hui aupres auquel aura auraient aurait auront
-aussi autre autrefois autrement autres autrui aux auxquelles auxquels avaient
-avais avait avant avec avoir avons ayant
-
-bah bas basee bat beau beaucoup bien bigre boum bravo brrr
-
-ça car ce ceci cela celle celle-ci celle-là celles celles-ci celles-là celui
-celui-ci celui-là cent cependant certain certaine certaines certains certes ces
-cet cette ceux ceux-ci ceux-là chacun chacune chaque cher chers chez chiche
-chut chère chères ci cinq cinquantaine cinquante cinquantième cinquième clac
-clic combien comme comment comparable comparables compris concernant contre
-couic crac
-
-da dans de debout dedans dehors deja delà depuis dernier derniere derriere
-derrière des desormais desquelles desquels dessous dessus deux deuxième
-deuxièmement devant devers devra different differentes differents différent
-différente différentes différents dire directe directement dit dite dits divers
-diverse diverses dix dix-huit dix-neuf dix-sept dixième doit doivent donc dont
-douze douzième dring du duquel durant dès désormais
-
-effet egale egalement egales eh elle elle-même elles elles-mêmes en encore
-enfin entre envers environ es ès est et etaient étaient etais étais etait était
-etant étant etc été etre être eu euh eux eux-mêmes exactement excepté extenso
-exterieur
-
-fais faisaient faisant fait façon feront fi flac floc font
-
-gens
-
-ha hein hem hep hi ho holà hop hormis hors hou houp hue hui huit huitième hum
-hurrah hé hélas i il ils importe
-
-je jusqu jusque juste
-
-la laisser laquelle las le lequel les lesquelles lesquels leur leurs longtemps
-lors lorsque lui lui-meme lui-même là lès
-
-ma maint maintenant mais malgre malgré maximale me meme memes merci mes mien
-mienne miennes miens mille mince minimale moi moi-meme moi-même moindres moins
-mon moyennant multiple multiples même mêmes
-
-na naturel naturelle naturelles ne neanmoins necessaire necessairement neuf
-neuvième ni nombreuses nombreux non nos notamment notre nous nous-mêmes nouveau
-nul néanmoins nôtre nôtres
-
-o ô oh ohé ollé olé on ont onze onzième ore ou ouf ouias oust ouste outre
-ouvert ouverte ouverts où
-
-paf pan par parce parfois parle parlent parler parmi parseme partant
-particulier particulière particulièrement pas passé pendant pense permet
-personne peu peut peuvent peux pff pfft pfut pif pire plein plouf plus
-plusieurs plutôt possessif possessifs possible possibles pouah pour pourquoi
-pourrais pourrait pouvait prealable precisement premier première premièrement
-pres probable probante procedant proche près psitt pu puis puisque pur pure
-
-qu quand quant quant-à-soi quanta quarante quatorze quatre quatre-vingt
-quatrième quatrièmement que quel quelconque quelle quelles quelqu'un quelque
-quelques quels qui quiconque quinze quoi quoique
-
-rare rarement rares relative relativement remarquable rend rendre restant reste
-restent restrictif retour revoici revoilà rien
-
-sa sacrebleu sait sans sapristi sauf se sein seize selon semblable semblaient
-semble semblent sent sept septième sera seraient serait seront ses seul seule
-seulement si sien sienne siennes siens sinon six sixième soi soi-même soit
-soixante son sont sous souvent specifique specifiques speculatif stop
-strictement subtiles suffisant suffisante suffit suis suit suivant suivante
-suivantes suivants suivre superpose sur surtout
-
-ta tac tant tardive te tel telle tellement telles tels tenant tend tenir tente
-tes tic tien tienne tiennes tiens toc toi toi-même ton touchant toujours tous
-tout toute toutefois toutes treize trente tres trois troisième troisièmement
-trop très tsoin tsouin tu té
-
-un une unes uniformement unique uniques uns
-
-va vais vas vers via vif vifs vingt vivat vive vives vlan voici voilà vont vos
-votre vous vous-mêmes vu vé vôtre vôtres
-
-zut
-""".split())
-
-
-TOKENIZER_EXCEPTIONS = {
-
-}
-
-
-ORTH_ONLY = {
-
-}
+__all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"]
--- a/spacy/fr/stop_words.py
+++ b/spacy/fr/stop_words.py
@ -0,0 +1,88 @@
+# encoding: utf8
+from __future__ import unicode_literals
+
+
+STOP_WORDS = set("""
+a à â abord absolument afin ah ai aie ailleurs ainsi ait allaient allo allons
+allô alors anterieur anterieure anterieures apres après as assez attendu au
+aucun aucune aujourd aujourd'hui aupres auquel aura auraient aurait auront
+aussi autre autrefois autrement autres autrui aux auxquelles auxquels avaient
+avais avait avant avec avoir avons ayant
+
+bah bas basee bat beau beaucoup bien bigre boum bravo brrr
+
+ça car ce ceci cela celle celle-ci celle-là celles celles-ci celles-là celui
+celui-ci celui-là cent cependant certain certaine certaines certains certes ces
+cet cette ceux ceux-ci ceux-là chacun chacune chaque cher chers chez chiche
+chut chère chères ci cinq cinquantaine cinquante cinquantième cinquième clac
+clic combien comme comment comparable comparables compris concernant contre
+couic crac
+
+da dans de debout dedans dehors deja delà depuis dernier derniere derriere
+derrière des desormais desquelles desquels dessous dessus deux deuxième
+deuxièmement devant devers devra different differentes differents différent
+différente différentes différents dire directe directement dit dite dits divers
+diverse diverses dix dix-huit dix-neuf dix-sept dixième doit doivent donc dont
+douze douzième dring du duquel durant dès désormais
+
+effet egale egalement egales eh elle elle-même elles elles-mêmes en encore
+enfin entre envers environ es ès est et etaient étaient etais étais etait était
+etant étant etc été etre être eu euh eux eux-mêmes exactement excepté extenso
+exterieur
+
+fais faisaient faisant fait façon feront fi flac floc font
+
+gens
+
+ha hein hem hep hi ho holà hop hormis hors hou houp hue hui huit huitième hum
+hurrah hé hélas i il ils importe
+
+je jusqu jusque juste
+
+la laisser laquelle las le lequel les lesquelles lesquels leur leurs longtemps
+lors lorsque lui lui-meme lui-même là lès
+
+ma maint maintenant mais malgre malgré maximale me meme memes merci mes mien
+mienne miennes miens mille mince minimale moi moi-meme moi-même moindres moins
+mon moyennant multiple multiples même mêmes
+
+na naturel naturelle naturelles ne neanmoins necessaire necessairement neuf
+neuvième ni nombreuses nombreux non nos notamment notre nous nous-mêmes nouveau
+nul néanmoins nôtre nôtres
+
+o ô oh ohé ollé olé on ont onze onzième ore ou ouf ouias oust ouste outre
+ouvert ouverte ouverts où
+
+paf pan par parce parfois parle parlent parler parmi parseme partant
+particulier particulière particulièrement pas passé pendant pense permet
+personne peu peut peuvent peux pff pfft pfut pif pire plein plouf plus
+plusieurs plutôt possessif possessifs possible possibles pouah pour pourquoi
+pourrais pourrait pouvait prealable precisement premier première premièrement
+pres probable probante procedant proche près psitt pu puis puisque pur pure
+
+qu quand quant quant-à-soi quanta quarante quatorze quatre quatre-vingt
+quatrième quatrièmement que quel quelconque quelle quelles quelqu'un quelque
+quelques quels qui quiconque quinze quoi quoique
+
+rare rarement rares relative relativement remarquable rend rendre restant reste
+restent restrictif retour revoici revoilà rien
+
+sa sacrebleu sait sans sapristi sauf se sein seize selon semblable semblaient
+semble semblent sent sept septième sera seraient serait seront ses seul seule
+seulement si sien sienne siennes siens sinon six sixième soi soi-même soit
+soixante son sont sous souvent specifique specifiques speculatif stop
+strictement subtiles suffisant suffisante suffit suis suit suivant suivante
+suivantes suivants suivre superpose sur surtout
+
+ta tac tant tardive te tel telle tellement telles tels tenant tend tenir tente
+tes tic tien tienne tiennes tiens toc toi toi-même ton touchant toujours tous
+tout toute toutefois toutes treize trente tres trois troisième troisièmement
+trop très tsoin tsouin tu té
+
+un une unes uniformement unique uniques uns
+
+va vais vas vers via vif vifs vingt vivat vive vives vlan voici voilà vont vos
+votre vous vous-mêmes vu vé vôtre vôtres
+
+zut
+""".split())
--- a/spacy/it/init.py
+++ b/spacy/it/init.py
@ -4,26 +4,9 @@ from __future__ import unicode_literals, print_function
 from os import path

 from ..language import Language
-from . import language_data
 from ..attrs import LANG

-from ..language_data import update_exc
-from ..language_data import strings_to_exc
-from ..language_data import EMOTICONS
-
-from .language_data import ORTH_ONLY
-
-
-TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS)
-TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES)
-TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES)
-TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES)
-TAG_MAP = dict(language_data.TAG_MAP)
-STOP_WORDS = set(language_data.STOP_WORDS)
-
-
-update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS))
-update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
+from .language_data import *


 class Italian(Language):
@ -34,8 +17,4 @@ class Italian(Language):
        lex_attr_getters[LANG] = lambda text: 'it'

        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
-        prefixes = TOKENIZER_PREFIXES
-        suffixes = TOKENIZER_SUFFIXES
-        infixes = TOKENIZER_INFIXES
-        tag_map = TAG_MAP
        stop_words = STOP_WORDS
--- a/spacy/it/language_data.py
+++ b/spacy/it/language_data.py
@ -1,106 +1,14 @@
 # encoding: utf8
 from __future__ import unicode_literals

-from ..symbols import *
-from ..language_data import PRON_LEMMA
-from ..language_data import TOKENIZER_PREFIXES
-from ..language_data import TOKENIZER_SUFFIXES
-from ..language_data import TOKENIZER_INFIXES
+from .. import language_data as base
+from ..language_data import update_exc, strings_to_exc
+
+from .stop_words import STOP_WORDS


-TAG_MAP = {
-
-}
+TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS)
+STOP_WORDS = set(STOP_WORDS)


-STOP_WORDS = set("""
-a abbastanza abbia abbiamo abbiano abbiate accidenti ad adesso affinche agl
-agli ahime ahimè ai al alcuna alcuni alcuno all alla alle allo allora altri
-altrimenti altro altrove altrui anche ancora anni anno ansa anticipo assai
-attesa attraverso avanti avemmo avendo avente aver avere averlo avesse
-avessero avessi avessimo aveste avesti avete aveva avevamo avevano avevate
-avevi avevo avrai avranno avrebbe avrebbero avrei avremmo avremo avreste
-avresti avrete avrà avrò avuta avute avuti avuto
-
-basta bene benissimo brava bravo
-
-casa caso cento certa certe certi certo che chi chicchessia chiunque ci
-ciascuna ciascuno cima cio cioe circa citta città co codesta codesti codesto
-cogli coi col colei coll coloro colui come cominci comunque con concernente
-conciliarsi conclusione consiglio contro cortesia cos cosa cosi così cui
-
-da dagl dagli dai dal dall dalla dalle dallo dappertutto davanti degl degli
-dei del dell della delle dello dentro detto deve di dice dietro dire
-dirimpetto diventa diventare diventato dopo dov dove dovra dovrà dovunque due
-dunque durante
-
-ebbe ebbero ebbi ecc ecco ed effettivamente egli ella entrambi eppure era
-erano eravamo eravate eri ero esempio esse essendo esser essere essi ex
-
-fa faccia facciamo facciano facciate faccio facemmo facendo facesse facessero
-facessi facessimo faceste facesti faceva facevamo facevano facevate facevi
-facevo fai fanno farai faranno fare farebbe farebbero farei faremmo faremo
-fareste faresti farete farà farò fatto favore fece fecero feci fin finalmente
-finche fine fino forse forza fosse fossero fossi fossimo foste fosti fra
-frattempo fu fui fummo fuori furono futuro generale
-
-gia già giacche giorni giorno gli gliela gliele glieli glielo gliene governo
-grande grazie gruppo
-
-ha haha hai hanno ho
-
-ieri il improvviso in inc infatti inoltre insieme intanto intorno invece io
-
-la là lasciato lato lavoro le lei li lo lontano loro lui lungo luogo
-
-ma macche magari maggior mai male malgrado malissimo mancanza marche me
-medesimo mediante meglio meno mentre mesi mezzo mi mia mie miei mila miliardi
-milioni minimi ministro mio modo molti moltissimo molto momento mondo mosto
-
-nazionale ne negl negli nei nel nell nella nelle nello nemmeno neppure nessun
-nessuna nessuno niente no noi non nondimeno nonostante nonsia nostra nostre
-nostri nostro novanta nove nulla nuovo
-
-od oggi ogni ognuna ognuno oltre oppure ora ore osi ossia ottanta otto
-
-paese parecchi parecchie parecchio parte partendo peccato peggio per perche
-perché percio perciò perfino pero persino persone però piedi pieno piglia piu
-piuttosto più po pochissimo poco poi poiche possa possedere posteriore posto
-potrebbe preferibilmente presa press prima primo principalmente probabilmente
-proprio puo può pure purtroppo
-
-qualche qualcosa qualcuna qualcuno quale quali qualunque quando quanta quante
-quanti quanto quantunque quasi quattro quel quella quelle quelli quello quest
-questa queste questi questo qui quindi
-
-realmente recente recentemente registrazione relativo riecco salvo
-
-sara sarà sarai saranno sarebbe sarebbero sarei saremmo saremo sareste
-saresti sarete saro sarò scola scopo scorso se secondo seguente seguito sei
-sembra sembrare sembrato sembri sempre senza sette si sia siamo siano siate
-siete sig solito solo soltanto sono sopra sotto spesso srl sta stai stando
-stanno starai staranno starebbe starebbero starei staremmo staremo stareste
-staresti starete starà starò stata state stati stato stava stavamo stavano
-stavate stavi stavo stemmo stessa stesse stessero stessi stessimo stesso
-steste stesti stette stettero stetti stia stiamo stiano stiate sto su sua
-subito successivamente successivo sue sugl sugli sui sul sull sulla sulle
-sullo suo suoi
-
-tale tali talvolta tanto te tempo ti titolo torino tra tranne tre trenta
-troppo trovato tu tua tue tuo tuoi tutta tuttavia tutte tutti tutto
-
-uguali ulteriore ultimo un una uno uomo
-
-va vale vari varia varie vario verso vi via vicino visto vita voi volta volte
-vostra vostre vostri vostro
-""".split())
-
-
-TOKENIZER_EXCEPTIONS = {
-
-}
-
-
-ORTH_ONLY = {
-
-}
+__all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"]
--- a/spacy/it/stop_words.py
+++ b/spacy/it/stop_words.py
@ -0,0 +1,85 @@
+# encoding: utf8
+from __future__ import unicode_literals
+
+
+STOP_WORDS = set("""
+a abbastanza abbia abbiamo abbiano abbiate accidenti ad adesso affinche agl
+agli ahime ahimè ai al alcuna alcuni alcuno all alla alle allo allora altri
+altrimenti altro altrove altrui anche ancora anni anno ansa anticipo assai
+attesa attraverso avanti avemmo avendo avente aver avere averlo avesse
+avessero avessi avessimo aveste avesti avete aveva avevamo avevano avevate
+avevi avevo avrai avranno avrebbe avrebbero avrei avremmo avremo avreste
+avresti avrete avrà avrò avuta avute avuti avuto
+
+basta bene benissimo brava bravo
+
+casa caso cento certa certe certi certo che chi chicchessia chiunque ci
+ciascuna ciascuno cima cio cioe circa citta città co codesta codesti codesto
+cogli coi col colei coll coloro colui come cominci comunque con concernente
+conciliarsi conclusione consiglio contro cortesia cos cosa cosi così cui
+
+da dagl dagli dai dal dall dalla dalle dallo dappertutto davanti degl degli
+dei del dell della delle dello dentro detto deve di dice dietro dire
+dirimpetto diventa diventare diventato dopo dov dove dovra dovrà dovunque due
+dunque durante
+
+ebbe ebbero ebbi ecc ecco ed effettivamente egli ella entrambi eppure era
+erano eravamo eravate eri ero esempio esse essendo esser essere essi ex
+
+fa faccia facciamo facciano facciate faccio facemmo facendo facesse facessero
+facessi facessimo faceste facesti faceva facevamo facevano facevate facevi
+facevo fai fanno farai faranno fare farebbe farebbero farei faremmo faremo
+fareste faresti farete farà farò fatto favore fece fecero feci fin finalmente
+finche fine fino forse forza fosse fossero fossi fossimo foste fosti fra
+frattempo fu fui fummo fuori furono futuro generale
+
+gia già giacche giorni giorno gli gliela gliele glieli glielo gliene governo
+grande grazie gruppo
+
+ha haha hai hanno ho
+
+ieri il improvviso in inc infatti inoltre insieme intanto intorno invece io
+
+la là lasciato lato lavoro le lei li lo lontano loro lui lungo luogo
+
+ma macche magari maggior mai male malgrado malissimo mancanza marche me
+medesimo mediante meglio meno mentre mesi mezzo mi mia mie miei mila miliardi
+milioni minimi ministro mio modo molti moltissimo molto momento mondo mosto
+
+nazionale ne negl negli nei nel nell nella nelle nello nemmeno neppure nessun
+nessuna nessuno niente no noi non nondimeno nonostante nonsia nostra nostre
+nostri nostro novanta nove nulla nuovo
+
+od oggi ogni ognuna ognuno oltre oppure ora ore osi ossia ottanta otto
+
+paese parecchi parecchie parecchio parte partendo peccato peggio per perche
+perché percio perciò perfino pero persino persone però piedi pieno piglia piu
+piuttosto più po pochissimo poco poi poiche possa possedere posteriore posto
+potrebbe preferibilmente presa press prima primo principalmente probabilmente
+proprio puo può pure purtroppo
+
+qualche qualcosa qualcuna qualcuno quale quali qualunque quando quanta quante
+quanti quanto quantunque quasi quattro quel quella quelle quelli quello quest
+questa queste questi questo qui quindi
+
+realmente recente recentemente registrazione relativo riecco salvo
+
+sara sarà sarai saranno sarebbe sarebbero sarei saremmo saremo sareste
+saresti sarete saro sarò scola scopo scorso se secondo seguente seguito sei
+sembra sembrare sembrato sembri sempre senza sette si sia siamo siano siate
+siete sig solito solo soltanto sono sopra sotto spesso srl sta stai stando
+stanno starai staranno starebbe starebbero starei staremmo staremo stareste
+staresti starete starà starò stata state stati stato stava stavamo stavano
+stavate stavi stavo stemmo stessa stesse stessero stessi stessimo stesso
+steste stesti stette stettero stetti stia stiamo stiano stiate sto su sua
+subito successivamente successivo sue sugl sugli sui sul sull sulla sulle
+sullo suo suoi
+
+tale tali talvolta tanto te tempo ti titolo torino tra tranne tre trenta
+troppo trovato tu tua tue tuo tuoi tutta tuttavia tutte tutti tutto
+
+uguali ulteriore ultimo un una uno uomo
+
+va vale vari varia varie vario verso vi via vicino visto vita voi volta volte
+vostra vostre vostri vostro
+""".split())
--- a/spacy/language_data/init.py
+++ b/spacy/language_data/init.py
@ -1,4 +1,5 @@
 from .emoticons import *
 from .punctuation import *
+from .tag_map import *
 from .entity_rules import *
 from .util import *
--- a/spacy/nl/init.py
+++ b/spacy/nl/init.py
@ -4,39 +4,16 @@ from __future__ import unicode_literals, print_function
 from os import path

 from ..language import Language
-from . import language_data
 from ..attrs import LANG
-
-from ..language_data import update_exc
-from ..language_data import strings_to_exc
-from ..language_data import EMOTICONS
-
-from .language_data import ORTH_ONLY
-
-
-TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS)
-TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES)
-TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES)
-TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES)
-TAG_MAP = dict(language_data.TAG_MAP)
-STOP_WORDS = set(language_data.STOP_WORDS)
-
-
-update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS))
-update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
+from .language_data import *


 class Dutch(Language):
    lang = 'nl'

    class Defaults(Language.Defaults):
-        tokenizer_exceptions = dict(language_data.TOKENIZER_EXCEPTIONS)
        lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
        lex_attr_getters[LANG] = lambda text: 'nl'

        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
-        prefixes = TOKENIZER_PREFIXES
-        suffixes = TOKENIZER_SUFFIXES
-        infixes = TOKENIZER_INFIXES
-        tag_map = TAG_MAP
        stop_words = STOP_WORDS
--- a/spacy/nl/language_data.py
+++ b/spacy/nl/language_data.py
@ -1,83 +1,14 @@
 # encoding: utf8
 from __future__ import unicode_literals

-from ..symbols import *
-from ..language_data import PRON_LEMMA
-from ..language_data import TOKENIZER_PREFIXES
-from ..language_data import TOKENIZER_SUFFIXES
-from ..language_data import TOKENIZER_INFIXES
+from .. import language_data as base
+from ..language_data import update_exc, strings_to_exc
+
+from .stop_words import STOP_WORDS


-# TODO insert TAG_MAP for Dutch
-
-TAG_MAP = {
-    "ADV":      {POS: ADV},
-    "NOUN":     {POS: NOUN},
-    "ADP":      {POS: ADP},
-    "PRON":     {POS: PRON},
-    "SCONJ":    {POS: SCONJ},
-    "PROPN":    {POS: PROPN},
-    "DET":      {POS: DET},
-    "SYM":      {POS: SYM},
-    "INTJ":     {POS: INTJ},
-    "PUNCT":    {POS: PUNCT},
-    "NUM":      {POS: NUM},
-    "AUX":      {POS: AUX},
-    "X":        {POS: X},
-    "CONJ":     {POS: CONJ},
-    "ADJ":      {POS: ADJ},
-    "VERB":     {POS: VERB}
-}
+TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS)
+STOP_WORDS = set(STOP_WORDS)


-# Stop words are retrieved from http://www.damienvanholten.com/downloads/dutch-stop-words.txt
-
-STOP_WORDS = set("""
-aan af al alles als altijd andere
-
-ben bij
-
-daar dan dat de der deze die dit doch doen door dus
-
-een eens en er
-
-ge geen geweest
-
-haar had heb hebben heeft hem het hier hij hoe hun
-
-iemand iets ik in is
-
-ja je
-
-kan kon kunnen
-
-maar me meer men met mij mijn moet
-
-na naar niet niets nog nu
-
-of om omdat ons ook op over
-
-reeds
-
-te tegen toch toen tot
-
-u uit uw
-
-van veel voor
-
-want waren was wat we wel werd wezen wie wij wil worden
-
-zal ze zei zelf zich zij zijn zo zonder zou
-""".split())
-
-
-# TODO Make tokenizer excpetions for Dutch
-
-TOKENIZER_EXCEPTIONS = {
-
-}
-
-
-ORTH_ONLY = {
-
-}
+__all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"]
--- a/spacy/nl/stop_words.py
+++ b/spacy/nl/stop_words.py
@ -0,0 +1,43 @@
+# encoding: utf8
+from __future__ import unicode_literals
+
+
+# Stop words are retrieved from http://www.damienvanholten.com/downloads/dutch-stop-words.txt
+
+STOP_WORDS = set("""
+aan af al alles als altijd andere
+
+ben bij
+
+daar dan dat de der deze die dit doch doen door dus
+
+een eens en er
+
+ge geen geweest
+
+haar had heb hebben heeft hem het hier hij hoe hun
+
+iemand iets ik in is
+
+ja je
+
+kan kon kunnen
+
+maar me meer men met mij mijn moet
+
+na naar niet niets nog nu
+
+of om omdat ons ook op over
+
+reeds
+
+te tegen toch toen tot
+
+u uit uw
+
+van veel voor
+
+want waren was wat we wel werd wezen wie wij wil worden
+
+zal ze zei zelf zich zij zijn zo zonder zou
+""".split())
--- a/spacy/pt/init.py
+++ b/spacy/pt/init.py
@ -4,26 +4,9 @@ from __future__ import unicode_literals, print_function
 from os import path

 from ..language import Language
-from . import language_data
 from ..attrs import LANG

-from ..language_data import update_exc
-from ..language_data import strings_to_exc
-from ..language_data import EMOTICONS
-
-from .language_data import ORTH_ONLY
-
-
-TOKENIZER_EXCEPTIONS = dict(language_data.TOKENIZER_EXCEPTIONS)
-TOKENIZER_PREFIXES = tuple(language_data.TOKENIZER_PREFIXES)
-TOKENIZER_SUFFIXES = tuple(language_data.TOKENIZER_SUFFIXES)
-TOKENIZER_INFIXES = tuple(language_data.TOKENIZER_INFIXES)
-TAG_MAP = dict(language_data.TAG_MAP)
-STOP_WORDS = set(language_data.STOP_WORDS)
-
-
-update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(EMOTICONS))
-update_exc(TOKENIZER_EXCEPTIONS, strings_to_exc(ORTH_ONLY))
+from .language_data import *


 class Portuguese(Language):
@ -34,8 +17,4 @@ class Portuguese(Language):
        lex_attr_getters[LANG] = lambda text: 'pt'

        tokenizer_exceptions = TOKENIZER_EXCEPTIONS
-        prefixes = TOKENIZER_PREFIXES
-        suffixes = TOKENIZER_SUFFIXES
-        infixes = TOKENIZER_INFIXES
-        tag_map = TAG_MAP
        stop_words = STOP_WORDS
--- a/spacy/pt/language_data.py
+++ b/spacy/pt/language_data.py
@ -1,87 +1,14 @@
 # encoding: utf8
 from __future__ import unicode_literals

-from ..symbols import *
-from ..language_data import PRON_LEMMA
-from ..language_data import TOKENIZER_PREFIXES
-from ..language_data import TOKENIZER_SUFFIXES
-from ..language_data import TOKENIZER_INFIXES
+from .. import language_data as base
+from ..language_data import update_exc, strings_to_exc
+
+from .stop_words import STOP_WORDS


-TAG_MAP = {
-
-}
+TOKENIZER_EXCEPTIONS = strings_to_exc(base.EMOTICONS)
+STOP_WORDS = set(STOP_WORDS)


-STOP_WORDS = set("""
-à às acerca adeus agora ainda algmas algo algumas alguns ali além ambos ano
-anos antes ao aos apenas apoio apontar após aquela aquelas aquele aqueles aqui
-aquilo area área as assim através atrás até aí
-
-baixo bastante bem bom breve
-
-cada caminho catorze cedo cento certamente certeza cima cinco coisa com como
-comprido conhecido conselho contra corrente custa cá
-
-da daquela daquele dar das de debaixo demais dentro depois desde desligado
-dessa desse desta deste deve devem deverá dez dezanove dezasseis dezassete
-dezoito dia diante direita diz dizem dizer do dois dos doze duas dá dão dúvida
-
-é ela elas ele eles em embora enquanto entre então era és essa essas esse esses
-esta estado estar estará estas estava este estes esteve estive estivemos
-estiveram estiveste estivestes estou está estás estão eu exemplo
-
-falta fará favor faz fazeis fazem fazemos fazer fazes fazia faço fez fim final
-foi fomos for fora foram forma foste fostes fui
-
-geral grande grandes grupo
-
-hoje horas há
-
-iniciar inicio ir irá isso ista iste isto já
-
-lado ligado local logo longe lugar lá
-
-maior maioria maiorias mais mal mas me meio menor menos meses mesmo meu meus
-mil minha minhas momento muito muitos máximo mês
-
-na nada naquela naquele nas nem nenhuma nessa nesse nesta neste no noite nome
-nos nossa nossas nosso nossos nova nove novo novos num numa nunca não nível nós
-número
-
-obra obrigada obrigado oitava oitavo oito onde ontem onze os ou outra outras
-outro outros
-
-para parece parte partir pegar pela pelas pelo pelos perto pessoas pode podem
-poder poderá podia ponto pontos por porque porquê posição possivelmente posso
-possível pouca pouco povo primeira primeiro promeiro próprio próximo puderam
-pôde põe põem
-
-qual qualquer quando quanto quarta quarto quatro que quem quer quero questão
-quieto quinta quinto quinze quê relação
-
-sabe saber se segunda segundo sei seis sem sempre ser seria sete seu seus sexta
-sexto sim sistema sob sobre sois somente somos sou sua suas são sétima sétimo
-
-tal talvez também tanto tarde te tem temos tempo tendes tenho tens tentar
-tentaram tente tentei ter terceira terceiro teu teus teve tipo tive tivemos
-tiveram tiveste tivestes toda todas todo todos trabalhar trabalho treze três tu
-tua tuas tudo tão têm
-
-último um uma umas uns usa usar
-
-vai vais valor veja vem vens ver verdade verdadeiro vez vezes viagem vindo
-vinte você vocês vos vossa vossas vosso vossos vários vão vêm vós
-
-zero
-""".split())
-
-
-TOKENIZER_EXCEPTIONS = {
-
-}
-
-
-ORTH_ONLY = {
-
-}
+__all__ = ["TOKENIZER_EXCEPTIONS", "STOP_WORDS"]
--- a/spacy/pt/stop_words.py
+++ b/spacy/pt/stop_words.py
@ -0,0 +1,66 @@
+# encoding: utf8
+from __future__ import unicode_literals
+
+
+STOP_WORDS = set("""
+à às acerca adeus agora ainda algmas algo algumas alguns ali além ambos ano
+anos antes ao aos apenas apoio apontar após aquela aquelas aquele aqueles aqui
+aquilo area área as assim através atrás até aí
+
+baixo bastante bem bom breve
+
+cada caminho catorze cedo cento certamente certeza cima cinco coisa com como
+comprido conhecido conselho contra corrente custa cá
+
+da daquela daquele dar das de debaixo demais dentro depois desde desligado
+dessa desse desta deste deve devem deverá dez dezanove dezasseis dezassete
+dezoito dia diante direita diz dizem dizer do dois dos doze duas dá dão dúvida
+
+é ela elas ele eles em embora enquanto entre então era és essa essas esse esses
+esta estado estar estará estas estava este estes esteve estive estivemos
+estiveram estiveste estivestes estou está estás estão eu exemplo
+
+falta fará favor faz fazeis fazem fazemos fazer fazes fazia faço fez fim final
+foi fomos for fora foram forma foste fostes fui
+
+geral grande grandes grupo
+
+hoje horas há
+
+iniciar inicio ir irá isso ista iste isto já
+
+lado ligado local logo longe lugar lá
+
+maior maioria maiorias mais mal mas me meio menor menos meses mesmo meu meus
+mil minha minhas momento muito muitos máximo mês
+
+na nada naquela naquele nas nem nenhuma nessa nesse nesta neste no noite nome
+nos nossa nossas nosso nossos nova nove novo novos num numa nunca não nível nós
+número
+
+obra obrigada obrigado oitava oitavo oito onde ontem onze os ou outra outras
+outro outros
+
+para parece parte partir pegar pela pelas pelo pelos perto pessoas pode podem
+poder poderá podia ponto pontos por porque porquê posição possivelmente posso
+possível pouca pouco povo primeira primeiro promeiro próprio próximo puderam
+pôde põe põem
+
+qual qualquer quando quanto quarta quarto quatro que quem quer quero questão
+quieto quinta quinto quinze quê relação
+
+sabe saber se segunda segundo sei seis sem sempre ser seria sete seu seus sexta
+sexto sim sistema sob sobre sois somente somos sou sua suas são sétima sétimo
+
+tal talvez também tanto tarde te tem temos tempo tendes tenho tens tentar
+tentaram tente tentei ter terceira terceiro teu teus teve tipo tive tivemos
+tiveram tiveste tivestes toda todas todo todos trabalhar trabalho treze três tu
+tua tuas tudo tão têm
+
+último um uma umas uns usa usar
+
+vai vais valor veja vem vens ver verdade verdadeiro vez vezes viagem vindo
+vinte você vocês vos vossa vossas vosso vossos vários vão vêm vós
+
+zero
+""".split())