mirror of https://github.com/explosion/spaCy.git
more norwegian
This commit is contained in:
parent
bc9557b21f
commit
3796c668d9
|
@ -3,19 +3,52 @@ from __future__ import unicode_literals
|
|||
|
||||
from . import util
|
||||
from .deprecated import resolve_model_name
|
||||
from .cli import info
|
||||
from .cli.info import info
|
||||
|
||||
from . import en, de, zh, es, it, hu, fr, pt, nl, sv, fi, bn, he
|
||||
|
||||
from . import en, de, zh, es, it, hu, fr, pt, nl, sv, fi, bn, he, nb
|
||||
|
||||
|
||||
_languages = (en.English, de.German, es.Spanish, pt.Portuguese, fr.French,
|
||||
it.Italian, hu.Hungarian, zh.Chinese, nl.Dutch, sv.Swedish,
|
||||
fi.Finnish, bn.Bengali, he.Hebrew)
|
||||
fi.Finnish, bn.Bengali, he.Hebrew, nb.Norwegian)
|
||||
|
||||
|
||||
for _lang in _languages:
|
||||
util.set_lang_class(_lang.lang, _lang)
|
||||
|
||||
from . import en
|
||||
from . import de
|
||||
from . import zh
|
||||
from . import es
|
||||
from . import it
|
||||
from . import hu
|
||||
from . import fr
|
||||
from . import pt
|
||||
from . import nl
|
||||
from . import sv
|
||||
from . import fi
|
||||
from . import bn
|
||||
from . import nb
|
||||
|
||||
from .about import *
|
||||
|
||||
|
||||
set_lang_class(en.English.lang, en.English)
|
||||
set_lang_class(de.German.lang, de.German)
|
||||
set_lang_class(es.Spanish.lang, es.Spanish)
|
||||
set_lang_class(pt.Portuguese.lang, pt.Portuguese)
|
||||
set_lang_class(fr.French.lang, fr.French)
|
||||
set_lang_class(it.Italian.lang, it.Italian)
|
||||
set_lang_class(hu.Hungarian.lang, hu.Hungarian)
|
||||
set_lang_class(zh.Chinese.lang, zh.Chinese)
|
||||
set_lang_class(nl.Dutch.lang, nl.Dutch)
|
||||
set_lang_class(sv.Swedish.lang, sv.Swedish)
|
||||
set_lang_class(fi.Finnish.lang, fi.Finnish)
|
||||
set_lang_class(bn.Bengali.lang, bn.Bengali)
|
||||
set_lang_class(nb.Norwegian.lang, nb.Norwegian)
|
||||
>>>>>>> more norwegian
|
||||
|
||||
|
||||
def load(name, **overrides):
|
||||
if overrides.get('path') in (None, False, True):
|
||||
|
@ -38,3 +71,7 @@ def load(name, **overrides):
|
|||
overrides['meta'] = meta
|
||||
overrides['path'] = model_path
|
||||
return cls(**overrides)
|
||||
|
||||
|
||||
def info(name, markdown):
|
||||
info(name, markdown)
|
||||
|
|
|
@ -15,12 +15,11 @@ from .language_data import *
|
|||
class NorwegianBokmal(Language):
|
||||
lang = 'nb' # ISO code
|
||||
|
||||
class Defaults(Language.Defaults):
|
||||
class Defaults(Language.Defaults):
|
||||
lex_attr_getters = dict(Language.Defaults.lex_attr_getters)
|
||||
lex_attr_getters[LANG] = lambda text: 'nb'
|
||||
|
||||
|
||||
|
||||
# override defaults
|
||||
tokenizer_exceptions = TOKENIZER_EXCEPTIONS
|
||||
#tag_map = TAG_MAP
|
||||
stop_words = STOP_WORDS
|
||||
stop_words = STOP_WORDS
|
|
@ -1,40 +1,49 @@
|
|||
# encoding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
|
||||
STOP_WORDS = set("""alle at av
|
||||
|
||||
bare begge ble blei bli blir blitt både båe
|
||||
|
||||
da de deg dei deim deira deires dem den denne der dere deres det dette di din disse ditt du dykk dykkar då
|
||||
|
||||
eg ein eit eitt eller elles en enn er et ett etter
|
||||
|
||||
for fordi fra før
|
||||
|
||||
ha hadde han hans har hennar henne hennes her hjå ho hoe honom hoss hossen hun hva hvem hver hvilke hvilken hvis hvor hvordan hvorfor
|
||||
|
||||
i ikke ikkje ikkje ingen ingi inkje inn inni
|
||||
|
||||
|
||||
STOP_WORDS = set("""
|
||||
alle allerede alt and andre annen annet at av
|
||||
|
||||
bak bare bedre beste blant ble bli blir blitt bris by både
|
||||
|
||||
da dag de del dem den denne der dermed det dette disse drept du
|
||||
|
||||
eller en enn er et ett etter
|
||||
|
||||
fem fikk fire fjor flere folk for fortsatt fotball fra fram frankrike fredag funnet få får fått før først første
|
||||
|
||||
gang gi gikk gjennom gjorde gjort gjør gjøre god godt grunn gå går
|
||||
|
||||
ha hadde ham han hans har hele helt henne hennes her hun hva hvor hvordan hvorfor
|
||||
|
||||
i ifølge igjen ikke ingen inn
|
||||
|
||||
ja jeg
|
||||
|
||||
kan kom korleis korso kun kunne kva kvar kvarhelst kven kvi kvifor
|
||||
|
||||
man mange me med medan meg meget mellom men mi min mine mitt mot mykje
|
||||
|
||||
ned no noe noen noka noko nokon nokor nokre nå når
|
||||
|
||||
og også om opp oss over
|
||||
|
||||
på
|
||||
|
||||
samme seg selv si sia sidan siden sin sine sitt sjøl skal skulle slik so som som somme somt så sånn
|
||||
|
||||
til
|
||||
|
||||
um upp ut uten
|
||||
|
||||
var vart varte ved vere verte vi vil ville vore vors vort vår være være vært
|
||||
|
||||
å
|
||||
|
||||
kamp kampen kan kl klart kom komme kommer kontakt kort kroner kunne kveld kvinner
|
||||
|
||||
la laget land landet langt leder ligger like litt løpet lørdag
|
||||
|
||||
man mandag mange mannen mars med meg mellom men mener menn mennesker mens mer millioner minutter mot msci mye må mål måtte
|
||||
|
||||
ned neste noe noen nok norge norsk norske ntb ny nye nå når
|
||||
|
||||
og også om onsdag opp opplyser oslo oss over
|
||||
|
||||
personer plass poeng politidistrikt politiet president prosent på
|
||||
|
||||
regjeringen runde rundt russland
|
||||
|
||||
sa saken samme sammen samtidig satt se seg seks selv senere september ser sett siden sier sin sine siste sitt skal skriver skulle slik som sted stedet stor store står sverige svært så søndag
|
||||
|
||||
ta tatt tid tidligere til tilbake tillegg tirsdag to tok torsdag tre tror tyskland
|
||||
|
||||
under usa ut uten utenfor
|
||||
|
||||
vant var ved veldig vi videre viktig vil ville viser vår være vært
|
||||
|
||||
å år
|
||||
|
||||
ønsker
|
||||
""".split())
|
Loading…
Reference in New Issue