Remove unnecessary namedtuple/dataclass

2019-09-29 15:05:28 +02:00 · 2019-09-29 15:05:28 +02:00 · 499c39acba
parent 8b02fff097
commit 499c39acba
1 changed files with 7 additions and 30 deletions
--- a/spacy/lang/ko/init.py
+++ b/spacy/lang/ko/init.py
@ -1,8 +1,6 @@
 # encoding: utf8
 from __future__ import unicode_literals, print_function
 import sys
 from .stop_words import STOP_WORDS
 from .tag_map import TAG_MAP
 from ...attrs import LANG
@ -10,35 +8,12 @@ from ...language import Language
 from ...tokens import Doc
 from ...compat import copy_reg
 from ...util import DummyTokenizer
 from ...compat import is_python3, is_python_pre_3_5
 is_python_post_3_7 = is_python3 and sys.version_info[1] >= 7
 # fmt: off
 if is_python_pre_3_5:
    from collections import namedtuple
    Morpheme = namedtuple("Morpheme", "surface lemma tag")
 elif is_python_post_3_7:
    from dataclasses import dataclass
    @dataclass(frozen=True)
    class Morpheme:
        surface: str
        lemma: str
        tag: str
 else:
    from typing import NamedTuple
    class Morpheme(NamedTuple):
        surface = str("")
        lemma = str("")
        tag = str("")
 def try_mecab_import():
    try:
        from natto import MeCab
        return MeCab
    except ImportError:
        raise ImportError(
@ -46,6 +21,8 @@ def try_mecab_import():
            "[mecab-ko-dic](https://bitbucket.org/eunjeon/mecab-ko-dic), "
            "and [natto-py](https://github.com/buruzaemon/natto-py)"
        )
 # fmt: on
@ -72,10 +49,10 @@ class KoreanTokenizer(DummyTokenizer):
        surfaces = [dt.surface for dt in dtokens]
        doc = Doc(self.vocab, words=surfaces, spaces=list(check_spaces(text, surfaces)))
        for token, dtoken in zip(doc, dtokens):
-            first_tag, sep, eomi_tags = dtoken.tag.partition("+")
+            first_tag, sep, eomi_tags = dtoken["tag"].partition("+")
            token.tag_ = first_tag  # stem(어간) or pre-final(선어말 어미)
-            token.lemma_ = dtoken.lemma
+            token.lemma_ = dtoken["lemma"]
-        doc.user_data["full_tags"] = [dt.tag for dt in dtokens]
+        doc.user_data["full_tags"] = [dt["tag"] for dt in dtokens]
        return doc
    def detailed_tokens(self, text):
@ -91,7 +68,7 @@ class KoreanTokenizer(DummyTokenizer):
                lemma, _, remainder = expr.partition("/")
                if lemma == "*":
                    lemma = surface
-                yield Morpheme(surface, lemma, tag)
+                yield {"surface": surface, "lemma": lemma, "tag": tag}
 class KoreanDefaults(Language.Defaults):