Add missing contractions to English tokenizer exceptions

Inspired by https://github.com/kootenpv/contractions/blob/master/contractions/__init __.py
2017-01-05 19:59:06 +01:00 · 2017-01-05 19:59:06 +01:00 · cab39c59c5
parent a23504fe07
commit cab39c59c5
1 changed files with 198 additions and 0 deletions
--- a/spacy/en/tokenizer_exceptions.py
+++ b/spacy/en/tokenizer_exceptions.py
@ -212,9 +212,11 @@ for verb_data in [
    {ORTH: "does", LEMMA: "do"},
    {ORTH: "did", LEMMA: "do", TAG: "VBD"},
    {ORTH: "had", LEMMA: "have", TAG: "VBD"},
+    {ORTH: "may"},
    {ORTH: "might"},
    {ORTH: "must"},
    {ORTH: "need"},
+    {ORTH: "ought"},
    {ORTH: "sha", LEMMA: "shall"},
    {ORTH: "should"},
    {ORTH: "wo", LEMMA: "will"},
@ -288,6 +290,201 @@ for verb_data in [
        ]


+
+# Other contractions with trailing apostrophe
+
+for exc_data in [
+    {ORTH: "doin", LEMMA: "do", NORM: "doing"},
+    {ORTH: "goin", LEMMA: "go", NORM: "going"},
+    {ORTH: "nothin", LEMMA: "nothing"},
+    {ORTH: "nuthin", LEMMA: "nothing"},
+    {ORTH: "ol", LEMMA: "old"},
+    {ORTH: "somethin", LEMMA: "something"}
+]:
+    exc_data_tc = dict(exc_data)
+    exc_data_tc[ORTH] = exc_data_tc[ORTH].title()
+
+    for data in [exc_data, exc_data_tc]:
+        data_apos = dict(data)
+        data_apos[ORTH] = data_apos[ORTH] + "'"
+
+        EXC[data[ORTH]] = [
+            dict(data)
+        ]
+
+        EXC[data_apos[ORTH]] = [
+            dict(data_apos)
+        ]
+
+
+# Other contractions with leading apostrophe
+
+for exc_data in [
+    {ORTH: "cause", LEMMA: "because"},
+    {ORTH: "em", LEMMA: PRON_LEMMA, NORM: "them"},
+    {ORTH: "ll", LEMMA: "will"},
+    {ORTH: "nuff", LEMMA: "enough"}
+]:
+    exc_data_apos = dict(exc_data)
+    exc_data_apos[ORTH] = "'" + exc_data_apos[ORTH]
+
+    for data in [exc_data, exc_data_apos]:
+        EXC[data[ORTH]] = [
+            dict(data)
+        ]
+
+
+# Rest
+
+OTHER = {
+    " ": [
+        {ORTH: " ", TAG: "SP"}
+    ],
+
+    "\u00a0": [
+        {ORTH: "\u00a0", TAG: "SP", LEMMA: "  "}
+    ],
+
+    "'S": [
+        {ORTH: "'S", LEMMA: "'s"}
+    ],
+
+    "'s": [
+        {ORTH: "'s", LEMMA: "'s"}
+    ],
+
+    "'re": [
+        {ORTH: "'re", LEMMA: "be", NORM: "are"}
+    ],
+
+    "\u2018S": [
+        {ORTH: "\u2018S", LEMMA: "'s"}
+    ],
+
+    "\u2018s": [
+        {ORTH: "\u2018s", LEMMA: "'s"}
+    ],
+
+    "and/or": [
+        {ORTH: "and/or", LEMMA: "and/or", TAG: "CC"}
+    ],
+
+    "'Cause": [
+        {ORTH: "'Cause", LEMMA: "because"}
+    ],
+
+    "y'all": [
+        {ORTH: "y'", LEMMA: PRON_LEMMA, NORM: "you"},
+        {ORTH: "all"}
+    ],
+
+    "yall": [
+        {ORTH: "y", LEMMA: PRON_LEMMA, NORM: "you"},
+        {ORTH: "all"}
+    ],
+
+    "ma'am": [
+        {ORTH: "ma'am", LEMMA: "madam"}
+    ],
+
+    "Ma'am": [
+        {ORTH: "Ma'am", LEMMA: "madam"}
+    ],
+
+    "o'clock": [
+        {ORTH: "o'clock", LEMMA: "o'clock"}
+    ],
+
+    "O'clock": [
+        {ORTH: "O'clock", LEMMA: "o'clock"}
+    ],
+
+    "how'd'y": [
+        {ORTH: "how", LEMMA: "how"},
+        {ORTH: "'d", LEMMA: "do"},
+        {ORTH: "'y", LEMMA: PRON_LEMMA, NORM: "you"}
+    ],
+
+    "How'd'y": [
+        {ORTH: "How", LEMMA: "how"},
+        {ORTH: "'d", LEMMA: "do"},
+        {ORTH: "'y", LEMMA: PRON_LEMMA, NORM: "you"}
+    ],
+
+    "not've": [
+        {ORTH: "not", LEMMA: "not", TAG: "RB"},
+        {ORTH: "'ve", LEMMA: "have", TAG: "VB"}
+    ],
+
+    "notve": [
+        {ORTH: "not", LEMMA: "not", TAG: "RB"},
+        {ORTH: "ve", LEMMA: "have", TAG: "VB"}
+    ],
+
+    "Not've": [
+        {ORTH: "Not", LEMMA: "not", TAG: "RB"},
+        {ORTH: "'ve", LEMMA: "have", TAG: "VB"}
+    ],
+
+    "Notve": [
+        {ORTH: "Not", LEMMA: "not", TAG: "RB"},
+        {ORTH: "ve", LEMMA: "have", TAG: "VB"}
+    ],
+
+    "cannot": [
+        {ORTH: "can", LEMMA: "can", TAG: "MD"},
+        {ORTH: "not", LEMMA: "not", TAG: "RB"}
+    ],
+
+    "Cannot": [
+        {ORTH: "Can", LEMMA: "can", TAG: "MD"},
+        {ORTH: "not", LEMMA: "not", TAG: "RB"}
+    ],
+
+    "gonna": [
+        {ORTH: "gon", LEMMA: "go", NORM: "going"},
+        {ORTH: "na", LEMMA: "to"}
+    ],
+
+    "Gonna": [
+        {ORTH: "Gon", LEMMA: "go", NORM: "going"},
+        {ORTH: "na", LEMMA: "to"}
+    ],
+
+    "gotta": [
+        {ORTH: "got"},
+        {ORTH: "ta", LEMMA: "to"}
+    ],
+
+    "Gotta": [
+        {ORTH: "Got"},
+        {ORTH: "ta", LEMMA: "to"}
+    ],
+
+    "let's": [
+        {ORTH: "let"},
+        {ORTH: "'s", LEMMA: PRON_LEMMA, NORM: "us"}
+    ],
+
+    "Let's": [
+        {ORTH: "Let", LEMMA: "let"},
+        {ORTH: "'s", LEMMA: PRON_LEMMA, NORM: "us"}
+    ],
+
+    "\u2014": [
+        {ORTH: "\u2014", TAG: ":", LEMMA: "--"}
+    ],
+
+    "\n": [
+        {ORTH: "\n", TAG: "SP"}
+    ],
+
+    "\t": [
+        {ORTH: "\t", TAG: "SP"}
+    ]
+}
+
+
 # Abbreviations

 ABBREVIATIONS = {
@ -520,6 +717,7 @@ for string in EXCLUDE_EXC:
 # Abbreviations with only one ORTH token

 ORTH_ONLY = [
+    "'d",
    "''",
    "a.",
    "a.m.",