From 7a780476af37535e3e05d8bdc964e11082a6b683 Mon Sep 17 00:00:00 2001 From: DuyguA Date: Fri, 9 Mar 2018 10:13:00 +0100 Subject: [PATCH] added more abbreviations --- spacy/lang/tr/tokenizer_exceptions.py | 25 ++++++++++++++++++++----- 1 file changed, 20 insertions(+), 5 deletions(-) diff --git a/spacy/lang/tr/tokenizer_exceptions.py b/spacy/lang/tr/tokenizer_exceptions.py index 86ec93802..3bd014443 100644 --- a/spacy/lang/tr/tokenizer_exceptions.py +++ b/spacy/lang/tr/tokenizer_exceptions.py @@ -11,39 +11,45 @@ _exc = { for exc_data in [ + {ORTH: "A.B.D.", NORM: "Amerika Birleşik Devletleri"}, {ORT: "Alb.", NORM: "Albay"}, {ORT: "Ar.Gör.", NORM: "Araştırma Görevlisi"}, {ORT: "Arş.Gör.", NORM: "Araştırma Görevlisi"}, {ORT: "Asb.", NORM: "Astsubay"}, + {ORT: "Astsb.", NORM: "Astsubay"}, {ORT: "As.İz.", NORM: "Askeri İnzibat"}, {ORT: "Atğm", NORM: "Asteğmen"}, {ORT: "Av.", NORM: "Avukat"}, {ORT: "Apt.", NORM: "Apartmanı"}, - {ORTH: "A.B.D.", NORM: "Amerika Birleşik Devletleri"}, {ORTH: "Bçvş.", NORM: "Başçavuş"}, {ORTH: "bk.", NORM: "bakınız"}, {ORTH: "bknz.", NORM: "bakınız"}, + {ORTH: "Bnb.", NORM: "Binbaşı"}, {ORTH: "bnb.", NORM: "binbaşı"}, {ORTH: "Böl.", NORM: "Bölümü"}, {ORTH: "Bşk.", NORM: "Başkanlığı"}, + {ORTH: "Bştbp.", NORM: "Baştabip"}, {ORTH: "Bul.", NORM: "Bulvarı"}, {ORTH: "Cad.", NORM: "Caddesi"}, {ORTH: "çev.", NORM: "çeviren"}, {ORTH: "Çvş.", NORM: "Çavuş"}, + {ORTH: "dak.", NORM: "dakika"}, + {ORTH: "dk.", NORM: "dakika"}, {ORTH: "Doç.", NORM: "Doçent"}, {ORTH: "doğ.", NORM: "doğum tarihi"}, {ORTH: "drl.", NORM: "derleyen"}, - {ORTH: "dk.", NORM: "dakika"}, {ORTH: "Dz.", NORM: "Deniz"}, {ORTH: "Dz.K.K.lığı", NORM: "Deniz Kuvvetleri Komutanlığı"}, {ORTH: "Dz.Kuv.", NORM: "Deniz Kuvvetleri"}, {ORTH: "Dz.Kuv.K.", NORM: "Deniz Kuvvetleri Komutanlığı"}, {ORTH: "dzl.", NORM: "düzenleyen"}, + {ORTH: "Ecz.", NORM: "Eczanesi"}, {ORTH: "ekon.", NORM: "ekonomi"}, {ORTH: "Fak.", NORM: "Fakültesi"}, - {ORTH: "gr.", NORM: "gram"}, {ORTH: "Gn.", NORM: "Genel"}, {ORTH: "Gnkur.", NORM: "Genelkurmay"}, + {ORTH: "Gn.Kur.", NORM: "Genelkurmay"}, + {ORTH: "gr.", NORM: "gram"}, {ORTH: "Hst.", NORM: "Hastanesi"}, {ORTH: "Hs.Uzm.", NORM: "Hesap Uzmanı"}, {ORTH: "huk.", NORM: "hukuk"}, @@ -79,9 +85,12 @@ for exc_data in [ {ORTH: "Sok.", NORM: "Sokak"}, {ORTH: "Şb.", NORM: "Şube"}, {ORTH: "Şti.", NORM: "Şirketi"}, + {ORTH: "Tbp.", NORM: "Tabip"}, {ORTH: "T.C.", NORM: "Türkiye Cumhuriyeti"}, + {ORTH: "Tel.", NORM: "Telefon"}, {ORTH: "tel.", NORM: "telefon"}, {ORTH: "telg.", NORM: "telgraf"}, + {ORTH: "Tğm.", NORM: "Teğmen"}, {ORTH: "tğm.", NORM: "teğmen"}, {ORTH: "tic.", NORM: "ticaret"}, {ORTH: "Tug.", NORM: "Tugay"}, @@ -89,11 +98,16 @@ for exc_data in [ {ORTH: "Tümg.", NORM: "Tümgeneral"}, {ORTH: "Uzm.", NORM: "Uzman"}, {ORTH: "Üçvş.", NORM: "Üstçavuş"}, + {ORTH: "Üni.", NORM: "Üniversitesi"}, {ORTH: "Ütğm.", NORM: "Üsteğmen"}, {ORTH: "vb.", NORM: "ve benzeri"}, + {ORTH: "vs.", NORM: "vesaire"}, + {ORTH: "Yard.", NORM: "Yardımcı"}, {ORTH: "Yar.", NORM: "Yardımcı"}, - {ORTH: "Yb.", NORM: "Yarbay"}, {ORTH: "Yd.Sb.", NORM: "Yedek Subay"}, + {ORTH: "Yard.Doç.", NORM: "Yardımcı Doçent"}, + {ORTH: "Yar.Doç.", NORM: "Yardımcı Doçent"}, + {ORTH: "Yb.", NORM: "Yarbay"}, {ORTH: "Yrd.", NORM: "Yardımcı"}, {ORTH: "Yrd.Doç.", NORM: "Yardımcı Doçent"}, {ORTH: "Y.Müh.", NORM: "Yüksek mühendis"}, @@ -101,7 +115,8 @@ for exc_data in [ _exc[exc_data[ORTH]] = [exc_data] -for orth in ["Dr."]: +for orth in [ + "Dr.", "yy."]: _exc[orth] = [{ORTH: orth}]