From 27160b151676c187ced1f62886ad4fa4b14507ac Mon Sep 17 00:00:00 2001 From: Dmitry Bruhanov Date: Tue, 24 Jul 2018 19:44:29 +0300 Subject: [PATCH] added some widespread written jargon & dialectizms (#2584) This jargon is not offencive but emotionally colored as funny due to its deviation from the norm for various reasons: immitating a dialect, deliberately wrong spelling emphasizing its low colloquial nature, obsolete form, foreign borrowing with native flections, etc. Dmitry Briukhanov, Linguist & Pythonist --- spacy/lang/ru/norm_exceptions.py | 14 +++++++++++++- 1 file changed, 13 insertions(+), 1 deletion(-) diff --git a/spacy/lang/ru/norm_exceptions.py b/spacy/lang/ru/norm_exceptions.py index 53f48a8d8..1a75b58b8 100644 --- a/spacy/lang/ru/norm_exceptions.py +++ b/spacy/lang/ru/norm_exceptions.py @@ -5,15 +5,27 @@ from __future__ import unicode_literals _exc = { # Slang 'прив': 'привет', + 'дарова': 'привет', + 'дак': 'так', + 'дык': 'так', + 'здарова': 'привет', + 'пакедава': 'пока', + 'пакедаво': 'пока', 'ща': 'сейчас', 'спс': 'спасибо', 'пжлст': 'пожалуйста', 'плиз': 'пожалуйста', + 'ладненько': 'ладно', + 'лады': 'ладно', 'лан': 'ладно', 'ясн': 'ясно', 'всм': 'всмысле', 'хош': 'хочешь', - 'оч': 'очень' + 'хаюшки': 'привет', + 'оч': 'очень', + 'че': 'что', + 'чо': 'что', + 'шо': 'что' }