mirror of https://github.com/explosion/spaCy.git
Tamil (#3194)
* Tamil language support *stop wors, examples and numerical attribite supports added * Contributor agreement signed * Create Loghijiaha.md Added contributor agreement * Update CONTRIBUTOR_AGREEMENT.md Adjusted contributor_agreement.md * Norm exceptions added
This commit is contained in:
parent
8bd85fd9d5
commit
5ca8e2b269
|
@ -0,0 +1,148 @@
|
|||
# coding: utf8
|
||||
from __future__ import unicode_literals
|
||||
|
||||
_exc = {
|
||||
|
||||
# Regional words normal
|
||||
# Sri Lanka - wikipeadia
|
||||
"இங்க": "இங்கே",
|
||||
"வாங்க": "வாருங்கள்",
|
||||
'ஒண்டு':'ஒன்று',
|
||||
'கண்டு': 'கன்று',
|
||||
'கொண்டு': 'கொன்று',
|
||||
'பண்டி': 'பன்றி',
|
||||
'பச்ச': 'பச்சை',
|
||||
'அம்பது': 'ஐம்பது',
|
||||
'வெச்ச': 'வைத்து',
|
||||
'வச்ச': 'வைத்து',
|
||||
'வச்சி': 'வைத்து',
|
||||
'வாளைப்பழம்':'வாழைப்பழம்',
|
||||
'மண்ணு': 'மண்',
|
||||
'பொன்னு': 'பொன்',
|
||||
'சாவல்': 'சேவல்',
|
||||
'அங்கால': 'அங்கு ',
|
||||
'அசுப்பு': 'நடமாட்டம்',
|
||||
'எழுவான் கரை': 'எழுவான்கரை',
|
||||
'ஓய்யாரம்': 'எழில் ',
|
||||
'ஒளும்பு': 'எழும்பு',
|
||||
'ஓர்மை': 'துணிவு',
|
||||
'கச்சை': 'கோவணம்',
|
||||
'கடப்பு': 'தெருவாசல்',
|
||||
'சுள்ளி': 'காய்ந்த குச்சி',
|
||||
'திறாவுதல்': 'தடவுதல்',
|
||||
'நாசமறுப்பு': 'தொல்லை',
|
||||
'பரிசாரி': 'வைத்தியன்',
|
||||
'பறவாதி': 'பேராசைக்காரன்',
|
||||
'பிசினி': 'உலோபி ',
|
||||
'விசர்': 'பைத்தியம்',
|
||||
'ஏனம்': 'பாத்திரம்',
|
||||
'ஏலா': 'இயலாது',
|
||||
'ஒசில்': 'அழகு',
|
||||
'ஒள்ளுப்பம்': 'கொஞ்சம்',
|
||||
|
||||
# Srilankan and indian
|
||||
'குத்துமதிப்பு': '',
|
||||
'நூனாயம்': 'நூல்நயம்',
|
||||
'பைய': 'மெதுவாக',
|
||||
'மண்டை': 'தலை',
|
||||
'வெள்ளனே': 'சீக்கிரம்',
|
||||
'உசுப்பு': 'எழுப்பு',
|
||||
'ஆணம்': 'குழம்பு',
|
||||
'உறக்கம்': 'தூக்கம்',
|
||||
'பஸ்': 'பேருந்து',
|
||||
'களவு': 'திருட்டு ',
|
||||
|
||||
#relationship
|
||||
'புருசன்': 'கணவன்',
|
||||
'பொஞ்சாதி': 'மனைவி',
|
||||
'புள்ள': 'பிள்ளை',
|
||||
'பிள்ள': 'பிள்ளை',
|
||||
'ஆம்பிளப்புள்ள': 'ஆண் பிள்ளை',
|
||||
'பொம்பிளப்புள்ள': 'பெண் பிள்ளை',
|
||||
'அண்ணாச்சி': 'அண்ணா',
|
||||
'அக்காச்சி': 'அக்கா',
|
||||
'தங்கச்சி': 'தங்கை',
|
||||
|
||||
#difference words
|
||||
'பொடியன்': 'சிறுவன்',
|
||||
'பொட்டை': 'சிறுமி',
|
||||
'பிறகு': 'பின்பு',
|
||||
'டக்கென்டு': 'விரைவாக',
|
||||
'கெதியா': 'விரைவாக',
|
||||
'கிறுகி': 'திரும்பி',
|
||||
'போயித்து வாறன்': 'போய் வருகிறேன்',
|
||||
'வருவாங்களா': 'வருவார்களா',
|
||||
|
||||
# regular spokens
|
||||
'சொல்லு': 'சொல்',
|
||||
'கேளு': 'கேள்',
|
||||
'சொல்லுங்க': 'சொல்லுங்கள்',
|
||||
'கேளுங்க': 'கேளுங்கள்',
|
||||
'நீங்கள்': 'நீ',
|
||||
'உன்': 'உன்னுடைய',
|
||||
|
||||
# Portugeese formal words
|
||||
'அலவாங்கு': 'கடப்பாரை',
|
||||
'ஆசுப்பத்திரி': 'மருத்துவமனை',
|
||||
'உரோதை': 'சில்லு',
|
||||
'கடுதாசி': 'கடிதம்',
|
||||
'கதிரை': 'நாற்காலி',
|
||||
'குசினி': 'அடுக்களை',
|
||||
'கோப்பை': 'கிண்ணம்',
|
||||
'சப்பாத்து': 'காலணி',
|
||||
'தாச்சி': 'இரும்புச் சட்டி',
|
||||
'துவாய்': 'துவாலை',
|
||||
'தவறணை': 'மதுக்கடை',
|
||||
'பீப்பா': 'மரத்தாழி',
|
||||
'யன்னல்': 'சாளரம்',
|
||||
'வாங்கு': 'மரஇருக்கை',
|
||||
|
||||
# Dutch formal words
|
||||
'இறாக்கை': 'பற்சட்டம்',
|
||||
'இலாட்சி': 'இழுப்பறை',
|
||||
'கந்தோர்': 'பணிமனை',
|
||||
'நொத்தாரிசு': 'ஆவண எழுத்துபதிவாளர்',
|
||||
|
||||
# English formal words
|
||||
'இஞ்சினியர்': 'பொறியியலாளர்',
|
||||
'சூப்பு': 'ரசம்',
|
||||
'செக்': 'காசோலை',
|
||||
'சேட்டு': 'மேற்ச்சட்டை',
|
||||
'மார்க்கட்டு': 'சந்தை',
|
||||
'விண்ணன்': 'கெட்டிக்காரன்',
|
||||
|
||||
# Arabic formal words
|
||||
'ஈமான்': 'நம்பிக்கை',
|
||||
'சுன்னத்து': 'விருத்தசேதனம்',
|
||||
'செய்த்தான்': 'பிசாசு',
|
||||
'மவுத்து': 'இறப்பு',
|
||||
'ஹலால்': 'அங்கீகரிக்கப்பட்டது',
|
||||
'கறாம்': 'நிராகரிக்கப்பட்டது',
|
||||
# Persian, Hindustanian and hindi formal words
|
||||
'சுமார்': 'கிட்டத்தட்ட',
|
||||
'சிப்பாய்': 'போர்வீரன்',
|
||||
'சிபார்சு': 'சிபாரிசு',
|
||||
'ஜமீன்': 'பணக்காரா்',
|
||||
'அசல்': 'மெய்யான',
|
||||
'அந்தஸ்து': 'கௌரவம்',
|
||||
'ஆஜர்': 'சமா்ப்பித்தல்',
|
||||
'உசார்': 'எச்சரிக்கை',
|
||||
'அச்சா':'நல்ல',
|
||||
# English words used in text conversations
|
||||
"bcoz": "ஏனெனில்",
|
||||
"bcuz": "ஏனெனில்",
|
||||
"fav": "விருப்பமான",
|
||||
"morning": "காலை வணக்கம்",
|
||||
"gdeveng": "மாலை வணக்கம்",
|
||||
"gdnyt": "இரவு வணக்கம்",
|
||||
"gdnit": "இரவு வணக்கம்",
|
||||
"plz": "தயவு செய்து",
|
||||
"pls": "தயவு செய்து",
|
||||
"thx": "நன்றி",
|
||||
"thanx": "நன்றி",
|
||||
}
|
||||
|
||||
NORM_EXCEPTIONS = {}
|
||||
|
||||
for string, norm in _exc.items():
|
||||
NORM_EXCEPTIONS[string] = norm
|
Loading…
Reference in New Issue