வெள்ளி, 9 ஜூலை, 2010

தமிழெழுத்துப் பரம்பல் – 1

 Posted on

“எழுத்துச் சீர்குலைப்பாளர்கள் தமிழக அரசியலாரிடம் தங்களுக்கு இருக்கும் அணுக்கத்தைப் பயன்படுத்தி உலகத் தமிழ்ச் செம்மொழி மாநாட்டின் முடிவில் எழுத்துச் சீர்குலைப்பிற்கு ஆதரவாக ஓர் அரசாணை கொண்டுவர முயல்கிறார்கள்” என்று 10, 11 மாதங்களுக்கு முன் அரசல் புரசலாகச் செய்தி வெளிப்பட்டது. இது தெரிந்தவுடனேயே ”இதை நடக்க விட்டுவிடக் கூடாது, பலரையும் ஒருங்கு சேர்த்து நம்மால் முடிந்தவரை, பரவலாய் எதிர் வாதங்களைத் தொடுக்க வேண்டும், அதே பொழுது எழுத்துக்காப்பு வாதங்கள் ‘அவர் சொன்னார், இவர் சொன்னார்’ என்று வெறும் மேற்கோள் காட்டுவதாய் மட்டுமே அமையக்கூடாது. மாறாக, யாராலும் அளக்கக் கூடிய எண்ணக (measurable and quantitative) முறையில், அடிப்படை ஏரணங்களோடு (with basic logic), அமையவேண்டும்” என்று எங்களிற் சிலர் எண்ணினோம். எண்ணக முறை வாதங்களை எழுப்பும் பொறுப்பைச் சொவ்வறையாளர் (software specialist) திரு. நாக. இளங்கோவன் ஏற்றுக் கொண்டார். ”இகர, ஈகார, உகர, ஊகார உயிர்மெய்களான 72 எழுத்துக்களை மாற்றுவதால் எத்தனை விழுக்காட்டுத் தமிழ்ச் சொற்கள் தம் உருவை மாற்றிக் கொள்ளும்?” என்று அளவிடும் வகையில் நிரல் எழுத முன்வந்து, அந்தப் பணியைச் சிறப்பாகவே செய்தார். அதன் விளைவாக எழுத்துக் குலைப்புச் செய்கையின் முழுப் பரிமானம் பலருக்கும் புரிந்தது. [நாக.இளங்கோவனின் அலசல் அண்மையில் நடந்த செம்மொழி மாநாட்டில் மொழியியற் புலத்தில் கட்டுரையாகப் படிக்கப் பட்டது.] அதை விளக்குமுன் இவ்விடத்தில் ஒன்றைச் சொல்லவேண்டும்.

நாம் பேசும் மொழியிற் பொருள் பொதிந்த அடிக்கூறு சொல்லெனும் அளவை தான். சொற்களைப் புரிவதிற் தடுமாறினால் ஒரு புலனம் பற்றிய பொருட்புரிதல் இல்லாது போகும். சொற்கள் புரிவதற்கு எழுத்துக்கள் வசப் படவேண்டும். வீச்செழுத்துக்களில் இருந்து அச்செழுத்துக்களுக்கு வந்து சேர்ந்த 400 ஆண்டுகளிற் தான் நம்முடைய எழுத்துக்கள் பெரிதும் நிலை பெற்றிருக்கின்றன. There is no more change of shapes. இந்த எழுத்துக்களை இப்போது வலிந்து திருத்துவது என்பது ”பரமபத” விளையாட்டில் பெரிய பாம்பு கடித்து இரண்டாம் கட்டத்திற்குத் திரும்பப் போவது போன்றதாகும். இப்படி எத்தனை முறை இரண்டாம் கட்டத்திற்குப் போவது? மீண்டும் தொடக்கக் கட்டத்தில் இருந்து பொத்தகங்களைத் திரும்ப அச்சடித்து எல்லா வேலைகளையும் திரும்பச் செய்து நம்மைப் பின் தள்ளுவதற்கே இது போன்ற சீர்குலைப்பு வேலைகள் பயன்படும். தமிழிற் செய்வதற்கு எத்தனையோ வேலைகள் உள்ளன. அவற்றைச் செய்யாமல், எழுத்துத் திருத்தம் செய்ய முற்படுவது, வெட்டிவேலையேயாகும். எது உடையவில்லையோ, அதை உடைத்து ஒட்டாதீர்கள் என்று ஆங்கிலத்தில் ஒரு சொலவடை உண்டு. குழப்பமில்லாத எழுத்தை உடைத்து ஒட்டவைக்க முயல்வதும் அப்படி ஒரு நிலை தான். நம் உடம்பிற்குக் காய்ச்சல் இல்லாத போது காய்ச்சல் மருந்து சாப்பிடுவோமோ?

”எழுத்துக்களைத் திருத்துவதால் ஓர் ஆவணத்தில் எத்தனை சொற்களின் தோற்றம் மாறும்?” என்று கணக்கிடுவது ”எத்தனை இடங்களில் பொருளைப் புரிந்து கொள்ளத் தடுமாறுகிறோம், சோர்வடைகிறோம்” என்று கணித்துரைப்பதாகும். சொற்பொருள் புரிவதிற் தடுமாறவைக்கும் ஆவணங்களால் நாம் சலிப்படைந்து அவற்றைப் படிக்காமலே போய்விடுவோம். ஒரு பழைய ஆவணத்தைச் சீர்குலைப்பு எழுத்தில் வெளியிட்டுப் படிக்கவைத்தால் எத்தனை இடங்களில் நாம் படிக்க இடர்ப்படுகிறோமோ, அத்தனை முறை “இந்த ஆவணத்தை ஏன் படித்துத் தொலைக்கவேண்டும்?” என்ற எரிச்சல் நம்முள் மேலெழுந்து, அதன் விளைவாய் ஆவணத்தைக் கீழே போட்டு வேறு வேலை பார்க்கப் போய்விடுவோம். இது மாந்த இயல்பு. எல்லாம் நமக்குள் இருக்கும் பழக்கத் தோய்வே காரணம்.

இகர, ஈகார, உகர, ஊகார உயிர்மெய்களைத் திருத்துவதால் கிட்டத்தட்ட 80% தமிழ்ச்சொற்கள் தம் தோற்றத்தில் மாறுகின்றன என்று திரு. நாக. இளங்கோவன் தம் ஆய்வின் முடிவிற் கண்டறிந்தார். [அதாவது தமிழ்ச்சொற்களில் 80% சொற்கள் இகர, ஈகார, உகர, ஊகார உயிர்மெய்கள் பயிலாது எழுவதில்லை.] அதைப் பற்றிய விளக்கத்தை அவர் கட்டுரையிற் காணலாம். அதற்கு முன்னால் இயல்பான தமிழெழுத்துப் பரம்பல் (natural distribution of Tamil letters) பற்றிய செய்திகளை இங்கு பார்ப்போம். மேலே சொல்வது போல் சொல்லைக் கணக்கிற் கொள்ளாமல் வெறுமே எழுத்துப் பரம்பலை மட்டும் பார்ப்பது இன்னொருவகை அலசலாகும் அதை எனக்குத் தெரிந்து கி.பி.2000-த்தில் கல்பாக்கம் சு. சீனிவாசனும், அவருக்கு முன் 1990 களின் பிற்பாதியில் தகுதரக் (TSCII) குறியீட்டினரும் பார்த்திருந்தார்கள். எழுத்துக்கள் அடங்கிய சொற்களாகப் பார்ப்பது (நாக. இளங்கோவன் கொடுத்த புள்ளிவிவரம்) இதனின்று வேறுபட்டது. இரண்டு வகை அலசல்களுக்கும் தமிழிற் தேவைகள் உண்டு. ஒன்று இன்னொன்றிற்கு ஒளிகூட்டும். இந்தக் கட்டுரையில் எழுத்துப் பரம்பலின் வெவ்வேறு பரிமானங்கள் குறித்துப் பார்க்கப் போகிறோம்.

கல்பாக்கம் சு.சீனிவாசன் தமிழிணையம் 2000-த்தில், வேறொரு புலனத்தில், “அஸ்கி மற்றும் யுனிக்கோடு தமிழ்க் குறிமுறைகளின் சார்பு செயல்திறன் மதிப்பீடு” என்ற கட்டுரையில் தமிழ் உரையில் புழங்கும் எழுத்துக்களின் பரம்பலைக் குறித்திருந்தார். அதன்படி

நேர்ச்சிப் பெருவெண் %
(frequency of occurance)
அனைத்து உயிரெழுத்துக்கள்                                 7.35
அனைத்து மெய்யெழுத்துக்கள்                              29.45
அகர உயிர்மெய் எழுத்துக்கள்                                21.13
இகர, ஈகார உயிர்மெய் எழுத்துக்கள்                      11.47
உகர, ஊகார உயிர்மெய் எழுத்துக்கள்                    12.93
ஆகார, எகர, ஏகார, ஐகார உயிர்மெய் எழுத்துக்கள் 14.97
ஒகர, ஓகார, ஔகார உயிர்மெய் எழுத்துக்கள்           2.69

என்று எழுத்துப் பரம்பல் அமையும். இந்தப் புள்ளிவிவரம் சொற்களைக் கருதாமல் வெறுமே எழுத்துக்களை மட்டுமே பார்ப்பதாகும். இந்த விவரத்தில் ஆகாரம் பற்றிய புள்ளிவிவரத்தை அகரத்தோடும், ஐகார, ஔகார பற்றிய புள்ளிவிவரங்களைத் தனித்தும் கொடுத்திருந்தால் அவதானிப்பதற்கு நன்றாக இருந்திருக்கும். ஆனால் திரு. சீனிவாசன் அப்படித் தரவில்லை. இணையத்தில் இருந்து கிட்டத்தட்ட 4 இலக்கம் எழுத்துக்கள் அடங்கிய பல்வேறு ஆவணங்களை தம் ஆய்விற்கெனக் கீழிறக்கி அவற்றை வகைபிரித்து எண்ணிப் பார்த்துக் கணக்குப் போட்டு இந்தப் புள்ளிவிவரத்தை உருவாக்கியிருந்தார். இந்த விவரத்தின் சிறப்பு இற்றைத் தமிழின் எந்த ஆவணத்திலும் நிரவலாய்க் (average) கிடைக்கக் கூடிய தமிழெழுத்துப் பரம்பலைத் தெரிவிப்பதாகும்.

இதே போன்றதொரு புள்ளி விவரத்தை தகுதரக் குறியீட்டை (TSCII) உருவாக்கும் போது முனைவர் கல்யாண சுந்தரமும் ஓர் ஆவணத்தின் வழி வெளியிட்டிருந்தார். (முத்து நெடுமாறனும், மணிவண்ணனும் அந்த ஆவணத்திற் பங்களித்தார்கள் என்றே எண்ணுகிறேன். சரியாக நினைவில்லை.) பத்துப் பதினைந்து ஆண்டுகளிற் பழகிய என் பல்வேறு கணிகளில் ஏதோவொன்றில் அந்த ஆவணத்தின் படி (copy) சிக்கி, என்னால் மேலும் படியெடுத்துத்தர இயலாதிருக்கிறது. அந்த ஆவணம் வரலாற்றுக் காரணமாய்க் காக்கப் படவேண்டிய ஒன்று. உத்தமம் ஆவணக் காப்பகத்தில் திரு. கல்யாணசுந்தரம் அதைச் சேமித்து வைக்கலாம். அவர் அதை மீண்டும் வெளியிட்டால் நல்லது. நானறிந்து தமிழெழுத்துப் பரம்பலை அறிவியல் வழியில் முதன்முதலாய் அளந்து சொல்லிய ஆவணம் அதுவேயாகும். திரு. கல்யாணசுந்தரம் அளித்த புள்ளிவிவரத்திற்கும் சீனிவாசன் அளித்த புள்ளிவிவரத்திற்கும் பெரிதாய் வேறுபாடு கிடையாது. வேண்டுமானால், ஒருசில பதின்மப் புள்ளிகள் வேறுபட்டிருக்கலாம்.

இந்தப் பரம்பலில் இருந்து பெறப்படும் ஒரு சில முடிவுகள் நமக்குச் சற்று அதிர்ச்சியையும், வியப்பையும் கொடுக்கக் கூடியவை.

தமிழெழுத்து என்பது அரிச்சுவடி என்னும் எழுத்தசை வகையைச் சேர்ந்தது (alpha-syllabary, அதாவது எழுத்துக்களும் அசைகளும் சேர்ந்தது தமிழெழுத்தாகும்) என்று நாமெல்லோரும் அறிவோம். அரிச்சுவடியை அபுகிடா (abugida) வகை என்று ஒரு சில மேல்நாட்டார் அரைகுறைப் புரிதலிற் சொல்லுவார்கள். அது தவறு. ”அரிச்சுவடியும் அபுகிடாவும் முற்றிலும் வெவ்வேறானவை, அதே போல அரிச்சுவடியும் அல்வபெட் (alphabet) என்னும் அகரவரிசையும் வெவ்வேறானவை, இன்னுஞ் சொன்னால் அரிச்சுவடியும் மெய்யெழுத்து, அதைஉயிர்மெய்யாக்கத் துணைக்குறியீடு என்றியங்கும் அபுசட் (abujad) என்பதும் கூட வெவ்வேறானவை” என்ற கருத்தை அண்மையிற் செம்மொழி மாநாட்டில் பேரா. செல்வக் குமார் மிகத் தெளிவாகத் தெரிவித்திருந்தார்.

அரிச்சுவடி என்ற கலைச்சொல்லை அகரம் என்ற தமிழ்ச்சொல்லின் திரிவான அக்கரம்>அக்‌ஷரம் என்ற வடநாட்டுக் கலைச்சொல்லால் திரு. மணிவண்ணன் TACE 16 RFC document இல் கையாளுவார். அரிச்சுவடி என்ற தமிழ்க் கலைச்சொல்லும் அக்க்ஷரம் என்ற வடநாட்டுக் கலைச்சொல்லும் ஒன்றிற்கொன்று அப்படியே இணையானவை. மேல்நாட்டுக்காரர் புரிந்து கொள்ளுதற்காக அக்க்ஷரம் என்ற வடநாட்டுக் கலைச்சொல்லைப் பயன்படுத்துவதில் எனக்கொன்றும் மாறுபாடு இல்லை. தமிழில் அரிச்சுவடி என்ற கலைச்சொல்லையே நாம் பயன்படுத்துவோம் [அந்தக் காலத்தில் 50, 60 ஆண்டுகளுக்கு முன்னாற் கூட, நாட்டுப் புறங்களில் திண்ணப் பள்ளிக் கூடத்தில் அரிசிப் பரப்பில் எழுதித்தான் தமிழ்ப்பிள்ளைகளின் எழுத்துப் பயிற்சி (அக்க்ஷர அப்பியாசம்) தொடங்கும். அரி(சி)யில் எழுதத் தொடங்கும் எழுத்துவகை என்பதால் அரிச்சுவடி என்ற பெயர் ஏற்பட்டது.]

அரிச்சுவடி என்பது அடிப்படை எழுத்துக்களையும், அவற்றின் பெருக்கெழுத்துக்களையும் (product characters) உறுப்பாய்க் கொண்டது. அதாவது எழுத்தசை என்பதை ஒரு கொத்து (set) என்றால் உயிரெழுத்து  என்பது அதனுள் ஓர் உட்கொத்து (subset). (அதன் எண்ணிக்கை 12) மெய்யெழுத்து என்பது இன்னோர் உட்கொத்து.(அதன் எண்ணிக்கை 18. இதனுள் ஜ்,ஷ்,ஸ்,ஹ் என்ற நாலு கிரந்த எழுத்துச் சேர்த்தால் எண்ணிக்கை 22 ஆகும். அண்மையில் 3,4 ஆண்டுகளுக்குள் முன் ஒருங்குறிக்குள் சேர்த்த இன்னொரு z ஒலிச் சகரம் ஒரு முட்டாட்தனமான கூத்து. தமிழ்ப் பள்ளிக்கூடங்களில் யாருக்குஞ் சொல்லிக் கொடுக்காத, ஒரு சில விதப்பான, விரல்விட்டு எண்ணக் கூடிய, பயனாளர் மட்டுமே பயனாக்கும் எழுத்து அதுவாகும். இதுபோல அதிநுணுக்கச் சிறுபான்மையாளர் பயன்படுத்தும் எழுத்துக்களை எல்லாம் தமிழ் அரிச்சுவடியில் சேர்க்கத் தொடங்கினால், அப்புறம் தமிழெழுத்து என்பது எல்லையில்லாது போய்விடும். One has to put a full stop to these kinds of unwanted additions. க்ஷ் என்பது மெய்க்கூட்டு. மெய்க்கூட்டைத் தவிர்க்கும் தமிழில் அதைக் கணக்கில் சேர்த்ததும் தவறுதான். ஸ்ரீ என்பது ஒற்றைக் கூட்டெழுத்து.)

உயிர், மெய் ஆகிய இரண்டின் பெருக்கமாய் 12*18 = 216 எழுத்துக்களாய் (அல்லது கிரந்தம் சேர்த்தால் 12*22 = 264 எழுத்துக்களாய்) அமையும் உயிர்மெய்கள் இன்னோர் உட்கொத்து. இவை போக நாலாவது உட்கொத்து தொல்காப்பியரின் படி குற்றியலுகரம், குற்றியலிகரம், ஆய்தம் ஆகிய மூன்று உறுப்பினர் அடங்கியதாகும். ஆனால் இற்றைத் தமிழில் இது ஒரே உறுப்பினர் அடங்கிய உட்கொத்தாய் ஆகிவிட்டது. எல்லா உட்கொத்து உறுப்புகளையும் கூட்டிப் பார்த்தால், தமிழெழுத்து வரிசை மொத்தம் 247 எழுத்துக்கள் (கிரந்தம் சேர்த்தால் 12+22+12*22+1 = 300 எழுத்துக்கள்) கொண்டதாகும். இவற்றின் அடிப்படையில் எந்த ஆவணத்திலும், இயல்பாக ஏதேனும் ஓர்

உயிர்எழுத்துத் தோன்றுதற்கான பெருதகை (probability) = 12/247 = 0.048583 (கிரந்தம் சேர்த்தால் 0.04.)
இதே போல பெய்யெழுத்துப் பெருதகை = 18/247 = 0.0728745 (0.06)
அகர, ஆகார உயிர்மெய்ப் பெருதகை = 36/247 = 0.145749 (0.12)
இகர, ஈகார உயிர்மெய்ப் பெருதகை = 36/247 = 0.145749 (0.12)
உகர, ஊகார உயிர்மெய்ப் பெருதகை = 36/247 = 0.145749 (0.12)
எகர, ஏகார உயிர்மெய்ப் பெருதகை = 36/247 = 0.145749 (0.12)
ஐகார உயிர்மெய்ப் பெர்தகை = 18/247 = 0.0728745 (0.06)
ஒகர, ஓகார உயிர்மெய்ப் பெருதகை = 36/247 = 0.145749 (0.12)
ஔகார உயிர்மெய்ப் பெருதகை = 18/247 = 0.0728745 (0.06)

இந்தப் பெருதகைகளைக் கணக்கிடும் போது ஓரெழுத்தின் நேர்ச்சி (occurrence) இன்னோர் எழுத்தின் நேர்ச்சியைப் பாதிக்காது என்றும் இரண்டும் ஒன்றிற்கொன்று பந்துறாதவை (independant; பந்தம் = dependency) என்றும் நாம் கருதிக் கொள்ளுகிறோம் (hypothesize). ஆழ்ந்து ஓர்ந்து பார்த்தால் அத்தகைய கருத்து தமிழைப் பொறுத்தவரை உண்மையில்லை தான். எழுத்துக்களின் நேர்ச்சி பல சொற்களில் ஒன்றையொன்று சார்ந்திருப்பதைப் பலவிடத்தும் உணரமுடியும். காட்டாக, பங்து என்ற சொல் தமிழில் அமையவே அமையாது. அது பந்து என்று இருக்கலாம், அல்லது பங்கு என்று இருக்கலாம். ’ங்’ஙும், ’து’வும் எங்கும் சேரமுடியாத எழுத்துக்கள். இது போன்ற கட்டியப் பெருதகைகளைக் (conditional probablities) கணக்கிடுவது இன்றைய நிலையிற் கடினம் என்பதால், முடிவு சாய்வாக இருக்கலாம் எனினும் எழுத்துக்களின் நேர்ச்சி ஒன்றிற்கொன்று பந்துறாதவை என்றே இவ்வாய்வில் கருதிக் கொள்கிறோம்.

இனி தேற்றப் பெருதகையையும் (theoretical probability) மேலே சீனிவாசன் 4 இலக்கம் தமிழெழுத்துக்கள் கொண்ட ஆவணங்களை இறக்கிக் கணக்கெடுத்த இயல் நேர்ச்சியையும் ஒப்பிட்டுப் பார்த்தால், ஒரு புதிய செய்தி விளங்கும். இற்றைத் தமிழில் உயிரெழுத்துக்களும், மெய்யெழுத்துக்களும், அகர, ஆகார உயிர்மெய்களும் (ஆகார உயிர்மெய் நேர்ச்சியைச் சீனிவாசன் எகர, ஏகாரத்தோடு சேர்த்து விட்டார், எனவே குத்து மதிப்பாக 7 அல்லது 8 விழுக்காட்டை நாம் அகர உயிர்மெய் நேர்ச்சியோடு சேர்க்கலாம். அதற்குக் காரணம் இருக்கிறது  கீழே பார்ப்போம்.) எதிர்பார்க்கப்படும் பெருதகையைக் (expected probability) காட்டிலும் இருமடங்கு அதிகமாக நேர்ச்சியுறுகின்றன. அதே பொழுது இகர, ஈகாரங்களும் உகர, ஊகாரங்களும் கிட்டத்தட்ட நிரவலாக எதிர்பார்த்த பெருதகையையொட்டியே நேர்ச்சி கொள்ளுகின்றன. எகர, ஏகார, ஐகார, ஒகர, ஓகார, ஔகாரங்களும் எதிர்பார்க்கப் பட்ட பெருதகைக்கும் மிகக் குறைவாகவே நேர்ச்சி கொள்ளுகின்றன. [உயிரெழுத்து அதிகம் நேர்ச்சி கொள்ளுவது இந்தக் காலப் பழக்கமாய் இருக்கலாம். பெரும்பாலும் புணர்ச்சி பிரித்து எழுதும் காரணத்தால் உயிரெழுத்துக்கள் இயல் பெருதகையைக் காட்டிலும் அதிகமாகத் தோற்றங் கொள்ளலாம்.]

விவரித்துச் சொன்னால், தமிழ் அரிச்சுவடியில் 247 அசையெழுத்துக்கள் இருந்தாலும் நாம் 12+18+36 = 66 எழுத்துக்களையே அதிகமாகப் பயன்படுத்துகிறோம். இது ஒரு வியப்பான அவதானிப்பு. கிட்டத்தட்ட மூன்றில் இரண்டு பங்கு எந்தத் தமிழாவணத்திலும் இந்த 66 எழுத்துக்களே பயன்கொள்ளுகின்றன. Even though Tamil Script is alphasyllabary, it uses its alphabets and the akara, aakaara syllables more for articulation compared to other syllables. This is remarkable and perhaps characterizes Tamil language. தமிழின் இயல்பு இதுதான் போலும். இந்த இயல்பை காலந்தோறும் எழுந்த ஆவணங்களின் வழி ஆய்வு செய்வது பல்வேறு ஆய்வு முடிவுகளை நமக்கு உணர்த்தலாம்.  அதற்காக மற்ற அசைகளைத் தூக்கியெறிந்து விடலாமா என்றால் இல்லையென்றே சொல்லவேண்டும். ஓர் தமிழிசை விருந்தில் ”ஆ, அ …….என்று ஆலத்தி (ஆலாபனை) மட்டும் சொல்லிப் போக முடியாதே? நம்மையறியாமல் மூச்சை நிறுத்தி (மூச்சு நிறுத்தும் இடங்கள் எல்லாம் மெய் வந்தே தீரும்) பின் மாற்றும் போது மற்ற அசைகளைச் சொல்லும் கட்டாயத்திற்கு ஆளாகிறோம் அல்லவா?

மற்ற அசையெழுத்துக்கள் என்னவகையில் தமிழ் மொழியாளுகையில் பயன்படுகின்றன என்று ஆய்ந்து சொல்லவேண்டும். அதற்குப் பல்வேறு காலகட்டங்களில் உருவாகிய  இலக்கியங்களின், ஆவணங்களின் பல்வேறு கைச்சாத்துக்களை (signatures) அடையாளங் காணுவது நலம் பயக்கும்.

அன்புடன்,
இராம.கி.

கருத்துகள் இல்லை:

கருத்துரையிடுக