ஞாயிறு, 9 ஜனவரி, 2011

யுனிக்கோடு: கிரந்தக் கலப்பின் பல்வேறு பக்கங்கள் – வினா-விடை – பகுதி-1

 தமிழ் உலகில் குறிப்பாகக் கடந்த 3 மாதங்களாக  நிலவுகின்ற, “தமிழ்-ஒருங்குறியில் கிரந்தக் கலப்பு” பற்றிய விதயங்களை, பல் துறை சார்ந்தோர்க்கும் அறியத்தரும் வண்ணம் இந்த ஆவணத்தை அமைக்க முயன்றிருக்கிறேன். இது அடிக்கடி ஊடாடும் வினாக்கள் (FAQ) முறையையும் கட்டுரை விளக்க முறையையும் உள்ளடக்கியதாக அமைகிறது. ஒருங்குறி அடிப்படைகள், அதன் கட்டமைப்பு, கிரந்த நுழைப்பு முன்மொழிவுகள், கடந்த 3 மாதங்களில் நிகழ்ந்தவை பற்றிய குறிப்புகள், தற்போது நிலவுகின்ற குழப்பங்கள் ஆகியவற்றை விளக்குவதாகவும், தமிழ்ப் பற்றாளரும் தமிழக அரசும் மேற்கொள்ள வேண்டிய பணிகளைப் பற்றிய பார்வை காட்டுவதாகவும் இது அமைகிறது.

*தொகுதி-1: ஒருங்குறி – அறிமுகம்*

*1) யுனிக்கோடு என்றால் என்ன?*

கணியிற் பல்வேறு மொழி எழுத்துக்களை இப்பொழுது எழுதவும், படிக்கவும் முடிகிறது. ஆனால் ஒருகாலத்தில்
உலகம் முழுவதிலும், ஆங்கிலத்தைத் தவிர, பலமொழிகளின் எழுத்துக்களை எழுதுவதிலும், படிப்பதிலும் சிக்கல்கள் இருந்தன. தவிர ஒவ்வொரு மொழியெழுத்துக்குள்ளும் பல்வேறு எழுத்துத் தரப்பாடுகள் இருந்தன. தமிழிலும் ஒருகாலத்தில் கணியில் எழுதப் படிக்கப் பல்வேறு எழுத்துத் தரப்பாடுகள் புழங்கிக் கொண்டிருந்தன.

ஒவ்வொருவரும் தங்களுக்குப் பிடித்த எழுத்துத் தரப்பாட்டில் தமது இணையத் தளங்களையும், செய்தி ஏடுகள், மாத வார இதழ்களையும் வெளியிட்டனர்.

ஒவ்வொரு இதழையும் இனையத்தளத்தையும் படிக்க வேண்டுமானால் ஒவ்வொன்றுக்கும் உரிய எழுத்துத் தரப்பாட்டையும் எழுத்துருவையும் கணியில் இருத்த வேண்டிய கட்டாயம் இருந்தது.

இல்லாவிட்டால் அவற்றைப் படிக்கவோ, அச்சிடவோ, பறிமாறிக்கொள்ளவோ முடியாதிருந்தது.அதனால் தமிழ்ப் படைப்புகள் கணியிலும் இணையத்திலும் பல்லாயிரக் கணக்கில் இருந்தாலும் அவை தனித் தனித்
திடல்களாகக் கிடந்ததால் அவற்றைப் புழங்கும் பயனர்களுக்குப் பல்வேறு சிக்கல்கள் இருந்தன. அவை மொழி வளர்ச்சிக்குத் தடையாகவும் இருந்தன.

இதே நிலைதான் உலகில் இருக்கும் பல்வேறு மொழிபேசும் மக்களுக்கும் இருந்தன.

ஆகவே, உலகில் உள்ள எல்லா மக்களும் கணியில் எளிதில் புழங்க, உலகின் எல்லா எழுத்து முறைகளையும் (Writing Systems) உள்ளடக்கி ஒரு எழுத்துத் தரப்பாடு (Character Encoding Standard) உருவாக்கப் பட்டது.
அதற்குப் பெயர் தான் ஒருங்குறி என்கின்ற யுனிக்கோடு (Unicode) எழுத்துமுறையாகும்.

தமிழி எழுத்துமுறையை உள்ளடக்கிய ஒருங்குறியின் உலகப் பயனை உணர்ந்த தமிழ்க் கணிஞர்களும் பயனர்களும் அந்தத் தரப்பாட்டுக்கு சிறிது சிறிதாக மாறினர். தமிழ்நாட்டரசும் 2010 சூன் மாதத்தில் நடந்த செம்மொழி மாநாட்டில் ஒருங்குறிக்கு ஏற்பளித்து அரசின் தரப்பாடாக அறிவித்தது.

யுனிக்கோடு அல்லது ஒருங்குறியில் எத்தனை எழுத்து முறைகள் உள்ளன?
இதுவரை, தமிழ் உள்ளிட்ட ஏறத்தாழ 93 எழுத்து முறைகள் ஒருங்குறித் தரப்பாட்டுக்குள் கொண்டு வரப்பட்டிருக்கின்றன.
அரபி எழுத்துமுறை, சீன முறை, ஈபுரு, இலத்தீனம், சிரில்லிக்கு, தமிழ், தேவநாகரி, மங்கோலியம், தெலுங்கு, வங்கம் போன்றவை இவற்றுள் சில எடுத்துக்காட்டுகளாகும்.

*2) எழுத்துரு (Font) என்றால் என்ன?*
***
*கணித்திரையிலும் அச்சிலும் நாம் காணுகின்ற எழுத்துக்களுக்கு வடிவ ஒழுங்கைத் தருவது எழுத்துருக் கோப்பு (Font Files) ஆகும். இதனைச் சுருக்கமாக எழுத்துரு என்கிறோம். வடிவம், அடர்த்தி, பயன்பாடு ஆகியவற்றின்
அடிப்படையில் பல நிறுவனங்களும், தனியாரும் அவரவர் தேவைக்கேற்ப எழுத்துருக் கோப்பை உருவாக்கிக் கொள்ளலாம். பரணர், இலதா, கண்ணகி போன்று பல நூறு எழுத்துருக் கோப்புகளைத் தமிழில்  உருவாக்கியிருக்கிறார்கள்.

*3) எழுத்துத் தரப்பாடும்(Encoding) எழுத்துருவும்(Font) வெவ்வேறா?*

ஆமாம்; இரண்டும் வெவ்வேறானவை. எழுத்துத் தரப்பாடு என்பது ஒவ்வொரு எழுத்துக் குறிக்கும் ஒரு குறியெண்ணைக் (Code Point) கொடுத்து அதனைக் கணியின் செயற்பாட்டிற்குள் பொருத்திய செந்தர வரைவாகும்(Standard Definition). இந்தக் குறி எண்கள் பதினறும எண்கள் ஆகும்.

எடுத்துக்காட்டு:

U+0B85 என்ற குறியெண் தமிழ்க்குறியான “அ” வைக் குறிக்கும்.
U+0BBE என்ற குறியெண் தமிழ்க்குறியான கால் “ா” ஐக் குறிக்கும்.
U+0BB5 என்ற குறியெண் தமிழ்க்குறியான “வ” வைக்குறிக்கும்.
U+0041 என்ற குறியெண் ஆங்கிலக்குறியான “A” யைக் குறிக்கும்.

“வா” என்ற எழுத்தைத் திரையில் காட்ட வேண்டுமானால் U+0BB5 என்ற குறியெண்ணுடைய “வ” குறியையும், U+0BBE என்ற குறியெண்ணுடைய “ா” என்ற காற் குறியையும் இணைத்துக் காட்டுவார்கள். கணிக்குள் இந்தப் பதினறும எண்கள் இரும எண்களாக மாற்றப்பட்டுச் செயல்படும்.

ஆகவே தமிழில் உள்ள பல அடிப்படைக் குறிகள், உயிர்மெய்க் குறிகள், தமிழ் எண்கள் போன்றவற்றின் வடிவங்களை எண்ணுமைப் படுத்தும் தரமே எழுத்துத்தரப்பாடாகும். தமிழ் அகரமெய்களும், உயிர்களும் அங்கு அ டிப்படைக் குறிகளாக உள்ளன. அவை அப்படியே கணித்திரையிலோ, கணியச்சியிலோ, எழுத்தாக வெளிவரும். பிற உயிர்மெய் எழுத்துக்கள் வெளிவர வேண்டுமானால் அடிப்படைக் குறிகளையும் தக்க உயிர்மெய்க் குறிகளையும் அடுத்தடுத்து
ஒட்டுப்போட்டுத்தான் பெறமுடியும்.

இந்தச் செந்தரக் குறியீடுகளைப் பயன்படுத்தி நாம் விரும்பிய வடிவழகில் எண்ணற்ற எழுத்துருக் கோப்புகளை ஏற்படுத்திக் கொள்ளலாம். ஒருங்குறித் தரப்பாட்டை எல்லாக்கணிகளின் கட்டமைப்பும் சொவ்வறைகளும் (Softwares),
நிரலிகளும் (Programs), செயலிகளும்(Applications) உள்ளடக்கியிருக்கின்றன. அத் தரப்படிச் செய்யப்படும் எழுத்துருக்கள் செந்தரத்தின் பயனை அளிக்கின்றன.

கருத்துகள் இல்லை:

கருத்துரையிடுக