Unicode
Unicode je puvodne
šestnáctibitová tabulka znaku všech
existujících abeced, pozdeji
rozšírená na 31 bitu. Jeho autorem je Unicode
Consortium. Projekt Unicode zacal v roce 1988 a byl dovršen
v roce 1991 založením Unicode Consortium.
Vývoj
Ke konci osmdesátých
let 20. století vznikla naléhavá potreba
sjednotit ruzné kódové tabulky znaku pro
národní abecedy. Napríklad ceský jazyk
používal v informatice nejméne 5 ruzne
kódovaných tabulek (kódování
bratrí Kamenických, PC Latin 2, Windows 1250, ISO
Latin 2, … [1]). Vznikaly znacné problémy pri
spolupráci aplikací a pri prenosech dat mezi programy
a ruznými platformami. Podobná situace byla ve
všech jazycích, které nevystacily se
základní 7bitovou tabulkou ASCII znaku. V té
dobe vznikly soucasne dva projekty pro vytvorení
jednotné univerzální kódovací
tabulky znaku. Byl to projekt ISO 10646 organizace ISO a projekt
Unicode. Norma ISO definuje tzv. UCS - Universal Character Set.
Kolem roku 1991 došlo k dohode a projekty spojily své
úsilí na vytvorení jednotné tabulky.
Oba projekty stále existují a publikují
své standardy samostatne, ale tabulky znaku jsou
kompatibilní a jejích
rozširování je koordinováno.
Dnes
Unicode verze 1.1
odpovídá norme ISO 10646-1:1993, Unicode 3.0
odpovídá ISO 10646-1:2000, Unicode 4.0
odpovídá pripravované tretí verzi ISO
10646. Všechny verze Unicode od 2.0 výše jsou
kompatibilní, jsou pridávány pouze nové
znaky, existující znaky nejsou vyrazovány nebo
prejmenovávány. Standard Unicode se oproti ISO 10646
navíc zabývá implementací algoritmu pro
písma psaná zprava doleva (napr. arabština),
podporou oboustranných textu (jako napr. smes
hebrejštiny a latinky), algoritmy pro razení a
porovnávání textu. Bohaté možnosti
Unicode mají i nevýhody, predevším
vznikají problémy s nekompatibilitou se
staršími aplikacemi, které jsou
orientovány na jednobytové znaky. Také velmi
narustá délka textu. Textové retezce v Unicode
mohou obsahovat byty, které mají
zvláštní význam pro programovací
jazyky (napr. binární nuly), nebo operacní
systémy (napr. lomítka oddelující
adresáre ve specifikaci souboru). Z tohoto duvodu byl
navržen systém kódování znaku
Unicode, nazývaný UTF (UCS Transformation Format).
Nejpoužívanejší variantou je UTF-8,
popsaný v ISO 10646-1:2000 Annex D a také v RFC 3629.
Formát UTF-8 kóduje znaky Unicode do sekvence 1
až 6 bytu. Pro ceskou abecedu stací pro znaky bez
diakritiky jeden byte a pro znaky s diakritikou dva byty. UTF
kódování odstranuje všechny
nevýhody neupraveného Unicode. Dále
existují formáty UTF-16 a UTF-32. V soucasné
chvíli existuje Unicode ve verzi 5.0.0, které
vyšlo v roce 2006. Oproti predchozí 4.1.0 bylo do
nové verze zarazeno 1 369 nových znaku. Celkem se
jejich pocet rozšíril na 238 676 znaku a symbolu
ruzných jazyku. Unicode Consortium již v této
chvíli zarucuje, že všechny nové verze
budou zpetne kompatibilní s predchozími, tj. že
nové standardy budou pridávat další
znaky, ale žádné již nebudou odstranovat
ani menit.
Znaky
Unicode
Znak Unicode muže být
až 31 bitu dlouhý. Tento rozsah (maximálne 231 =
2147483648 ruzných znaku) pokrývá
všechny známé znakové sady jazyku na
Zemi, vcetne japonského nebo cínského
písma. Používá se dále pro
fonetické abecedy (pro zápis výslovnosti),
speciální vedecké a matematické
symboly, kombinované znaky a podobne. Každý znak
má jednoznacný císelný kód a
svuj název. Binární podobu reší
konkrétní kódování.
Operacní
systémy
Znaková sada Unicode se
stále více prosazuje v aplikacích i
operacních systémech. Unicode pro vnitrní
zápis znaku používá Microsoft Windows od
verze NT pres 2000 až po Windows Vista.
Precházejí na ni i další
operacní systémy, napr. nekteré distribuce
Linuxu (Red Hat, Fedora).
Aplikace
Nekteré starší
aplikace Unicode (dosud) nepodporují. Na druhé strane
pro nekteré systémy je Unicode již jedinou
používanou znakovou sadou. Programovací jazyky
Java a jazyky podporující Common Language
Infrastructure (napr. C#) vnitrne používají
šestnáctibitou verzi Unicode a navenek
podporují mnoho ruzných
kódování. Též systémy
rízení báze dat dnes již casto
používají Unicode pro uložení
znakových údaju. Na Unicode je založen
kancelárský balík Microsoft Office od verze
97. Unicode je výchozí znakovou sadou pro XML.Na
rozdíl od drívejších
osmibitových tabulek znaku jako je bratrí
Kamenických, Latin 2, Windows-1250 ci ISO-8859-2 lze
všechny znaky zobrazit zároven; v jednom textu lze
tedy kombinovat napr. ceštinu, ruštinu a
rectinu.
Zdroj:
wikipedia
Tak a ted konecne
neco k samotné keši:
Na
výchozích souradnicích
nehledejte.