Unicode vs UTF-8
Udviklingen af Unicode havde til formål at skabe en ny standard til kortlægning af tegnene på et stort flertal af de sprog, der bruges i dag, sammen med andre tegn, der ikke er så vigtige, men som muligvis er nødvendige for at oprette teksten. UTF-8 er kun en af de mange måder, du kan kode filerne på, fordi der er mange måder, du kan kode tegnene i en fil til Unicode.
UTF-8 blev udviklet med tanke på kompatibilitet. ASCII var en meget fremtrædende standard, og folk, der allerede havde deres filer i ASCII-standarden, kunne tøve med at vedtage Unicode, fordi det ville ødelægge deres nuværende systemer. UTF-8 fjernede dette problem, da enhver fil, der kun er kodet med tegn i ASCII-tegnsættet, ville resultere i en identisk fil, som om den var kodet med ASCII. Dette gjorde det muligt for folk at vedtage Unicode uden at skulle konvertere deres filer eller endda ændre deres nuværende ældre software, der ikke var opmærksom på Unicode-standarden. Enhver af de andre kortlægningsmetoder til Unicode bryder kompatibiliteten med ASCII og vil tvinge folk til at konvertere deres system.
Overholdelsen af kompatibilitet med ASCII til UTF-8 giver en bivirkning, der gør den ideel til tekstbehandling, hvor det meste af tiden, alle de tegn, der bruges, er inkluderet i ASCII tegnsættet. UTF-8 bruger kun en byte til at repræsentere hvert kodepunkt, hvilket resulterer i en filstørrelse, der er halvdelen til den samme fil, der er kodet i UT-16, der bruger 2 byte, og en fjerdedel til den samme fil kodet i UTF-32, der bruger 4.
UTF-8 er blevet brugt på World Wide Web, fordi det er både pladseffektivt og byteorienteret. Websider er ofte enkle tekstfiler, der normalt ikke indeholder noget tegn, der er uden for ASCII-tegnsættet. Brug af andre kodningsmetoder ville kun øge netværksbelastningen uden nogen fordel. Selv i e-mail-transportsystemer vedtages UTF-8 langsomt men sikkert som en erstatning for de ældre kodesystemer, der stadig bruges.
Resumé:
1. Unicode er standarden for computere til at vise og manipulere tekst, mens UTF-8 er en af de mange kortlægningsmetoder for Unicode
2. UTF-8 er en kortlægningsmetode, som bevarer kompatibiliteten med det ældre ASCII
3. UTF-8 er den mest pladseffektive kortlægningsmetode for Unicode sammenlignet med andre kodningsmetoder
4. UTF-8 er den mest anvendte Unicode-standard til internettet