UTF-8 vs UTF-16
UTF står for Unicode Transformation Format. Det er en familie af standarder til kodning af Unicode-tegnsættet til dets ækvivalente binære værdi. UTF blev udviklet, så brugerne har et standardiseret middel til at kode koderne med den minimale pladsmængde.UTF-8 og UTF 16 er kun to af de etablerede standarder for kodning. De adskiller sig kun i hvor mange byte de bruger til at kode for hvert tegn. Da begge er kodet med variabel bredde, kan de bruge op til fire byte til at kode dataene, men når det kommer til minimum, bruger UTF-8 kun 1 byte (8bits), og UTF-16 bruger 2 byte (16bits). Dette har en enorm indflydelse på den resulterende størrelse på de kodede filer. Når du kun bruger ASCII-tegn, ville en UTF-16-kodet fil være omtrent dobbelt så stor som den samme fil, der er kodet med UTF-8.
Den største fordel ved UTF-8 er, at den er bagudkompatibel med ASCII. ASCII-tegnsættet er fast bredde og bruger kun en byte. Ved kodning af en fil, der kun bruger ASCII-tegn med UTF-8, vil den resulterende fil være identisk med en fil kodet med ASCII. Dette er ikke muligt, når du bruger UTF-16, da hvert tegn ville være to bytes langt. Ældre software, der ikke er bekendt med Unicode, kunne ikke åbne UTF-16-filen, selvom den kun havde ASCII-tegn.
UTF-8 er byteorienteret format og har derfor ingen problemer med byteorienterede netværk eller fil. UTF-16 er på den anden side ikke byteorienteret og er nødt til at etablere en byteordre for at arbejde med byteorienterede netværk. UTF-8 er også bedre til at gendanne fra fejl, der ødelægger dele af filen eller strømmen, da den stadig kan afkode den næste ukorrupte byte. UTF-16 gør nøjagtigt det samme, hvis nogle byte er beskadiget, men problemet ligger, når nogle byte går tabt. Den mistede byte kan blande de følgende bytekombinationer, og slutresultatet ville blive forvirret.
Resumé:
1. UTF-8 og UTF-16 bruges begge til kodning af tegn
2. UTF-8 bruger mindst en byte ved kodning af tegn, mens UTF-16 bruger to
3. En UTF-8-kodet fil har en tendens til at være mindre end en UTF-16-kodet fil
4. UTF-8 er kompatibel med ASCII, mens UTF-16 er inkompatibel med ASCII
5. UTF-8 er byteorienteret, mens UTF-16 ikke er
6. UTF-8 er bedre til at komme sig efter fejl sammenlignet med UTF-16