ANSI vs UTF-8
ANSI og UTF-8 er to tegnkodningsskemaer, der er vidt brugt på et eller andet tidspunkt. Den største forskel mellem dem er brug, da UTF-8 alt sammen har erstattet ANSI som det valgte kodningssystem. UTF-8 blev udviklet til at skabe et mere eller mindre ækvivalent med ANSI, men uden de mange ulemper, det havde. Både UTF-8 og ANSI udvides fra det grundlæggende sæt tegn, der er fremsat af ASCII; så de to er dybest set ækvivalente når det kommer til de første 127 tegn.
Den første ulempe ved ANSI er dens anvendelse af en fast byte til at repræsentere tegn. Til sammenligning er UTF-8 mere fleksibel, da det er et multibytkodningsskema; afhængigt af brugernes behov, kan der bruges et sted mellem 1 og 6 byte til at repræsentere et tegn. Da ANSI kun bruger en byte eller 8 bit, kan den kun repræsentere maksimalt 256 tegn. Dette er intet i nærheden af de 1.112.064 tegn, kontrolkoder og reserverede slots i Unicode, der fuldt ud kan repræsenteres i UTF-8. Ved hjælp af et multibytkodningsskema er det muligt at rumme alle disse kodepunkter, men alligevel formår at forbruge minimal hukommelse. Den første byte af UTF-8 matcher ASCII nøjagtigt; derfor har de mest almindelige tegn kun brug for en enkelt byte.
For at rumme flere tegn var der oprettet flere ANSI-sider til forskellige sprog. Du kan derfor ikke bruge bestemte tegn på én gang, hvis de ikke hører til den samme kodeside. Det kræver også, at programmet på forhånd ved, hvilken kodeside, der bruges, eller de forkerte tegn vises. UTF-8 har ikke sådanne problemer, da hvert tegn har sit eget særskilte kodepunkt.
UTF-8 er overlegen på alle måder end ANSI. Der er ingen grund til at vælge ANSI frem for UTF-8 til at oprette nye applikationer, da alle computere kan afkode det. Den eneste grund til at bruge ANSI er, når du bliver tvunget til at køre et gammelt program, som du ikke har nogen erstatning til.
Resumé:
1.UTF-8 er en meget brugt kodning, mens ANSI er et forældet kodningsskema
2.ANSI bruger en enkelt byte, mens UTF-8 er et multibytkodningsskema
3.UTF-8 kan repræsentere en lang række karakterer, mens ANSI er temmelig begrænset
4.UTF-8 kodepunkter er standardiseret, mens ANSI har mange forskellige versioner