HTML til XML: Udvidelse af markeringssprog
Et stort flertal af mennesker, der er i computerbranchen, ved hvad HTML (Hypertext Markup Language) er. Det har eksisteret i meget lang tid og er blevet brugt i vid udstrækning i websidedesign, at selv om det allerede er sjældent at se websider, der udelukkende er skrevet i HTML, betragtes det som en grundlæggende viden til hele processen med at oprette websider.
XML (Extensible Markup Language) er på den anden side en nyere og meget mindre kendt teknologi sammenlignet med HTML. XML blev oprettet i 1996 af en gruppe på 11 personer som en tilpasning af SGML (Standard Generalized Markup Language) til brug på World Wide Web. XML er et mere struktureret og strengt markupsprog sammenlignet med HTML, der gjorde det muligt for brugere at oprette deres egne definitioner og modulariseret kode. Det blev lavet for at oprette en standardiserede specifikationer til oprettelse af tilpassede markeringssprog, der nu er kendt som XML-dialekter. Det fremgår muligvis ikke med det samme, men brugerdefinerede markup-sprog som HTML, RSS og Atom blev alle bygget fra XML som en metode til at øge brugbarheden på internettet.
Da XML blev tilpasset fra SGML, indeholder den en masse kode og teknikker, der oprindeligt var fra SGML, som dens strenghed og en såkaldt velformet. Karakteristika, der også strækker sig til XMLs efterkommere. Visse regler skal altid overvejes, når du opretter kode, der er baseret på XML. Der er endda en veldannet erklæring med hvert dokument til at angive, hvilken type dokument det er, og til hvilke regler skal behandlingen baseres på. Dette er meget forskelligt sammenlignet med den meget afslappede kodning, der bruges i HTML.
Når du behandler en HTML-side, ville du have en slags resultat uanset hvad input var. HTML-processoren forsøger at give mening om, hvad der var i dokumentet, og skaber en output, som den synes bedst repræsenterer inputdataene. Dette er ikke sandt kommer til XML. XML anvender en fejlhåndteringsmekanisme, der betragtes som 'drakonisk'. Hver gang XML-processoren støder på noget, den ikke kan forstå, opretter den bare en fejlrapport og afslutter behandlingen af filen. Det giver dig et fejlfelt og intet resultat i modsætning til i HTML.
For at sætte det i perspektiv er HTML et markup-sprog, der bruges til hurtigt og nemt at få vist en eller anden form for output. Det vedrører ikke sig selv inputens korrekthed, men prøver bare at oprette et output baseret på input-filen. XML er på den anden side et meget strengt markeringssprog, som normalt ikke bruges til at oprette indhold. Dens primære anvendelse er som et værktøj til at oprette andre markup-sprog, der skaber det nødvendige indhold.