GZIP vs BZIP2
GNU zip (også kendt som GZIP) er en softwareprogram med det formål at komprimere filer. Det var oprindeligt beregnet til at erstatte komprimeringsprogrammet, der blev brugt i de tidlige Unix-systemer - til brug i GNU-projektet (et gratis softwareprojekt).
BZIP2 er en open source-tabsfri datakomprimeringsalgoritme - dybest set en klasse af datakomprimeringsalgoritmer, der gør det muligt for de originale data i en komprimeret fil at blive fuldstændigt rekonstrueret fra de komprimerede data.
GZIP er baseret på en algoritme kendt som DEFLATE. Dette er også en tabsfri datakomprimeringsalgoritme. Den bruger både LZ77-algoritmen og Huffman-kodning. Grundlæggende henviser GZIP til filformatet med samme navn. Dette format er et 10-bytes overskrift, der indeholder et magisk nummer (hvilket betyder en numerisk eller tekstværdi, der aldrig ændres og bruges til at betegne et filformat eller protokol, en ikke navngivet numerisk værdi, der aldrig ændres, eller forskellige værdier, der ikke kan forveksles til noget andet), ekstra overskrifter, der måske eller måske ikke er nødvendigt (f.eks. originalt filnavn), et organ, der indeholder en DEFLATE-komprimeret nyttelast (som er de data, som overskrifterne bærer), og en sidefod på 8 byte som indeholder en CRC-32-kontrolsum såvel som den faktiske længde på de originale ukomprimerede data.
Der er en række komprimeringsteknikker, som BZIP2-formatet bruger, som er stablet oven på hinanden i flere lag. De forekommer i en meget karakteristisk rækkefølge: Kørelængde-kodning (som er en hvilken som helst sekvens på fire til 255 duplikatsymboler, der er erstattet af de første fire symboler, og en kodelængde, der gentages mellem 0 og 251), Burrows-Wheeler-transformation ( hvilket er den reversible blok-sortering, der udgør kernen i BZIP2), Flyt til fronten (efterlader størrelsen på den behandlede blok uændret), Kørelængde-kodning (som består af lange strenge af symboler - normalt nuller - der konstant gentages i output og erstattes af både symbolet og en række af to koder), Huffman-kodning (som er en proces, der erstatter symboler med fast længde på 8-bit-bytes med skiftende længdekoder), Multiple Hoffman-kodning (som består af flere Hoffman-tabeller af identisk størrelse), Unary base 1-kodning, Delta-kodning og Sparse bit-array.
Resumé:
1. GZIP er et gratis program, der bruges til at komprimere filer; BZIP2 er en open source-tabsfri datakomprimeringsalgoritme, der gør det muligt at hente de originale data fra en komprimeret fil.
2. GZIP består af et 10-bytes overskrift, valgfri overskrifter, et organ og en 8-bytes fod; BZIP2 består af ikke mindre end ni lag komprimeringsteknikker.