ASCII is de oudste tekencodering: 128 tekens (letters, cijfers, leestekens en besturingstekens) elk gekoppeld aan een getal van 0 tot 127. Unicode breidt dit uit tot meer dan 140.000 tekens voor vrijwel alle schrijfsystemen ter wereld. UTF-8 is de meest gebruikte manier om Unicode op te slaan.
| Standaard | Tekens | Gebruik |
|---|---|---|
| ASCII | 128 | Basis Engels alfabet |
| Latin-1 (ISO-8859-1) | 256 | West-Europese talen |
| Unicode | 140.000+ | Alle talen en symbolen |
| UTF-8 | (codering van Unicode) | Standaard op Linux en internet |
Linux gebruikt tegenwoordig overal UTF-8. De locale-instelling bepaalt welke codering wordt verwacht:
locale # actieve codering tonen
file tekst.txt # codering van een bestand detecteren
Verkeerde tekencoderingen veroorzaken "mojibake": tekst die als wartaal verschijnt. Dit gebeurt als een bestand in Latin-1 is opgeslagen maar als UTF-8 wordt gelezen.