ASCII, Unicode en UTF-8

ASCII is de oudste tekencodering: 128 tekens (letters, cijfers, leestekens en besturingstekens) elk gekoppeld aan een getal van 0 tot 127. Unicode breidt dit uit tot meer dan 140.000 tekens voor vrijwel alle schrijfsystemen ter wereld. UTF-8 is de meest gebruikte manier om Unicode op te slaan.

Hoe het samenhangt

StandaardTekensGebruik
ASCII128Basis Engels alfabet
Latin-1 (ISO-8859-1)256West-Europese talen
Unicode140.000+Alle talen en symbolen
UTF-8(codering van Unicode)Standaard op Linux en internet

UTF-8 op Linux

Linux gebruikt tegenwoordig overal UTF-8. De locale-instelling bepaalt welke codering wordt verwacht:

locale              # actieve codering tonen
file tekst.txt      # codering van een bestand detecteren

Waarom het belangrijk is

Verkeerde tekencoderingen veroorzaken "mojibake": tekst die als wartaal verschijnt. Dit gebeurt als een bestand in Latin-1 is opgeslagen maar als UTF-8 wordt gelezen.

Zie ook

  • locale — taal- en coderingsinstellingen op Linux
  • bash — shell die UTF-8-invoer verwerkt
ictlinuxtekst