Als ich den Wikipedia-Artikel über UTF-8 gelesen habe, habe ich mich über den Begriff übermäßig gefragt Dieser Begriff wird mehrmals verwendet, aber der Artikel enthält keine Definition oder Referenz für seine Bedeutung.
Ich würde gerne wissen, ob jemand den Begriff und seinen Zweck erklären kann.
Es ist eine Codierung eines Codepunkts, der mehr Codeeinheiten als benötigt benötigt.
Zum Beispiel wird U + 0020 in UTF-8 durch das einzelne Byte 0x20
dargestellt. Wenn Sie die beiden Bytes 0xc0 0xa0
normal dekodieren, landen Sie immer noch bei U + 0020, aber das ist eine ungültige Darstellung.
Das Unicode Corrigendum # 1 enthält weitere Informationen, insbesondere zu Tabelle 3.1B.
Tags und Links character-encoding utf-8 unicode sequences codepoint