ascii碼占用幾個字節（各種字符編碼長度）

問題 05-21 9

ASCII：

ASCII碼用一個字節（8bit）表示，總共有128個，包含了大小寫字母、數字和一些符號。

GB2312：

為了把中文進行編碼，中國制定了GB2312編碼，一個中文占用兩個字節。

Unicode：

全世界各個國家都有自己的編碼標準，那么在使用到多個國家的文字的文本時就會出現亂碼。

這時Unicode編碼標準出現了，Unicode把各種文字都統一到Unicode字符集里，一個字符占用兩個字節，比較生僻的字符需占用4個字節。

UTF-8：

Unicode標準解決了各個國家文字編碼的沖突問題，這時如果有一文本主要都是英文的話，使用Unicode編碼所需要的存儲空間就比Ascii編碼要多一倍。于是UTF-8出現了，UTF-8是一種可變長編碼，它把Unicode字符編碼成1-6個字節，漢字是3個字節，比較生僻的需要4-6個字節，而且UTF-8編碼很好地兼容ASCII編碼，使得原來使用ASCII編碼的軟件能夠正常運行。

因為在內存中定長的編碼可以被快速訪問到，所以為提高處理效率，在計算機內存中使用Unicode編碼。而為提高存儲利用率，需要存儲到硬盤時使用UTF-8編碼。

用記事本編輯的時候，從文件讀取的UTF-8字符被轉換為Unicode字符到內存里，編輯完成后，保存的時候再把Unicode轉換為UTF-8保存到文件。

The End

發布于：2023-05-21，除非注明，否則均為問題網原創文章，轉載請注明出處。

相關文章