ascii碼占用幾個字節(各種字符編碼長度)

博主:問題問題 05-21 9

ASCII:

ASCII碼用一個字節(8bit)表示,總共有128個,包含了大小寫字母、數字和一些符號。

GB2312:

為了把中文進行編碼,中國制定了GB2312編碼,一個中文占用兩個字節。

Unicode:

全世界各個國家都有自己的編碼標準,那么在使用到多個國家的文字的文本時就會出現亂碼。

這時Unicode編碼標準出現了,Unicode把各種文字都統一到Unicode字符集里,一個字符占用兩個字節,比較生僻的字符需占用4個字節。

UTF-8:

Unicode標準解決了各個國家文字編碼的沖突問題,這時如果有一文本主要都是英文的話,使用Unicode編碼所需要的存儲空間就比Ascii編碼要多一倍。于是UTF-8出現了,UTF-8是一種可變長編碼,它把Unicode字符編碼成1-6個字節,漢字是3個字節,比較生僻的需要4-6個字節,而且UTF-8編碼很好地兼容ASCII編碼,使得原來使用ASCII編碼的軟件能夠正常運行。

因為在內存中定長的編碼可以被快速訪問到,所以為提高處理效率,在計算機內存中使用Unicode編碼。而為提高存儲利用率,需要存儲到硬盤時使用UTF-8編碼。

用記事本編輯的時候,從文件讀取的UTF-8字符被轉換為Unicode字符到內存里,編輯完成后,保存的時候再把Unicode轉換為UTF-8保存到文件。

The End

發布于:2023-05-21,除非注明,否則均為問題網原創文章,轉載請注明出處。