開發網站,您會選擇什麼字符編碼?

有關 Web 字符編碼的問題,已經是老生常談。今天看到 一峰 兄弟和 Lunatic Sun 不謀而合的談到有關 UTF-8 的使用現狀,也談談我的看法。
上圖是 Google 根據近年 Web 頁面編碼趨勢的一個總結。我很欣喜的看到 UTF-8 編碼已經成為了主流,而猶如 一峰 兄弟所言,讓人堪憂的是中文字符編碼還是呈現很平穩的趨勢,這說明目前 UTF-8 編碼並沒有在中文網站中推廣開來。

上圖是 Google 根據近年 Web 頁面編碼趨勢的一個總結。我很欣喜的看到 UTF-8 編碼已經成為了主流,而猶如 一峰 兄弟所言,讓人堪憂的是中文字符編碼還是呈現很平穩的趨勢,這說明目前 UTF-8 編碼並沒有在中文網站中推廣開來。

究其原因,本人認為會有如下幾點:

第一,中文編碼(無論是 GBK、GB2312、GB18030 等)都變成了「傳統」,畢竟這是 中文 的編碼。開發者不願意在字符編碼這塊花太多的心思。

第二,由於早期項目的原因,不得不繼續使用 GBK 等中文編碼。

我 曾經就遇到過這樣的一個項目,當時我很奇怪他們為什麼不用 UTF-8,因為他們面對的客戶不僅僅是國內用戶。而解決這一方案的辦法就只能是使用非常勞累的手段,但這是指標不治本的辦法。雖然最後,在本人的一再堅 持下,最後還是轉成了 UTF-8 編碼,但相信國內還有很多項目都會碰到類似的問題。

第三,開發工具方面的支持,尤其是國內的一些產品。從根本上說,除了基本的思想意識以外,還有就是開發工具的問題。或許有一天,開發者相關的開發工具都默認的就是 Unicode 的話,這樣轉換的成本就會非常的低。

第四(感謝小馬補充),流量大、文字多的中文站點通常都會使用 GB2312,原因很簡單,頁面下載量會比 UTF-8 小(GBK 編碼只需要兩個字節,而 Unicode 需要三個或者以上)。

那麼,我經常使用的些主要的中文站點,目前在使用什麼編碼呢?下面是一個不完全的列表,供大家參考一下(以頁面 meta 標籤的 Content-type 為準)。

淘寶 - GB2312
支付寶 - GB2312
口碑 - GBK
中國雅虎 - GB2312
163 - GB2312
新浪 - GB2312
搜狐 - GB2312
豆瓣 - UTF-8
Yupoo - UTF-8
谷歌 - UTF-8

從上述的站點看來,目前國內一般門戶類型的站點基本上都是 GBK 等編碼,而類似 豆瓣、Yupoo 這樣的新興 「Web2.0 式站點」已經開始嘗試 UTF-8 。在我看來,Unicode 在中文站點的推廣,任重而道遠。

那麼接下來,在您以後的項目中,您會選擇什麼字符編碼?

作者:GraceCode

分享此文章

0 回應 到 “開發網站,您會選擇什麼字符編碼?”


  1. 沒有留言

留言回覆