sunrise

每天不斷學(xué)習(xí)，才能不斷提升自己。

C++博客 :: 首頁 :: 新隨筆 :: 聯(lián)系 :: 聚合

:: 管理 ::

64 隨筆 :: 0 文章 :: 92 評論 :: 0 Trackbacks

<

2012年7月

>

日

一

二

三

四

五

六

24

25

26

27

28

29

30

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

常用鏈接

留言簿(12)

隨筆分類(63)

隨筆檔案(64)

收藏夾

算法之道

友情鏈接

iTech
從波
老鄧
黎明

搜索

積分與排名

積分 - 238759
排名 - 106

閱讀排行榜

評論排行榜

python漢字編碼

在處理一段文本的時候，首先了解文本的漢字編碼。在windows下默認(rèn)的文件編碼是GBK，而

linux的一般是utf-8.

想要查看文件的編碼方式，使用vim打開文本，然后在命令行模式下輸入：set fileencoding,回車

即可。

Python中有兩種默認(rèn)的字符串：str和unicode。在Python中一定要注意區(qū)分“Unicode字符串”

和“unicode對象”的區(qū)別。后面所有的“unicode字符串”指的都是python里的“unicode對象”

。

事實上在Python中并沒有“Unicode字符串”這樣的東西，只有“unicode”對象。一個傳統(tǒng)意義上

的unicode字符串完全可以用str對象表示。只是這時候它僅僅是一個字節(jié)流，除非解碼為unicode

對象，沒有任何實際的意義。

函數(shù) decode( char_set )可以實現(xiàn) 其它編碼到 Unicode 的轉(zhuǎn)換，函數(shù) encode( char_set )實

現(xiàn) Unicode 到其它編碼方式的轉(zhuǎn)換。

比如 ("你好").decode( "GB2312") 將得到 u'\u4f60\u597d'，即 "你"和“好"的 Unicode 碼

分別是 0x4f60 和 0x597d

再用 (u'\u4f60\u597d').encode("UTF-8") 將得到 '\xe4\xbd\xa0\xe5\xa5\xbd'，它是 “你好

”的UTF-8編碼結(jié)果。

python中使用 unicode的關(guān)鍵：unicode是一個類，函數(shù)unicode(str,"utf8")從utf8編碼（當(dāng)然也

可以是別的編碼）的字符串str生成 unicode類的對象，而函數(shù)unc.encode("utf8")將unicode類的

對象unc轉(zhuǎn)換為（編碼為）utf8編碼（當(dāng)然也可以是別的編碼）的字符串。于是，編寫unicode相關(guān)

程序，需要做的事情是

* 獲取數(shù)據(jù)（字符串）時，用unicode(str, "utf8")生成unicode對象

* 在程序中僅使用unicode對象，對程序中出現(xiàn)的字符串常量都以u"字符串"的形式書寫

* 輸出時，可將unicode對象轉(zhuǎn)換為任意編碼輸出，使用str.encode("some_encoding")

>>> unicode("你好", "utf8")
u'\u4f60\u597d'
>>> x = _
>>> type(x)
>>> type("你好")
>>> x.encode("utf8")
'\xe4\xbd\xa0\xe5\xa5\xbd'
>>> x.encode("gbk")
'\xc4\xe3\xba\xc3'
>>> x.encode("gb2312")
'\xc4\xe3\xba\xc3'
>>> print x
你好
>>> print x.encode("utf8")
你好
>>> print x.encode("gbk")
???

還有一種就是對于特殊字符的處理：

try:
    print i.decode('unicode_escape').encode('utf8')
  except:
    print i

posted on 2012-03-26 20:41 SunRise_at 閱讀(1689) 評論(1) 編輯收藏引用所屬分類: 可愛的python

只有注冊用戶登錄后才能發(fā)表評論。
【推薦】100%開源！大型工業(yè)跨平臺軟件C++源碼提供，建模，組態(tài)！

相關(guān)文章: turbogear2上傳文件功能關(guān)于PIL庫的一些概念 python的默認(rèn)參數(shù) Google Translate API json的編碼和解析 python多線程 python編碼轉(zhuǎn)換 Python yield 用法 python enumerate用法 python之Queue

網(wǎng)站導(dǎo)航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

sunrise

常用鏈接

留言簿(12)

隨筆分類(63)

隨筆檔案(64)

收藏夾

ACMer

技術(shù)聯(lián)盟

可愛的python

數(shù)據(jù)挖掘