• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            sunrise

            每天不斷學(xué)習(xí),才能不斷提升自己。

              C++博客 :: 首頁(yè) :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
              64 隨筆 :: 0 文章 :: 92 評(píng)論 :: 0 Trackbacks
            ps:中文處理經(jīng)驗(yàn)不足,學(xué)習(xí)了。
            下面這個(gè)小工具包含了 判斷unicode是否是漢字,數(shù)字,英文,或者其他字符。 全角符號(hào)轉(zhuǎn)半角符號(hào)。 unicode字符串歸一化等工作。 還有一個(gè)能處理多音字的漢字轉(zhuǎn)拼音的程序,還在整理中。
            轉(zhuǎn)自:
            http://hi.baidu.com/fenghua1893/item/d1a71d5ac47ffdcfd3e10cd1
            #!/usr/bin/env python
            #
             -*- coding:GBK -*- 
             
            """漢字處理的工具:
            判斷unicode是否是漢字,數(shù)字,英文,或者其他字符。
            全角符號(hào)轉(zhuǎn)半角符號(hào)。
            """
             
            def is_chinese(uchar):
                    """判斷一個(gè)unicode是否是漢字"""
                    if uchar >= u'\u4e00' and uchar<=u'\u9fa5':
                            return True
                    else:
                            return False
             
            def is_number(uchar):
                    """判斷一個(gè)unicode是否是數(shù)字"""
                    if uchar >= u'\u0030' and uchar<=u'\u0039':
                            return True
                    else:
                            return False
             
            def is_alphabet(uchar):
                    """判斷一個(gè)unicode是否是英文字母"""
                    if (uchar >= u'\u0041' and uchar<=u'\u005a'or (uchar >= u'\u0061' and uchar<=u'\u007a'):
                            return True
                    else:
                            return False
             
            def is_other(uchar):
                    """判斷是否非漢字,數(shù)字和英文字符"""
                    if not (is_chinese(uchar) or is_number(uchar) or is_alphabet(uchar)):
                            return True
                    else:
                            return False
             
            def B2Q(uchar):
                    """半角轉(zhuǎn)全角"""
                    inside_code=ord(uchar)
                    if inside_code<0x0020 or inside_code>0x7e:      #不是半角字符就返回原來(lái)的字符
                            return uchar
                    if inside_code==0x0020: #除了空格其他的全角半角的公式為:半角=全角-0xfee0
                            inside_code=0x3000
                    else:
                            inside_code+=0xfee0
                    return unichr(inside_code)
             
            def Q2B(uchar):
                    """全角轉(zhuǎn)半角"""
                    inside_code=ord(uchar)
                    if inside_code==0x3000:
                            inside_code=0x0020
                    else:
                            inside_code-=0xfee0
                    if inside_code<0x0020 or inside_code>0x7e:      #轉(zhuǎn)完之后不是半角字符返回原來(lái)的字符
                            return uchar
                    return unichr(inside_code)


             
            def stringQ2B(ustring):
                    """把字符串全角轉(zhuǎn)半角"""
                    return "".join([Q2B(uchar) for uchar in ustring])
             
            def uniform(ustring):
                    """格式化字符串,完成全角轉(zhuǎn)半角,大寫(xiě)轉(zhuǎn)小寫(xiě)的工作"""
                    return stringQ2B(ustring).lower()
             
            def string2List(ustring):
                    """將ustring按照中文,字母,數(shù)字分開(kāi)"""
                    retList=[]
                    utmp=[]
                    for uchar in ustring:
                            if is_other(uchar):
                                    if len(utmp)==0:
                                            continue
                                    else:
                                            retList.append("".join(utmp))
                                            utmp=[]
                            else:
                                    utmp.append(uchar)
                    if len(utmp)!=0:
                            retList.append("".join(utmp))
                    return retList
             
            if __name__=="__main__":
                    #test Q2B and B2Q
                    for i in range(0x0020,0x007F):
                            print Q2B(B2Q(unichr(i))),B2Q(unichr(i))
             
                    #test uniform
                    ustring=u'中國(guó) 人名a高頻A'
                    ustring=uniform(ustring)
                    ret=string2List(ustring)





                    print ret
            posted on 2012-08-29 17:47 SunRise_at 閱讀(4169) 評(píng)論(0)  編輯 收藏 引用 所屬分類(lèi): 可愛(ài)的python
            久久久久亚洲精品无码蜜桃 | 久久久久女教师免费一区| 久久久久久夜精品精品免费啦 | 久久久久久久久久免免费精品| 久久精品无码一区二区三区日韩 | 国产免费久久精品99re丫y| 久久只这里是精品66| 男女久久久国产一区二区三区| 999久久久无码国产精品| 久久国产乱子伦精品免费午夜| 精品久久久久久国产| 久久久久久a亚洲欧洲aⅴ| 无码国内精品久久综合88| 久久精品国产亚洲一区二区| 国产99久久久久久免费看| 中文字幕无码精品亚洲资源网久久 | 国产精品久久国产精品99盘| 久久久久18| 国产99久久久久久免费看| 人妻无码αv中文字幕久久| 三级韩国一区久久二区综合| 精品国产乱码久久久久久1区2区| 伊人精品久久久久7777| 青草影院天堂男人久久| 久久精品国产亚洲AV无码娇色| 久久av免费天堂小草播放| 精品综合久久久久久97超人| 亚洲午夜久久久久久噜噜噜| 亚洲色欲久久久久综合网| 久久免费国产精品| 九九热久久免费视频| 国产精品内射久久久久欢欢| 久久夜色精品国产噜噜噜亚洲AV| 久久人人爽人人爽人人片AV麻烦 | 国内精品久久久久久不卡影院| 久久久久99精品成人片欧美| 久久精品国产男包| 亚洲国产欧美国产综合久久| 久久久久久久精品成人热色戒| 三级韩国一区久久二区综合| 蜜桃麻豆WWW久久囤产精品|