• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            隨筆 - 224  文章 - 41  trackbacks - 0
            <2008年11月>
            2627282930311
            2345678
            9101112131415
            16171819202122
            23242526272829
            30123456

            享受編程

            常用鏈接

            留言簿(11)

            隨筆分類(159)

            隨筆檔案(224)

            文章分類(2)

            文章檔案(4)

            經(jīng)典c++博客

            搜索

            •  

            最新評(píng)論

            閱讀排行榜

            評(píng)論排行榜

             pymmseg-cpp
            http://code.google.com/p/pymmseg-cpp/

            pymmseg-cpp is a Python port of the rmmseg-cpp project. rmmseg-cpp is a MMSEG Chinese word segmenting algorithm implemented in C++ with a Ruby interface.

            Download the binary release on the right sidebar and copy the pymmseg directory to your Python's path (e.g. /usr/lib/python2.5/site-packages/). Here's an example of usage:

            from pymmseg import mmseg

            mmseg
            .dict_load_defaults()
            text
            = # ...
            algor
            = mmseg.Algorithm(text)
            for tok in algor:
            print '%s [%d..%d]' % (tok.text, tok.start, tok.end)

            Or you can download the source tarball or check out the latest code from the git repo hosted at github. Then you'll need to build the mmseg-cpp module yourself: goto the mmseg-cpp subdirectory and run the build.py script. It will build the native module for you.

            For more information, refer to the README file.


            很多同學(xué)都會(huì)出現(xiàn)亂碼的問題。可能是mmseg支持的是utf8, windows的本地默認(rèn)編碼是cp936,也就是gbk編碼,所以在控制臺(tái)直接打印utf-8的字符串當(dāng)然是亂碼了。 
            解決方法:
            在控制臺(tái)打印的地方用一個(gè)轉(zhuǎn)碼就ok了,打印的時(shí)候這么寫:
            print myname.decode('UTF-8').encode('GBK') 


            from pymmseg import mmseg

            mmseg
            .dict_load_defaults()
            text
            = # ...
            algor
            = mmseg.Algorithm(text)
            for tok in algor:
            print '%s [%d..%d]' % (tok.text.decode('UTF-8').encode('GBK') , tok.start, tok.end)

            posted on 2011-05-03 13:27 漂漂 閱讀(1147) 評(píng)論(0)  編輯 收藏 引用

            只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。
            網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


            久久综合给合综合久久| 亚洲午夜久久久久久久久电影网| 亚洲午夜精品久久久久久浪潮| 99久久精品免费看国产| 一级做a爰片久久毛片人呢| 久久99热国产这有精品| 2021精品国产综合久久| 国内精品久久国产大陆| 色综合久久88色综合天天| 久久精品国产精品青草app| 色综合色天天久久婷婷基地| 97久久超碰国产精品旧版 | 亚洲欧美日韩精品久久| 97久久精品人人澡人人爽| 国产精品无码久久久久| 亚洲一级Av无码毛片久久精品| 欧美亚洲国产精品久久| 久久婷婷五月综合色高清| 久久91亚洲人成电影网站| 女同久久| 97久久久精品综合88久久| 精品久久久久久99人妻| 久久精品极品盛宴观看| 久久精品国产网红主播| 国产精品嫩草影院久久| 久久国产亚洲精品| 久久九九亚洲精品| 久久久久久久精品成人热色戒| AAA级久久久精品无码片| 国产免费久久精品丫丫| 狠狠色丁香婷婷久久综合五月| 精品久久久久久无码专区| 久久精品国产精品亚洲| 青青草原精品99久久精品66 | 国产成人无码精品久久久免费 | 一本色道久久HEZYO无码| 精品国产91久久久久久久| 久久久久久曰本AV免费免费| 欧美一区二区精品久久| 久久婷婷国产综合精品| 亚洲乱码日产精品a级毛片久久 |