青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
金慶的專欄
C++博客
::
首頁
::
新隨筆
::
聯(lián)系
::
聚合
::
管理
::
423 隨筆 :: 0 文章 :: 454 評論 :: 0 Trackbacks
公告
我的隨筆
我的評論
我參與的隨筆
留言簿
(12)
給我留言
查看公開留言
查看私人留言
隨筆分類
(502)
1. C/C++(166)
(rss)
2. 網(wǎng)游開發(fā)(108)
(rss)
3. Golang(20)
(rss)
4. Linux/Unix(30)
(rss)
5. 軟工與管理(44)
(rss)
6. Python(23)
(rss)
7. Erlang(18)
(rss)
8. Rust(16)
(rss)
9. 其它(77)
(rss)
隨筆檔案
(423)
2023年1月 (1)
2022年11月 (1)
2022年10月 (2)
2022年9月 (1)
2022年4月 (6)
2022年1月 (2)
2021年12月 (4)
2021年11月 (6)
2021年10月 (2)
2021年9月 (2)
2021年8月 (7)
2021年7月 (2)
2021年5月 (2)
2021年3月 (1)
2021年2月 (2)
2021年1月 (1)
2020年12月 (1)
2020年10月 (1)
2020年9月 (5)
2020年8月 (1)
2020年7月 (1)
2020年6月 (1)
2020年4月 (2)
2020年3月 (3)
2020年2月 (3)
2020年1月 (1)
2019年12月 (1)
2019年9月 (2)
2019年4月 (2)
2019年1月 (1)
2018年12月 (1)
2018年11月 (3)
2018年10月 (1)
2018年9月 (3)
2018年8月 (3)
2018年7月 (2)
2018年6月 (4)
2018年5月 (4)
2018年4月 (4)
2018年3月 (1)
2018年1月 (2)
2017年12月 (2)
2017年11月 (3)
2017年10月 (3)
2017年8月 (7)
2017年7月 (1)
2017年6月 (1)
2017年5月 (3)
2017年4月 (3)
2017年3月 (3)
2017年2月 (2)
2017年1月 (2)
2016年12月 (5)
2016年11月 (2)
2016年10月 (2)
2016年9月 (1)
2016年8月 (6)
2016年7月 (3)
2016年6月 (2)
2016年5月 (4)
2016年4月 (2)
2016年3月 (2)
2016年1月 (3)
2015年12月 (2)
2015年11月 (2)
2015年10月 (1)
2015年8月 (2)
2015年7月 (1)
2015年6月 (1)
2015年5月 (4)
2015年4月 (3)
2015年3月 (4)
2015年2月 (5)
2015年1月 (4)
2014年12月 (3)
2014年11月 (3)
2014年10月 (2)
2014年9月 (3)
2014年8月 (1)
2014年4月 (4)
2014年3月 (1)
2014年2月 (4)
2014年1月 (5)
2013年12月 (5)
2013年11月 (5)
2013年9月 (2)
2013年8月 (2)
2013年7月 (2)
2013年6月 (2)
2013年5月 (1)
2013年1月 (2)
2012年12月 (1)
2012年11月 (1)
2012年9月 (1)
2012年8月 (3)
2012年7月 (2)
2012年6月 (1)
2012年4月 (3)
2012年3月 (2)
2012年2月 (3)
2012年1月 (2)
2011年11月 (2)
2011年10月 (3)
2011年9月 (2)
2011年8月 (2)
2011年7月 (3)
2011年6月 (2)
2011年5月 (3)
2011年1月 (2)
2010年12月 (1)
2010年11月 (2)
2010年10月 (2)
2010年9月 (3)
2010年8月 (2)
2010年7月 (3)
2010年6月 (1)
2010年5月 (3)
2010年4月 (3)
2010年3月 (5)
2010年2月 (4)
2010年1月 (4)
2009年12月 (2)
2009年11月 (3)
2009年10月 (4)
2009年9月 (3)
2009年8月 (2)
2009年7月 (4)
2009年6月 (1)
2009年5月 (3)
2009年4月 (4)
2009年3月 (2)
2009年2月 (5)
2009年1月 (1)
2008年12月 (7)
2008年11月 (4)
2008年10月 (1)
2008年9月 (3)
2008年8月 (4)
2008年7月 (3)
2008年6月 (4)
2008年5月 (6)
2008年4月 (7)
2008年3月 (6)
2008年1月 (5)
2007年12月 (7)
2007年11月 (4)
2007年10月 (5)
2007年9月 (6)
2007年8月 (8)
2007年7月 (5)
相冊
公告照片
搜索
積分與排名
積分 - 662250
排名 - 25
最新評論
1.?re: boost::asio::spawn 將一統(tǒng)C++網(wǎng)絡庫
asio 成為C++首選網(wǎng)絡庫
--linda
2.?re: log4cxx中文輸出錯誤補丁
評論內(nèi)容較長,點擊標題查看
--金慶
3.?re: mingw編譯OrzNet
能發(fā)送一個mingw編譯好的OrzNet庫給我嗎? liuweiqcxy@163.com
謝謝!
--劉威
4.?re: log4cxx中文輸出錯誤補丁
評論內(nèi)容較長,點擊標題查看
--bigbad
5.?re: log4cxx中文輸出錯誤補丁
評論內(nèi)容較長,點擊標題查看
--bigbad
閱讀排行榜
1.?"multiple definition of" 錯誤(11074)
2.?SVN中邪惡的replace(11000)
3.?VS2005編譯libevent(10456)
4.?混音算法的學習與研究(10258)
5.?C調(diào)用lua腳本的效率測試(9025)
評論排行榜
1.?VC6正在被拋棄(35)
2.?VS2005編譯libevent(21)
3.?"multiple definition of" 錯誤(18)
4.?C++引用優(yōu)于指針(17)
5.?ACE與ASIO之間關(guān)于Socket編程的比較(16)
批量html轉(zhuǎn)text
批量html轉(zhuǎn)text
(轉(zhuǎn)載請注明來源于金慶的專欄)
原來的代碼是參考“Recipe 12.11. Using MSHTML to Parse XML or HTML”,利用htmlfile提取文本。
將當前目錄下的所有html文件轉(zhuǎn)換為text文件。
def
extractHtmlFile(htmlFilePath):
'''
Extract html text and save to text file.
'''
htmlData
=
file(htmlFilePath,
'
r
'
).read()
import
win32com.client
html
=
win32com.client.Dispatch(
'
htmlfile
'
)
html.writeln(htmlData)
text
=
html.body.innerText.encode(
'
gbk
'
,
'
ignore
'
)
但是發(fā)現(xiàn)MSHTML解析文件可能會出錯,造成文本提取失敗。
jigloo經(jīng)過對10W+個html文件的測試,得出結(jié)論,htmlfile的容錯比InternetExplorer.Application要差很多。
原文見:http://groups.google.com/group/python-cn/msg/c9221764bcafbc21
他的代碼大致如下,IE使用稍煩:
#
!/usr/bin/env python
import
sys, os, re, codecs
import
time
import
win32com.client
class
htmlfile:
def
__init__
(self):
self.
__ie
=
win32com.client.Dispatch(
'
InternetExplorer.Application
'
)
self.
__ie
.Silent
=
True
self.
__filename
=
''
self.
__document
=
None
def
__del__
(self):
self.
__ie
.Quit()
def
__getdocument
(self, filename):
filename
=
os.path.abspath(filename)
if
self.
__filename
!=
filename:
self.
__filename
=
filename
self.
__ie
.Navigate2(filename)
self.
__ie
.Document.close()
while
self.
__ie
.Document.Body
is
None:
time.sleep(
0.1
)
self.
__document
=
self.
__ie
.Document
return
self.
__document
def
gettext(self, filename):
return
self.
__getdocument
(filename).Body.innerText
def
gettitle(self, filename):
return
self.
__getdocument
(filename).title
if
__name__
==
'
__main__
'
:
hf
=
htmlfile()
for
root, dirs, names
in
os.walk(u
'
.
'
):
for
name
in
names:
if
name.endswith(
'
htm
'
)
or
name.endswith(
'
html
'
):
htmlpath
=
os.path.join(root, name)
textpath
=
htmlpath
+
'
.txt
'
file(textpath,
'
wb
'
).write(hf.gettext(htmlpath).encode(
'
mbcs
'
))
#
End of if.
#
End of for name.
#
End of for root.
del
hf
#
End of if.
對于我的簡單任務,這就足夠了。
有一個問題,如果有資源管理器打開著,運行這段代碼會關(guān)閉資源管理器,并出錯退出。比較奇怪,但應該不難解決,可能是IE控件的使用上還有問題。
self.__ie.Document.close()
File "C:\Python25\Lib\site-packages\win32com\client\dynamic.py", line 496, in
__getattr__
raise AttributeError, "%s.%s" % (self._username_, attr)
AttributeError: Document.close
posted on 2008-03-13 11:55
金慶
閱讀(1735)
評論(1)
編輯
收藏
引用
所屬分類:
6. Python
評論
#
re: 批量html轉(zhuǎn)text
2008-12-01 15:48
Hanqing Chen
你好,我需要這個程序代碼,可以發(fā)給我一份嗎?
不勝感謝,我的郵箱 lychenhanqing@163.com
回復
更多評論
刷新評論列表
只有注冊用戶
登錄
后才能發(fā)表評論。
相關(guān)文章:
vs2017 linux 編譯輸出改成 vs 格式
xlsx批量轉(zhuǎn)為utf8的csv
如何運行 rpcz python example
Windows上Python讀取stdin出錯
建立Socket Policy服務器
python計算24點
(Python編程)Pickle對象
Boost.Python中文文檔下載
用Boost.Python構(gòu)建混合系統(tǒng)
Python封裝的性能研究
網(wǎng)站導航:
博客園
IT新聞
BlogJava
博問
Chat2DB
管理
Powered by:
C++博客
Copyright © 金慶
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
99视频精品
|
国产有码一区二区
|
亚洲深爱激情
|
一区二区三区欧美视频
|
欧美黄色一区
|
欧美国产精品专区
|
亚洲精品乱码久久久久久按摩观
|
久久精品成人欧美大片古装
|
亚洲第一天堂无码专区
|
亚洲国产精品久久精品怡红院
|
国产视频久久
|
在线观看日韩av先锋影音电影院
|
亚洲第一页在线
|
一区二区三区久久精品
|
性欧美超级视频
|
欧美~级网站不卡
|
日韩视频不卡
|
久久国产手机看片
|
欧美精品一区二区三区很污很色的
|
99www免费人成精品
|
亚洲综合色在线
|
久久久综合香蕉尹人综合网
|
欧美激情小视频
|
一区二区三区欧美在线
|
久久久999成人
|
欧美日韩一区二区三区高清
|
国产日韩欧美精品在线
|
亚洲成在线观看
|
亚洲欧美中文字幕
|
亚洲国产欧美一区二区三区久久
|
亚洲一区亚洲
|
欧美日韩在线播
|
亚洲国产精品一区二区久
|
亚洲一区欧美激情
|
欧美成人亚洲成人
|
亚洲欧美在线免费
|
欧美日韩美女在线观看
|
亚洲国产精品久久久久久女王
|
性欧美超级视频
|
亚洲精品五月天
|
久久综合久久综合久久综合
|
国产精品综合网站
|
99热这里只有精品8
|
欧美电影电视剧在线观看
|
性欧美暴力猛交69hd
|
欧美三级在线播放
|
亚洲精品护士
|
麻豆av一区二区三区
|
亚洲欧美激情诱惑
|
欧美香蕉视频
|
亚洲性夜色噜噜噜7777
|
亚洲精品国产品国语在线app
|
美国成人直播
|
亚洲国内欧美
|
欧美激情一区二区三区全黄
|
久久久久国产精品www
|
国产午夜精品一区二区三区欧美
|
亚洲欧美日韩国产成人
|
aa国产精品
|
亚洲片区在线
|
亚洲国产精品精华液2区45
|
久久精品道一区二区三区
|
国产精一区二区三区
|
欧美一区二区久久久
|
亚洲免费网址
|
国产一区成人
|
老鸭窝亚洲一区二区三区
|
久久午夜羞羞影院免费观看
|
亚洲第一天堂av
|
亚洲欧洲一区二区在线观看
|
欧美日本在线
|
性久久久久久久久
|
久久黄色级2电影
|
亚洲国产精品va在线观看黑人
|
一本久久精品一区二区
|
欧美涩涩网站
|
午夜精品影院在线观看
|
性视频1819p久久
|
在线播放日韩欧美
|
亚洲国产日韩一区
|
国产精品免费福利
|
久久女同互慰一区二区三区
|
蜜桃av一区二区三区
|
一区二区三区精品在线
|
亚洲一区在线观看免费观看电影高清
|
亚洲午夜国产一区99re久久
|
国产精品亚洲成人
|
久久青草福利网站
|
欧美日产国产成人免费图片
|
欧美中在线观看
|
猛男gaygay欧美视频
|
亚洲一区免费观看
|
久久久久九九九
|
一区二区三区高清不卡
|
欧美专区在线观看一区
|
av成人毛片
|
久久福利视频导航
|
亚洲视频一区在线
|
久久九九国产精品怡红院
|
中国成人黄色视屏
|
久久久国产精品一区二区三区
|
日韩午夜中文字幕
|
香蕉久久精品日日躁夜夜躁
|
亚洲卡通欧美制服中文
|
欧美在线一二三
|
亚洲欧美一区二区精品久久久
|
免费在线亚洲
|
久久久久久综合
|
国产精品视频
|
亚洲伦理网站
|
亚洲精品免费一区二区三区
|
欧美一区二区视频网站
|
亚洲免费一区二区
|
欧美精品一区三区
|
免费亚洲一区
|
狠色狠色综合久久
|
亚洲欧美日本日韩
|
亚洲一区日韩在线
|
欧美精品在线网站
|
亚洲大胆美女视频
|
国产亚洲精品aa
|
欧美性理论片在线观看片免费
|
久久婷婷蜜乳一本欲蜜臀
|
国产精品久久7
|
亚洲精品美女在线
|
亚洲区在线播放
|
毛片基地黄久久久久久天堂
|
久久综合国产精品
|
黄色成人免费网站
|
欧美在线观看一二区
|
久久精品av麻豆的观看方式
|
国产精品实拍
|
午夜久久一区
|
久久久久国内
|
红桃视频国产精品
|
另类春色校园亚洲
|
欧美成黄导航
|
亚洲国产导航
|
欧美大尺度在线观看
|
亚洲国产老妈
|
99riav国产精品
|
欧美片在线观看
|
日韩一区二区电影网
|
亚洲一级黄色
|
国产精品影院在线观看
|
欧美一区二区三区四区在线
|
久久久久久久久久久久久9999
|
国产一区二区剧情av在线
|
欧美在线free
|
欧美成人综合
|
一本一本久久a久久精品牛牛影视
|
欧美日韩亚洲视频
|
亚洲午夜精品一区二区三区他趣
|
午夜一级久久
|
一区二区三区在线视频免费观看
|
久久综合色综合88
|
亚洲精品中文字幕有码专区
|
午夜精品视频
|
伊人久久成人
|
欧美人与性动交a欧美精品
|
亚洲图片欧美一区
|
麻豆精品91
|
亚洲亚洲精品在线观看
|
国产午夜精品全部视频播放
|
美女网站在线免费欧美精品
|
日韩一二三区视频
|
久久久久久亚洲精品杨幂换脸
|
亚洲国产日韩一区二区
|
国产精品扒开腿做爽爽爽软件
|
欧美一级播放
|
亚洲精品看片
|
久久九九电影
|
一区二区三区高清
|
激情小说亚洲一区
|
欧美视频一区二区在线观看
|
欧美在线一级va免费观看
|
亚洲国产成人精品女人久久久
|
国产欧美日韩另类视频免费观看
|
欧美影院久久久
|
日韩香蕉视频
|
欧美99久久
|
小黄鸭精品aⅴ导航网站入口
|
亚洲丶国产丶欧美一区二区三区
|
国产精品igao视频网网址不卡日韩
|
久久国产精品72免费观看
|
亚洲免费观看在线观看
|
欧美成ee人免费视频
|
欧美激情精品久久久久久大尺度
|
国产精品久久毛片a
|
久久精品五月
|
宅男噜噜噜66一区二区
|
老司机免费视频久久
|
一本色道久久综合亚洲精品婷婷
|
亚洲美女在线一区
|
免费久久久一本精品久久区
|
欧美亚洲一级
|
亚洲视频在线观看免费
|
亚洲日韩成人
|
亚洲人成啪啪网站
|
在线成人av.com
|