青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
金慶的專欄
C++博客
::
首頁
::
新隨筆
::
聯系
::
聚合
::
管理
::
423 隨筆 :: 0 文章 :: 454 評論 :: 0 Trackbacks
公告
我的隨筆
我的評論
我參與的隨筆
留言簿
(12)
給我留言
查看公開留言
查看私人留言
隨筆分類
(502)
1. C/C++(166)
(rss)
2. 網游開發(108)
(rss)
3. Golang(20)
(rss)
4. Linux/Unix(30)
(rss)
5. 軟工與管理(44)
(rss)
6. Python(23)
(rss)
7. Erlang(18)
(rss)
8. Rust(16)
(rss)
9. 其它(77)
(rss)
隨筆檔案
(423)
2023年1月 (1)
2022年11月 (1)
2022年10月 (2)
2022年9月 (1)
2022年4月 (6)
2022年1月 (2)
2021年12月 (4)
2021年11月 (6)
2021年10月 (2)
2021年9月 (2)
2021年8月 (7)
2021年7月 (2)
2021年5月 (2)
2021年3月 (1)
2021年2月 (2)
2021年1月 (1)
2020年12月 (1)
2020年10月 (1)
2020年9月 (5)
2020年8月 (1)
2020年7月 (1)
2020年6月 (1)
2020年4月 (2)
2020年3月 (3)
2020年2月 (3)
2020年1月 (1)
2019年12月 (1)
2019年9月 (2)
2019年4月 (2)
2019年1月 (1)
2018年12月 (1)
2018年11月 (3)
2018年10月 (1)
2018年9月 (3)
2018年8月 (3)
2018年7月 (2)
2018年6月 (4)
2018年5月 (4)
2018年4月 (4)
2018年3月 (1)
2018年1月 (2)
2017年12月 (2)
2017年11月 (3)
2017年10月 (3)
2017年8月 (7)
2017年7月 (1)
2017年6月 (1)
2017年5月 (3)
2017年4月 (3)
2017年3月 (3)
2017年2月 (2)
2017年1月 (2)
2016年12月 (5)
2016年11月 (2)
2016年10月 (2)
2016年9月 (1)
2016年8月 (6)
2016年7月 (3)
2016年6月 (2)
2016年5月 (4)
2016年4月 (2)
2016年3月 (2)
2016年1月 (3)
2015年12月 (2)
2015年11月 (2)
2015年10月 (1)
2015年8月 (2)
2015年7月 (1)
2015年6月 (1)
2015年5月 (4)
2015年4月 (3)
2015年3月 (4)
2015年2月 (5)
2015年1月 (4)
2014年12月 (3)
2014年11月 (3)
2014年10月 (2)
2014年9月 (3)
2014年8月 (1)
2014年4月 (4)
2014年3月 (1)
2014年2月 (4)
2014年1月 (5)
2013年12月 (5)
2013年11月 (5)
2013年9月 (2)
2013年8月 (2)
2013年7月 (2)
2013年6月 (2)
2013年5月 (1)
2013年1月 (2)
2012年12月 (1)
2012年11月 (1)
2012年9月 (1)
2012年8月 (3)
2012年7月 (2)
2012年6月 (1)
2012年4月 (3)
2012年3月 (2)
2012年2月 (3)
2012年1月 (2)
2011年11月 (2)
2011年10月 (3)
2011年9月 (2)
2011年8月 (2)
2011年7月 (3)
2011年6月 (2)
2011年5月 (3)
2011年1月 (2)
2010年12月 (1)
2010年11月 (2)
2010年10月 (2)
2010年9月 (3)
2010年8月 (2)
2010年7月 (3)
2010年6月 (1)
2010年5月 (3)
2010年4月 (3)
2010年3月 (5)
2010年2月 (4)
2010年1月 (4)
2009年12月 (2)
2009年11月 (3)
2009年10月 (4)
2009年9月 (3)
2009年8月 (2)
2009年7月 (4)
2009年6月 (1)
2009年5月 (3)
2009年4月 (4)
2009年3月 (2)
2009年2月 (5)
2009年1月 (1)
2008年12月 (7)
2008年11月 (4)
2008年10月 (1)
2008年9月 (3)
2008年8月 (4)
2008年7月 (3)
2008年6月 (4)
2008年5月 (6)
2008年4月 (7)
2008年3月 (6)
2008年1月 (5)
2007年12月 (7)
2007年11月 (4)
2007年10月 (5)
2007年9月 (6)
2007年8月 (8)
2007年7月 (5)
相冊
公告照片
搜索
積分與排名
積分 - 659884
排名 - 25
最新評論
1.?re: boost::asio::spawn 將一統C++網絡庫
asio 成為C++首選網絡庫
--linda
2.?re: log4cxx中文輸出錯誤補丁
評論內容較長,點擊標題查看
--金慶
3.?re: mingw編譯OrzNet
能發送一個mingw編譯好的OrzNet庫給我嗎? liuweiqcxy@163.com
謝謝!
--劉威
4.?re: log4cxx中文輸出錯誤補丁
評論內容較長,點擊標題查看
--bigbad
5.?re: log4cxx中文輸出錯誤補丁
評論內容較長,點擊標題查看
--bigbad
閱讀排行榜
1.?"multiple definition of" 錯誤(11060)
2.?SVN中邪惡的replace(10986)
3.?VS2005編譯libevent(10431)
4.?混音算法的學習與研究(10238)
5.?C調用lua腳本的效率測試(9020)
評論排行榜
1.?VC6正在被拋棄(35)
2.?VS2005編譯libevent(21)
3.?"multiple definition of" 錯誤(18)
4.?C++引用優于指針(17)
5.?ACE與ASIO之間關于Socket編程的比較(16)
批量html轉text
批量html轉text
(轉載請注明來源于金慶的專欄)
原來的代碼是參考“Recipe 12.11. Using MSHTML to Parse XML or HTML”,利用htmlfile提取文本。
將當前目錄下的所有html文件轉換為text文件。
def
extractHtmlFile(htmlFilePath):
'''
Extract html text and save to text file.
'''
htmlData
=
file(htmlFilePath,
'
r
'
).read()
import
win32com.client
html
=
win32com.client.Dispatch(
'
htmlfile
'
)
html.writeln(htmlData)
text
=
html.body.innerText.encode(
'
gbk
'
,
'
ignore
'
)
但是發現MSHTML解析文件可能會出錯,造成文本提取失敗。
jigloo經過對10W+個html文件的測試,得出結論,htmlfile的容錯比InternetExplorer.Application要差很多。
原文見:http://groups.google.com/group/python-cn/msg/c9221764bcafbc21
他的代碼大致如下,IE使用稍煩:
#
!/usr/bin/env python
import
sys, os, re, codecs
import
time
import
win32com.client
class
htmlfile:
def
__init__
(self):
self.
__ie
=
win32com.client.Dispatch(
'
InternetExplorer.Application
'
)
self.
__ie
.Silent
=
True
self.
__filename
=
''
self.
__document
=
None
def
__del__
(self):
self.
__ie
.Quit()
def
__getdocument
(self, filename):
filename
=
os.path.abspath(filename)
if
self.
__filename
!=
filename:
self.
__filename
=
filename
self.
__ie
.Navigate2(filename)
self.
__ie
.Document.close()
while
self.
__ie
.Document.Body
is
None:
time.sleep(
0.1
)
self.
__document
=
self.
__ie
.Document
return
self.
__document
def
gettext(self, filename):
return
self.
__getdocument
(filename).Body.innerText
def
gettitle(self, filename):
return
self.
__getdocument
(filename).title
if
__name__
==
'
__main__
'
:
hf
=
htmlfile()
for
root, dirs, names
in
os.walk(u
'
.
'
):
for
name
in
names:
if
name.endswith(
'
htm
'
)
or
name.endswith(
'
html
'
):
htmlpath
=
os.path.join(root, name)
textpath
=
htmlpath
+
'
.txt
'
file(textpath,
'
wb
'
).write(hf.gettext(htmlpath).encode(
'
mbcs
'
))
#
End of if.
#
End of for name.
#
End of for root.
del
hf
#
End of if.
對于我的簡單任務,這就足夠了。
有一個問題,如果有資源管理器打開著,運行這段代碼會關閉資源管理器,并出錯退出。比較奇怪,但應該不難解決,可能是IE控件的使用上還有問題。
self.__ie.Document.close()
File "C:\Python25\Lib\site-packages\win32com\client\dynamic.py", line 496, in
__getattr__
raise AttributeError, "%s.%s" % (self._username_, attr)
AttributeError: Document.close
posted on 2008-03-13 11:55
金慶
閱讀(1732)
評論(1)
編輯
收藏
引用
所屬分類:
6. Python
評論
#
re: 批量html轉text
2008-12-01 15:48
Hanqing Chen
你好,我需要這個程序代碼,可以發給我一份嗎?
不勝感謝,我的郵箱 lychenhanqing@163.com
回復
更多評論
刷新評論列表
只有注冊用戶
登錄
后才能發表評論。
【推薦】100%開源!大型工業跨平臺軟件C++源碼提供,建模,組態!
相關文章:
vs2017 linux 編譯輸出改成 vs 格式
xlsx批量轉為utf8的csv
如何運行 rpcz python example
Windows上Python讀取stdin出錯
建立Socket Policy服務器
python計算24點
(Python編程)Pickle對象
Boost.Python中文文檔下載
用Boost.Python構建混合系統
Python封裝的性能研究
網站導航:
博客園
IT新聞
BlogJava
博問
Chat2DB
管理
Powered by:
C++博客
Copyright © 金慶
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
欧美一区二区在线观看
|
性娇小13――14欧美
|
欧美日韩国产成人精品
|
久久久国产一区二区
|
久久精品人人做人人综合
|
亚洲少妇一区
|
亚洲午夜久久久久久久久电影院
|
亚洲日本视频
|
av成人动漫
|
亚洲欧美日韩国产一区二区三区
|
99在线热播精品免费
|
一区二区欧美视频
|
午夜精品久久久
|
亚洲精品视频中文字幕
|
欧美在线观看日本一区
|
久久国产欧美
|
免费视频一区
|
国产精品日韩久久久久
|
国产一区视频在线观看免费
|
亚洲第一福利在线观看
|
99国产精品视频免费观看
|
亚洲欧美中文日韩在线
|
久久综合五月
|
夜夜嗨av色综合久久久综合网
|
亚洲欧美日韩精品
|
久久婷婷人人澡人人喊人人爽
|
欧美激情精品久久久久久蜜臀
|
亚洲美女色禁图
|
欧美在线视频观看免费网站
|
欧美肥婆在线
|
精品粉嫩aⅴ一区二区三区四区
|
亚洲美女淫视频
|
欧美在线二区
|
99精品热视频
|
免费观看成人
|
国产亚洲一区在线
|
亚洲裸体在线观看
|
久久资源在线
|
亚洲自拍偷拍视频
|
欧美日韩成人综合在线一区二区
|
国产视频一区在线观看
|
国产精品99久久久久久有的能看
|
另类综合日韩欧美亚洲
|
亚洲视频1区
|
欧美日本免费一区二区三区
|
国内免费精品永久在线视频
|
亚洲一区二区不卡免费
|
91久久精品国产91久久性色tv
|
亚洲女女做受ⅹxx高潮
|
欧美日本亚洲
|
亚洲人体一区
|
亚洲大片精品永久免费
|
久久精品国产77777蜜臀
|
国产精品亚洲欧美
|
午夜视频精品
|
亚洲免费在线电影
|
国产精品区一区二区三区
|
制服丝袜激情欧洲亚洲
|
亚洲茄子视频
|
欧美激情 亚洲a∨综合
|
亚洲欧洲日夜超级视频
|
欧美大片91
|
欧美bbbxxxxx
|
亚洲国产精品999
|
美女久久网站
|
老司机aⅴ在线精品导航
|
好吊妞这里只有精品
|
久久久久久久综合
|
久久久www成人免费精品
|
亚洲精品一区二区三区樱花
|
亚洲欧美中文在线视频
|
欧美视频在线看
|
亚洲一区免费网站
|
中日韩高清电影网
|
国产精品久久久久aaaa
|
午夜电影亚洲
|
亚洲欧美在线网
|
国产在线乱码一区二区三区
|
久久久久久亚洲综合影院红桃
|
美女视频黄免费的久久
|
久久噜噜噜精品国产亚洲综合
|
在线免费精品视频
|
亚洲青色在线
|
国产精品欧美日韩
|
久久久精品日韩
|
另类欧美日韩国产在线
|
亚洲精品乱码久久久久久日本蜜臀
|
亚洲国产第一页
|
欧美婷婷久久
|
久久久青草婷婷精品综合日韩
|
久久久精彩视频
|
99精品欧美一区二区三区综合在线
|
亚洲精品资源
|
国内精品国产成人
|
亚洲欧洲在线视频
|
国产午夜精品麻豆
|
亚洲国产专区
|
国产农村妇女精品一二区
|
美女日韩欧美
|
国产精品美女久久久免费
|
久久中文字幕一区
|
欧美日韩一区二区三区高清
|
久久久久久久久蜜桃
|
欧美日韩国产精品专区
|
在线精品视频一区二区
|
亚洲精品黄色
|
一区二区三区在线免费播放
|
日韩午夜中文字幕
|
一色屋精品视频免费看
|
一区二区三区日韩精品
|
亚洲黑丝一区二区
|
亚洲欧美精品在线
|
一区二区三区偷拍
|
久久免费精品视频
|
久久成人18免费观看
|
欧美区一区二区三区
|
免费成人av在线看
|
国产伪娘ts一区
|
亚洲午夜激情在线
|
99精品欧美一区二区三区综合在线
|
欧美在线观看一区二区三区
|
亚洲一区二区三区国产
|
欧美成人午夜免费视在线看片
|
久久久久久久成人
|
欧美在线地址
|
国产精品青草久久
|
国产精品99久久久久久久vr
|
性色av一区二区三区
|
欧美日韩精品免费看
|
久久一区二区三区国产精品
|
伊人成人在线
|
欧美一级艳片视频免费观看
|
宅男噜噜噜66一区二区
|
欧美激情精品久久久久久变态
|
久久婷婷麻豆
|
国产主播喷水一区二区
|
欧美与欧洲交xxxx免费观看
|
午夜精品亚洲
|
国产伦精品一区二区三区
|
亚洲视频www
|
欧美一区二区三区精品电影
|
国产精品日韩精品欧美在线
|
亚洲一区二区三区高清不卡
|
国产精品99久久久久久久女警
|
欧美成人综合
|
亚洲欧洲日本专区
|
aa级大片欧美三级
|
欧美午夜精品久久久
|
中文成人激情娱乐网
|
午夜精品一区二区三区在线播放
|
欧美极品一区
|
亚洲精品乱码久久久久久蜜桃91
|
亚洲级视频在线观看免费1级
|
久久伊人精品天天
|
欧美韩国在线
|
日韩一级免费
|
国产精品久久久久久久9999
|
亚洲在线观看免费视频
|
久久久精品视频成人
|
亚洲国产99精品国自产
|
欧美精品成人一区二区在线观看
|
亚洲精品欧洲
|
午夜欧美不卡精品aaaaa
|
国产一区二区成人
|
嫩草成人www欧美
|
99视频精品全部免费在线
|
欧美一级视频
|
亚洲国产一区二区a毛片
|
欧美人与禽猛交乱配
|
亚洲欧美日韩国产成人
|
欧美成人四级电影
|
亚洲一区网站
|
尤物在线精品
|
欧美性猛交99久久久久99按摩
|
午夜精品视频一区
|
亚洲福利精品
|
欧美在线中文字幕
|
亚洲国产精品电影
|
国产精品美女久久
|
蜜臀久久99精品久久久画质超高清
|
亚洲精品一区二区三区av
|
久久狠狠久久综合桃花
|
亚洲精品日日夜夜
|
国产亚洲欧洲997久久综合
|
欧美高清视频www夜色资源网
|
亚洲一区二三
|
亚洲国产精品热久久
|
欧美有码视频
|
在线午夜精品
|
亚洲成在人线av
|
亚洲高清视频在线观看
|
午夜精品久久久久99热蜜桃导演
|
国产精品日韩专区
|
欧美大学生性色视频
|
亚洲一区视频在线观看视频
|
欧美高清免费
|
久久久久久久久综合
|
亚洲一区二区三区精品视频
|
在线欧美影院
|
一区二区视频免费在线观看
|