作者:楊老師
下載源代碼
一、摘要
在我們編寫的程序中,如果想要實(shí)現(xiàn)對(duì)瀏覽器打開的網(wǎng)頁(yè)進(jìn)行監(jiān)視、模擬操縱、動(dòng)態(tài)提取用戶輸入、動(dòng)態(tài)修改......等功能,那么請(qǐng)你抽出寶貴的時(shí)間,繼續(xù)往下閱讀。本文介紹的知識(shí)和示例程序都是圍繞如何遍歷 HTML 中的表單(form)并枚舉出表單域的屬性為目標(biāo)的,對(duì)于網(wǎng)頁(yè)中的其它元素,比如圖象、連接、腳本等等,應(yīng)用同樣的方法都可以輕松實(shí)現(xiàn)。
二、網(wǎng)頁(yè)的文檔層次結(jié)構(gòu)
IE 瀏覽器,采用 DOM(文檔對(duì)象模型)來管理網(wǎng)頁(yè)的數(shù)據(jù)。它通過一個(gè)容器(IWebBrowser2/IHTMLWindow2)來裝載網(wǎng)頁(yè)文檔(IHTMLDocument2),而一個(gè)文檔,又可以由 0 或多個(gè)貞(frame)組成,管理這些貞的接口叫“框架集合(IHTMLFramesCollection2)”,而每個(gè)貞的容器又是IHTMLWindow2,和IWebBrowser2一樣,它也裝載著各自的文檔(IHTMLDocument2)。因此,我們的第一個(gè)任務(wù),就是想方設(shè)法能夠得到IHTMLDocument2的接口。因?yàn)槲臋n可能包含貞,而貞又包含著子文檔,子文檔可能再包含貞......,如此要得到所有的文檔,這里有一個(gè)遞歸遍歷的處理過程。
得到文檔(IHTMLDocument2)后,下一步任務(wù)就是要設(shè)法取得表單了(IHTMLFormElement)。因?yàn)樵谝粋€(gè)文檔中可以包含 0 或多個(gè)表單(form),而管理這些表單的又是一個(gè)表單集合(IHTMLElementCollection),所以必須先得到集合,然后再枚舉出所有的表單條目了。
得到表單(IHTMLFormElement)后,接下來的事情就簡(jiǎn)單了,逐個(gè)提取表單中的元素(也叫表單域 IHTMLInputElement)就可以讀寫這些域的屬性了。
說了半天,我估計(jì)初次接觸的朋友一定沒有聽懂:( 呵呵,還是用圖的方式表示一下吧,這樣比較清晰一些。

三、程序?qū)崿F(xiàn)
<1> 取得 IHTMLDocument2 的接口指針。根據(jù)IE瀏覽器的運(yùn)行方式,有多種不同的方式可以獲取文檔指針。
<1.1> 如果你在程序中使用MFC的 CHtmlView 視來瀏覽網(wǎng)頁(yè)。
取得文檔的方法最簡(jiǎn)單,調(diào)用 CHtmlView::GetHtmlDocument() 函數(shù)。
<1.2> 如果你的程序中使用了“Web 瀏覽器” 的ActiveX 控件。
取得文檔的方法也比較簡(jiǎn)單,調(diào)用 CWebBrowser2::GetDocument() 函數(shù)。
<1.3> 如果你的程序是用 ATL 寫的 ActiveX 控件。
那么需要調(diào)用 IOleClientSite::GetContainer 得到 IOleContainer 接口,然后就可以通過 QueryInterface() 查詢得到 IHTMLDocument2 的接口。主要代碼如下:
CComPtr < IOleContainer > spContainer;
m_spClientSite->GetContainer( &spContainer );
CComQIPtr < IHTMLDocument2 > spDoc = spContainer;
if ( spDoc )
{
// 已經(jīng)得到了 IHTMLDocument2 的接口指針
}
<1.4> 如果你的程序是用 MFC 寫的 ActiveX 控件。
那么需要調(diào)用 COleControl::GetClientSite() 得到 IOleContainer 接口,然后的操作和<1.3>是一致的了。
<1.5> IE 瀏覽器作為獨(dú)立的進(jìn)程正在運(yùn)行。
每個(gè)運(yùn)行的瀏覽器(IE 和 資源瀏覽器)都會(huì)在 ShellWindows 中進(jìn)行登記,因此我們要通過 IShellWindows 取得實(shí)例(示例程序中使用的就是這個(gè)方法)。主要代碼如下:
#include < atlbase.h >
#include < mshtml.h >
void FindFromShell()
{
CComPtr< IShellWindows > spShellWin;
HRESULT hr = spShellWin.CoCreateInstance( CLSID_ShellWindows );
if ( FAILED( hr ) ) return;
long nCount=0;
spShellWin->get_Count(&nCount); // 取得瀏覽器實(shí)例個(gè)數(shù)
for(long i=0; i<nCount; i++)
{
CComPtr< IDispatch ><nCount; i++)
{
CComPtr< IDispatch ><nCount; i++)
{
CComPtr< IDispatch > spDisp;
hr=spShellWin->Item(CComVariant( i ), &spDisp );
if ( FAILED( hr ) ) continue;
CComQIPtr< IWebBrowser2 > spBrowser = spDisp;
if ( !spBrowser ) continue;
spDisp.Release();
hr = spBrowser->get_Document( &spDisp );
if ( FAILED ( hr ) ) continue;
CComQIPtr< IHTMLDocument2 > spDoc = spDisp;
if ( !spDoc ) continue;
// 程序運(yùn)行到此,已經(jīng)找到了 IHTMLDocument2 的接口指針
}
}
<1.6> IE 瀏覽器控件被一個(gè)進(jìn)程包裝在一個(gè)子窗口中。那么你首先要得到那個(gè)進(jìn)程的頂層窗口句柄(使用 FindWindow() 函數(shù),或其它任何可行的方法),然后枚舉所有子窗口,通過判斷窗口類名是否是“Internet Explorer_Server”,從而得到瀏覽器的窗口句柄,再向窗口發(fā)消息取得文檔的接口指針。主要代碼如下:
#include < atlbase.h >
#include < mshtml.h >
#include < oleacc.h >
#pragma comment ( lib, "oleacc" )
BOOL CALLBACK EnumChildProc(HWND hwnd,LPARAM lParam)
{
TCHAR szClassName[100];
::GetClassName( hwnd, &szClassName, sizeof(szClassName) );
if ( _tcscmp( szClassName, _T("Internet Explorer_Server") ) == 0 )
{
*(HWND*)lParam = hwnd;
return FALSE; // 找到第一個(gè) IE 控件的子窗口就停止
}
else return TRUE; // 繼續(xù)枚舉子窗口
};
void FindFromHwnd(HWND hWnd)
{
HWND hWndChild=NULL;
::EnumChildWindows( hWnd, EnumChildProc, (LPARAM)&hWndChild );
if(NULL == hWndChild) return;
UINT nMsg = ::RegisterWindowMessage( _T("WM_HTML_GETOBJECT") );
LRESULT lRes;
::SendMessageTimeout( hWndChild, nMsg, 0L, 0L, SMTO_ABORTIFHUNG, 1000, (DWORD*) &lRes );
CComPtr < IHTMLDocument2 > spDoc;
HRESULT hr = ::ObjectFromLresult ( lRes, IID_IHTMLDocument2, 0 , (LPVOID *) &spDoc );
if ( FAILED ( hr ) ) return;
// 程序運(yùn)行到此,已經(jīng)找到了 IHTMLDocument2 的接口指針
}
<2> 得到了 IHTMLDocument2 接口指針后,如果網(wǎng)頁(yè)是單貞的,那么轉(zhuǎn)第<4>步驟。如果是多貞(有子框架)則還需要遍歷所有的子框架。這些子框架(IHTMLWindow2),被保存在集合中(IHTMLFramesCollection2),取得集合指針的方法比較簡(jiǎn)單,取屬性 IHTMLDocument2::get_frames()。
<3> 首先取得子框架的總數(shù)目 IHTMLFramesCollection::get_length(),接著就可以循環(huán)調(diào)用 IHTMLFramesCollection::item()函數(shù)一個(gè)一個(gè)地取得子框架 IHTMLWindow2 指針,然后轉(zhuǎn)第<1>步。
<4> 一個(gè)文檔中可能擁有多個(gè)表單,因此還是同樣的道理,先要取得表單的集合(IHTMLElementCollection,其實(shí)這個(gè)不光是表單的集合,其他元素的集合,比如圖片集合也是用它)。這個(gè)操作也很簡(jiǎn)單,取得屬性 IHTMLDocument2::get_forms()。
<5> 屬性 IHTMLElementCollection::get_length() 得到表單總數(shù)目,就可以循環(huán)取得每一個(gè)表單指針了 IHTMLElementCollection::item()。
<6> 在第<5>步中的item()函數(shù),得到的是一個(gè)IDispatch的指針,你通過QueryInterface()查詢,就可以得到 某類型輸入的指針,代碼如下:// 假設(shè) spDisp 是由IHTMLElementCollection::item() 得到的 IDispatch 指針
CComQIPtr < IHTMLInputTextElement > spInputText(spDisp);
CComQIPtr < IHTMLInputButtonElement > spInputButton(spDisp);
CComQIPtr < IHTMLInputHiddenElement > spInputHidden(spDisp);
......
if ( spInputText )
{
//如果是文本輸入表單域
}
else if ( spInputButton )
{
//如果是按紐輸入表單域
}
else if ( spInputHiddent )
{
//如果是隱藏輸入表單域
}
else if ........ //其它輸入類型
上面的方法,由于使用具體類型的接口指針,因此程序的效率比較高。但是通過 QueryInterface 接口查詢,然后再進(jìn)行條件判斷顯然是比較煩瑣的,所以這個(gè)方法適合于特定的已知網(wǎng)頁(yè)設(shè)計(jì)內(nèi)容的程序。在示例程序中,我則是直接使用 IDispatch 接口進(jìn)行操作的,這個(gè)方式執(zhí)行起來稍微慢一些,但程序比較簡(jiǎn)單。主要代碼和說明如下:#include < atlbase.h >
CComModule _Module; // 由于需要使用 CComDispatchDriver 的 IDispatch 包裝類ATL智能指針,所以這個(gè)是必須的
#include < atlcom.h >
......
long nElemCount=0; //表單域的總數(shù)目
spFormElement->get_length( &nElemCount );
for(long j=0; j< nElemCount; j++)
{
CComDispatchDriver spInputElement; // IDispatch 的智能指針
spFormElement->item( CComVariant( j ), CComVariant(), &spInputElement );
CComVariant vName,vVal,vType; // 域名稱,域值,域類型
spInputElement.GetPropertyByName( L"name", &vName );
spInputElement.GetPropertyByName( L"value",&vVal );
spInputElement.GetPropertyByName( L"type", &vType );
// 使用 IDispatch 的智能指針的好處就是:象上面這樣讀取、設(shè)置屬性很簡(jiǎn)單
// 另外調(diào)用 Invoke 函數(shù)也異常方便,Invoke0(),Invoke1(),Invoke2()....
......
}
四、結(jié)束語(yǔ)
示例程序在 VC6 下編譯執(zhí)行通過。運(yùn)行方法:隨便啟動(dòng)幾個(gè) IE 瀏覽網(wǎng)頁(yè),最好是有表單輸入的網(wǎng)頁(yè)。然后執(zhí)行示例的 EXE 程序即可。到這里,就到這里了......祝大家學(xué)習(xí)快樂 ^-^