LingosHook在抓取結(jié)果數(shù)據(jù)時,HTML的解析最主要的一個環(huán)節(jié),就是說,如果對HTML字串分析上有任何的錯誤都會導(dǎo)致無法正確提取所需數(shù)據(jù)。
還好LingosHook的HTML解析代碼是自己的,怎么說呢,“代碼在手,天下我有”,像是對付“破碎”HTML數(shù)據(jù),稍微改改就OK了,嘿嘿。。。
當然了,也有不好的時候,由于HTML解析代碼是自己寫的,對很多特殊的情況的支持不好,導(dǎo)致解析失敗,比如最早發(fā)現(xiàn)<IMG>標簽沒有</IMG>這個問題找了很久,昨晚有發(fā)現(xiàn)了Lingoes還在用另一個特殊的標簽<PARAM>,這個也沒有</PARAM>;雖然Vicon詞典并沒有用到這個,但由于其它詞典使用到了,而導(dǎo)致整個HTML解析失敗。
雖然加一個這樣特殊標簽處理很簡單,只是在CheckSepicalTag()函數(shù)里面添加一行就OK,但問題是,誰知道還會有多少個這樣的標簽?zāi)兀课沂遣豢赡芤粋€一個詞典檢測的啊。。。因此,如果使用中碰到類似無法抓取結(jié)果的時候,可以在'Setting'界面中,開啟'Open Trace'選項,然后當數(shù)據(jù)到達時,將'Trace'界面中的HTML數(shù)據(jù)Copy出來,然后貼上來,我來定位原因。。。