• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            Codejie's C++ Space

            Using C++

            LingosHook:結果抓取失敗的一種原因


                LingosHook在抓取結果數(shù)據(jù)時,HTML的解析最主要的一個環(huán)節(jié),就是說,如果對HTML字串分析上有任何的錯誤都會導致無法正確提取所需數(shù)據(jù)。
                還好LingosHook的HTML解析代碼是自己的,怎么說呢,“代碼在手,天下我有”,像是對付“破碎”HTML數(shù)據(jù),稍微改改就OK了,嘿嘿。。。
                當然了,也有不好的時候,由于HTML解析代碼是自己寫的,對很多特殊的情況的支持不好,導致解析失敗,比如最早發(fā)現(xiàn)<IMG>標簽沒有</IMG>這個問題找了很久,昨晚有發(fā)現(xiàn)了Lingoes還在用另一個特殊的標簽<PARAM>,這個也沒有</PARAM>;雖然Vicon詞典并沒有用到這個,但由于其它詞典使用到了,而導致整個HTML解析失敗。
                雖然加一個這樣特殊標簽處理很簡單,只是在CheckSepicalTag()函數(shù)里面添加一行就OK,但問題是,誰知道還會有多少個這樣的標簽呢?我是不可能一個一個詞典檢測的啊。。。因此,如果使用中碰到類似無法抓取結果的時候,可以在'Setting'界面中,開啟'Open Trace'選項,然后當數(shù)據(jù)到達時,將'Trace'界面中的HTML數(shù)據(jù)Copy出來,然后貼上來,我來定位原因。。。

            posted on 2010-03-29 23:59 codejie 閱讀(241) 評論(0)  編輯 收藏 引用 所屬分類: 隨筆而已

            公告

            Using C++

            導航

            統(tǒng)計

            留言簿(73)

            隨筆分類(513)

            積分與排名

            最新評論

            閱讀排行榜

            評論排行榜

            66精品综合久久久久久久| 久久人人爽人人人人爽AV| 久久久久久综合一区中文字幕| 亚洲国产精品久久66| 怡红院日本一道日本久久| 欧美久久久久久午夜精品| 亚洲国产美女精品久久久久∴ | 一级女性全黄久久生活片免费| 亚洲精品蜜桃久久久久久| 激情五月综合综合久久69| 久久丫精品国产亚洲av不卡| 久久精品国产亚洲Aⅴ蜜臀色欲| 久久综合给合久久狠狠狠97色| 日本欧美国产精品第一页久久| 九九久久自然熟的香蕉图片| 久久亚洲精品国产亚洲老地址| 亚洲国产成人久久综合碰碰动漫3d| 久久精品国产亚洲AV久| 97久久精品人人澡人人爽| 国内精品久久久久影院优| 久久久久亚洲av综合波多野结衣 | 精品无码久久久久久午夜| 久久久久久精品免费看SSS| 青青久久精品国产免费看| 99久久精品国产综合一区| 国产精品天天影视久久综合网| 色综合久久久久综合体桃花网| 久久精品国产男包| 97香蕉久久夜色精品国产| 亚洲一区精品伊人久久伊人| 久久久91人妻无码精品蜜桃HD| 9999国产精品欧美久久久久久| 久久久久久久人妻无码中文字幕爆| 亚洲日本va中文字幕久久| 久久99热这里只有精品国产| 一本色道久久综合狠狠躁| 久久久老熟女一区二区三区| 色偷偷88888欧美精品久久久| 99久久er这里只有精品18| 国产精品久久久久aaaa| 九九99精品久久久久久|