網(wǎng)友評分:
5分
飛騰反黃軟件 V2.3.0.1010 官方版
全能模擬王自動點擊軟件 V17.1.1 綠色最新版
Sangfor WebShellKiller(網(wǎng)站暗鏈檢測工具) V3.3.0.2 綠色免費版
Easy Web Editor(可視化網(wǎng)頁制作軟件) V2016.40.1 官方版
Google Web Designer(網(wǎng)頁編輯器) V8.0.3.0603 官方版
Advanced PDF Page Extractor(PDF頁面提取軟件) V1.5 官方版
Fiddler4網(wǎng)頁抓包軟件 V5.0.2 官方版
我要看vip視頻Chrome插件 V1.4.1 綠色版
XPath2Doc 是一個半自動采集網(wǎng)頁生成Word docx文件的工具,帶企查查、天眼查采集配置,使用XPath2Doc需要自己在WebBrowser窗口里面手工登錄,并找到需要的數(shù)據(jù)頁面,然后點擊程序按鈕進行采集,所以是個半自動的網(wǎng)頁數(shù)據(jù)填充Docx工具。
網(wǎng)頁的每個元素,都可以表示成為XPath語句,所以我們可以讀取瀏覽器打開的網(wǎng)站頁面源代碼,通過XPath語句得到網(wǎng)頁元素中的文本。
XPath語句的獲取辦法:
通常我們可以使用谷歌的Chrome瀏覽器打開網(wǎng)站頁面,按F12調(diào)出開發(fā)者工具界面,在ELements選項卡下,隨著鼠標的移動可以看到網(wǎng)頁內(nèi)容被陰影覆蓋,點開三角符號,可以更進一步定位準確的位置,直到找到最終需要的數(shù)據(jù)位置。在找到的文本上點鼠標右鍵,在彈出的菜單中,選擇Copy-Copy XPath,然后粘貼到記事本即可得到需要的XPath語句。
這里需要說明一點:如果拷貝出來的XPath語句中有/tbody會影響采集,程序內(nèi)部對此問題進行了處理,但可能會在某些特殊情況下還是會影響數(shù)據(jù)采集,可以手工去掉。
1、本程序工作需要三個配置文件:General.ini,自定義.ini,自定義模板.docx。后兩個文件名自己定義。
General.ini文件中定義了INI文件和Docx模板文件的存放目錄,可以不填,默認是程序所在目錄。
自定義.ini、自定義模板.docx是軟件使用者自己創(chuàng)建的網(wǎng)頁采集XPath語句及最后生成文件所用的Docx模板,具體設(shè)置方法請看ini文件中的說明。注意,Docx模板文件中的“@<#0001#>@”之類的字符是在INI文件中定義的用于替換網(wǎng)頁采集內(nèi)容的標記字符串。ini文件中定義了替換關(guān)鍵字的前后綴和模板文件名。
2、使用本程序前,請先建立好你自己的INI配置文件和Docx模板文件。(具體可以參見附帶的企查查、天眼查兩個配置文件和起訴書模板)
需要說明的是,模板文件支持對文檔的不同部分使用不同的網(wǎng)址進行采集,注意Url的設(shè)置。
啟動程序--選擇模板--點擊采集數(shù)據(jù)按鈕旁邊的黑色三角符號,點開下拉菜單,點擊需要采集的部分。等候瀏覽器加載網(wǎng)頁完畢,手工輸入需要查詢的內(nèi)容,點擊查詢,找到數(shù)據(jù)的具體頁面,然后點擊采集數(shù)據(jù)按鈕,觀察右側(cè)的列表中是不是已經(jīng)得到需要的數(shù)據(jù)。繼續(xù)點開下拉菜單,選擇下一個需要采集的部分,如果網(wǎng)址發(fā)生了變化要等候瀏覽器加載完畢,找到需要的數(shù)據(jù)頁面。點擊采集數(shù)據(jù)按鈕觀察右側(cè)列表中是不是得到了第二部分的數(shù)據(jù)。如此反復(fù),直到數(shù)據(jù)全部采集完畢。
如果前后兩部分的網(wǎng)址相同,在點擊下一部分的下拉菜單之前,要先在瀏覽器中重新查詢新的數(shù)據(jù),等新數(shù)據(jù)頁面出來之后在點擊下拉菜單選擇下一部分進行采集。(網(wǎng)址相同的情況下,點擊下一部分會直接從網(wǎng)頁取數(shù)據(jù),如果瀏覽器沒有換頁面,數(shù)據(jù)就錯了。)如果某個部分需要重新采集,請先點擊下拉菜單中的該部分名稱,然后點擊采集按鈕重復(fù)采集該部分(此時可以隨意改變?yōu)g覽器的數(shù)據(jù)頁面,得到的就是不同公司數(shù)據(jù))。
列表中采集得到的數(shù)據(jù)結(jié)果如果有偏差,可以單擊自行修改。XPath語句如果有什么錯誤,也可以自己修改看測試結(jié)果(XPath語句在修改后會立即重新抓取瀏覽器的數(shù)據(jù),所以瀏覽器最好是有效數(shù)據(jù)頁面),在程序中修改的XPath語句,不會保存到INI文件中,請自行手工保存。
如果列表中數(shù)據(jù)無誤,預(yù)覽窗口中的Docx模板內(nèi)容也正確,則可以點擊創(chuàng)建文檔按鈕,填寫要生成的文件名,本軟件會使用抓取到的網(wǎng)頁數(shù)據(jù)替換模板中的索引字符串,自動生成Docx文檔。
需要說明的是,右下角的Docx預(yù)覽窗口不能完整的支持Word文檔,對不標準的文檔可能會出現(xiàn)文本缺失或者錯位現(xiàn)象。遇到這種情況,可以忽略,或者將模板文件改成規(guī)范的文本格式(單倍行距)。
關(guān)于本站|下載幫助|下載聲明|軟件發(fā)布|聯(lián)系我們
Copyright ? 2005-2024 www.wndwig.cn.All rights reserved.
浙ICP備2024132706號-1 浙公網(wǎng)安備33038102330474號