全站導航
歷史記錄
清空歷史記錄
    最新文章 最近更新
    當前位置:首頁 > 網絡軟件 > 網頁輔助 > 萬能文章采集器 v3.0.8.0綠色免費版

    萬能文章采集器

    v3.0.8.0綠色免費版
    分享:
    0(50%) 0(50%) 更新時間:2019-11-28
    軟件大小:994KB軟件類型:國產軟件
    軟件語言:簡體中文軟件授權:免費軟件

    評級:

    應用平臺:Windows10, Windows8, Windows7, WinVista, WinXP

    普通下載

    高速下載

    需下載高速下載器,提速50%

    • 軟件介紹
    • 下載地址
    • 猜你喜歡
    萬能文章采集器是一款方便易用的文章采集軟件,其功能強大且完全免費使用。該軟件操作簡單,可以精確提取網頁里的正文部分保存為文章,支持去標簽、鏈接、郵箱等格式化處理,只需要短短的幾分鐘就可以采集你想要的任何文章。而且擁有獨家首創智能的萬能算法,可以只需輸入關鍵字就能采集各種網頁和新聞,還可以采集指定列表頁(欄目頁)的文章,精確提取網頁里的正文部分保存為文章內容。同時還有插入關鍵詞功能,可以識別標簽或標點旁邊插入,并且能識別英文空格間距插入,更有文章轉譯功能,也就是可以將文章從一種語言如中文轉到另一種語言如英文或日文,再從英文或日文轉回中文,這樣就是一個轉譯周期,可以設定轉譯周期循環多次。如果您對某個關鍵詞的文章感興趣想進行批量性的下載,可以使用這款完全免費的水淼萬能文章采集器,如需要的用戶歡迎前來下載!
    水淼萬能文章采集器

    軟件特點

    一、依托于水淼軟件獨家萬能正文識別智能算法,可實現任何網頁正文自動提取準確率95%以上。
    二、只需輸入關鍵詞,就能采集到百度新聞和網頁、搜狗新聞和網頁、360新聞和網頁、谷歌新聞和網頁、必應新聞和網頁、雅虎;可批量關鍵詞全自動采集。
    三、可定向采集指定網站欄目列表下的所有文章,智能化匹配,無需編寫復雜規則。
    四、文章轉譯功能,可對采集好的文章,將其翻譯到英文再翻譯回中文,實現翻譯偽原創,支持谷歌和有道翻譯。
    五、史上最簡單最智能文章采集器,支持全功能試用,效果如何一試就知!

    功能介紹

    什么是高精度正文識別算法
    此算法由水淼自主研發,可以在一個網頁里提取出正文部分,通常精度可以達到95%,如果再進一步設置最少字數,采集的文章的精度(正確性)可以達到99%。同時文章標題也實現99%的提取精度。當然,一些網頁排版格式比較混亂、不規則時,該精度可能有所下降。
    正文提取模式
    正文提取算法有3種模式,標準、嚴格、精確標簽。大多數情況,標準和嚴格模式是相同的提取結果。下面說的是特殊情況:
    標準模式:即一般性提取,大多數時候能夠精確提取正文,但一些特殊頁面會導致提取到一些不需要內容(但本模式能夠較好識別類似百度經驗的文章頁面)
    嚴格模式:顧名思義,比標準模式嚴格一點,可以很大程度避免不相關內容提取為正文,但對于特殊分段頁面如百度經驗的頁面(不是一般
    段落,而是有格式的多個獨立div段),一般只能提取到某一段,而標準模式則可以提取全部段。
    精確標簽:當標準和嚴格模式不管用時,可以精確指定目標正文的標簽頭。本模式只適合網絡批處理。
    所以可以根據實際情況來切換模式。可以使用本地批處理的讀網頁正文功能來測試指定網頁適合哪種模式提取。
    采集時的處理選項
    采集時可以同時進行轉譯、過濾、查詞等處理。對于已采集好的文章可以使用《本地批處理》處理。
    其中的轉譯功能,就是將中文翻譯成英文再翻譯回中文,也就產生了偽原創效果。支持原格式轉譯,也就是不改變文章原有標簽結構、排版格式。
    采集目標為網址
    可以在網址模板里插入 #網址#、#標題#來組合引用
    分頁采集和相對路徑轉為絕對路徑
    打勾“自動采集分頁”就能將分頁文章采集合并,編輯框設置值為采集分頁的最大數量。建議設置一個有限值如10頁,避免一些分頁過多的采集耗費時間長,合并后的文章體積大。如果需要采集全部分頁,可以設置為0。
    而文章里的所有相對路徑都將自動轉為絕對路徑,如此可確保圖片等正常顯示。
    多線程
    支持多線程高速采集網頁。可以根據網速而定,電信2m可以5個線程,電信4m可以10個線程,更多以此類推,但需適當設置,設置太多將可能嚴重影響采集效率甚至影響系統效率。如果采集時有其他占用流量的軟件在運行比如在線視頻播放,可以適當降低線程數。
    文章標題和文章內容重復的處理
    程序可以智能判斷并過濾重復文章
    當采集到的文章標題(文件名)與本地已經保存的文章標題相同時,水淼將首先判斷兩篇文章的相似度,當相似度大于 60% 時,水淼判斷為相同文章,這時再比較兩篇文章的文字多寡,自動使用文字多的文章覆蓋寫出到相同文件名處。這樣的生成情況是不累加到生成數量的。
    而當相似度低于 60% 時,水淼判斷為不同文章,將自動重命名標題(取3到5個隨機字母接在標題尾)保存到文件。
    文章快速篩選器
    雖然水淼研究了一個準確率極高的正文提取算法,但難免還是有極少數提取錯誤,這些錯誤主要是:目標網頁的主體是在線視頻,或主體內容過于簡短而無法形成正文的特征。因此可以通過設置提取最終結果的字數多少來提高準確率(在“正文最少字數”參數,這個字數是程序將正文去標簽、去行、去空格之后的純文字字數)。
    而文章快速篩選器就是為了快速查看采集好的文章,方便判斷刪除提取正文錯誤的文章。同時也方便基于網絡信息采集目的而需要進行的煉選過程。
    生成篇數不固定的問題
    百度、搜搜默認每頁100條結果,谷歌默認每頁10條結果。
    一些網站訪問速度超時(尤其是谷歌收錄的不少都是一些被墻的網站),或設置了正文最少字數,或程序忽略已在本地有同名的相似內容文章,或黑名單白名單的過濾等,都會造成實際生成篇數低于一頁搜索最大結果數。
    總體來說,百度采集的質量最好,生成篇數貼近搜索結果數。

    使用說明

    1 下載完成后不要在壓縮包內運行軟件直接使用,先解壓;
    2 軟件同時支持32位64位運行環境;
    3 如果軟件無法正常打開,請右鍵使用管理員模式運行。

    使用方法

    選擇關鍵詞
    設置搜索間隔、采集類型、時間語言、排序方式、采集目標等參數
    編輯網站的黑名單、白名單
    設置轉譯選項、過濾選項、插詞選項
    點擊“開始采集”按鈕

    更新日志

    新增對部分做了防采集處理的網站進行加強采集功能。

    下載地址 / Download

    下載不了?點擊報錯

    網友評論 / comment

    0條評論

    評論需審核后才能顯示
    黑龙江p62开奖号码 全民麻将正式版 绿化创业赚钱吗 南京进院子20麻将群 微博上回收手机如何赚钱 东北麻将玩法怎么胡 宝山巴士赚钱吗 找了一个不会赚钱的老公 除了变美和赚钱 帝皇彩票苹果 直播平台拿什么赚钱 玩红月可以赚钱 我爱山西麻将外挂 自己的照片怎么做表情包赚钱 欢乐捕鱼怎么得萌小渔 设计行业什么最赚钱 女人做什么赚钱比较快