mart and Simple Web Crawler是一個(gè)Web爬蟲框架。集成Lucene支持。該爬蟲可以從單個(gè)鏈接或一個(gè)鏈接數(shù)組開始,提供兩種遍歷模式:最大迭代和最大深度?梢栽O(shè)置 過濾器限制爬回來的鏈接,默認(rèn)提供三個(gè)過濾器ServerFilter、BeginningPathFilter和 RegularExpressionFilter,這三個(gè)過濾器可用AND、OR和NOT聯(lián)合。在解析過程或頁面加載前后都可以加******。介紹內(nèi)容來自O(shè)pen-Open