產(chǎn)品介紹 Product introduction
網(wǎng)絡(luò)資源采集與歸檔系統(tǒng)軟件是一款針對互聯(lián)網(wǎng)數(shù)據(jù)進行采集與挖掘的專業(yè)工具。它可將瀏覽器瀏覽到的任何數(shù)據(jù)進行采集獲取,并可按照用戶的需求將數(shù)據(jù)進行加工、保存,還可根據(jù)用戶的需求對采集到的數(shù)據(jù)進行發(fā)布管理。
系統(tǒng)支持多機并行爬取、分布式存儲、爬蟲控制、全文檢索、站點原版原貌展現(xiàn)、自動查重去重等功能。數(shù)據(jù)采集系統(tǒng)能夠為數(shù)字圖書館的建設(shè)提供更新和增加圖書、期刊數(shù)據(jù)庫信息,對廠商提供的數(shù)據(jù)進行采集分析提取有用信息入庫或全文檢索。
產(chǎn)品功能 Product function
主要包括:采集管理、存儲管理、發(fā)布管理以及系統(tǒng)平臺管理等。
操作界面由菜單、工具欄、樹形菜單、系統(tǒng)信息、分類顯示數(shù)據(jù)頁簽、監(jiān)控雷達、狀態(tài)欄等幾部分構(gòu)成。
產(chǎn)品特點 Product feature
系統(tǒng)支持使用正則表示式去匹配需采集的數(shù)據(jù)
支持對學術(shù)站點的周期性保存,并以原版進行展現(xiàn)
系統(tǒng)支持信息采集、存儲、展現(xiàn),可伸縮式三層架構(gòu)
信息采集層支持熱插拔
針對不同站點,存儲層支持異構(gòu)數(shù)據(jù)庫進行存儲
異構(gòu)數(shù)據(jù)庫存儲使資源能夠進行主題應(yīng)用的同時保持互聯(lián)網(wǎng)資源原貌展現(xiàn)