网页档案的采集有不同的采集策略,不同的采集策略决定了不同的采集范围,可分为完整型采集、选择型采集以及混合型采集。
完整型采集是对特定网域的全域进行自动化采集,采集范围广、内容多。美国的IA宗旨是保存互联网的全面记录,对全球公开的网站进行定期采集。每两个月,网站页面快照都会被互联网存档,自IA项目启动以来,互联网存档已经存储了2730亿个网页。
选择型采集是有针对性地捕获特定的网站,通常是根据事件、主题进行选择采集,采集范围小,需要借助人力。例如,澳大利亚的PANDORA项目只采集与澳大利亚相关,且具有文化意义的网站;美国国会图书馆的Library of Congress Web Archives(以下简称LCWA)项目,重点采集与国家利益主题相关的网页资源,包括美国选举、伊拉克战争和911事件;苏格兰的NRS网页档案项目,事先制定指南,根据指南采集其范围内组织创建和拥有的网站,包括苏格兰政府、苏格兰议会、苏格兰法院等。
混合型采集是将两种策略相结合,先大范围地对网站进行完整采集,再有重点地针对某些特定的网站进行深度、频繁的选择性采集。英国的UKWA项目,首先爬网内容是在英国发布的网站,如那些在英国顶级域名上的网站.uk、.cymru和.scot,以及可以手动识别出在英国发布的网站,再由工作人员定期关注、收集有关特定事件、主题或兴趣领域的网站。
标题名称:行业动态采集范围
网页链接:https://www.cdcxhl.com/news/147573.html
成都网站建设公司_创新互联,为您提供定制开发、自适应网站、网站排名、建站公司、响应式网站、品牌网站建设
广告
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源:
创新互联