数据管理。利用网络爬虫工具从不同目标政府网站中采集获取的网页是海量且无序的,还应对其实施整理、分类、著录、编目、鉴定等数据管理操作,实现信息的规则排序,使其具备增值的潜能,为后续的资源存储和访问利用奠定基础。
首先,资源分类。根据采集网页资源的特点,可以按照来源机构、资源主题、格式类型等分类标准,将其中具有某种共同属性特征的网页资源进行归类和整合,建立规范统一的政府网站网页资源分类体系,通过不同类别的属性特征来对海量的政府网页内容进行区分。其次,编目著录。对分类后的网页资源还应基于统一的元数据标准对其内容及结构、来源、背景等特征进行揭示和描述,并在相关元数据之间建立联系,形成政府网站网页资源目录体系,实现对海量无序网页信息的序化组织。最后,鉴定整理。政府网页的鉴定整理主要包括内容的识别以及内容的可用性判断,其中内容的识别就是确保实现政府网页长期可存取的元数据、保存策略等信息要素齐全。
内容的可用性判断即是通过人工干预来对政府网页的形成背景、内容质量、重要程度等属性特征进行全面分析,并根据保管期限表对要归档的政府网页标记相应的鉴定标识。
网页名称:行业动态数据管理
网址分享:https://www.cdcxhl.com/news/149922.html
成都网站建设公司_创新互联,为您提供Google、微信小程序、品牌网站制作、响应式网站、建站公司、网站收录
广告
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源:
创新互联