数据采集服务 Data collection

首页 - 服务支持 - 数据采集服务  

    互联网是目前世界最大的数据仓库,其中蕴藏着大量有价值的信息。在互联网中,数据大多以网页的形式存在,而这些有价值的信息就附着在网页上。网页是一种半结构化数据,目前,大部分的网页内容转载工作采取半自动的方式,从网页中得到结构化的有用信息,存在效率低下,成本偏高的问题。
    卫兵互联网信息数据采集系统拥有面向所有类型的网页,自动进行网页结构化抽取,并进行初步处理的高效互联网信息采集工具成为用户的迫切希望。
    卫兵互联网信息数据采集系统通过灵活的规则可以从任何类型的网站采集信息,如新闻网站、论坛、博客、电子商务网站、招聘网站等等。支持网站登录采集、网站跨层采集、POST采集、脚本页面采集、动态页面采集等高级采集功能。支持存储过程、插件等,可以通过二次开发扩展功能。

[卫兵传媒能为您做什么?]
1、网站内容维护:定时采集新闻、文章等,并自动发布到您的网站。
2、互联网数据挖掘:从指定网站抓取所需数据,通过分析和处理后保存到您的数据库。
3、网络信息监控:通过自动抓取新闻、论坛等,然后进行分析处理,可以让您第一时间发现您所关注的内容。
4、文件批量下载:可以批量下载PDF、RAR、图片等各种文件,并同时采集其相关信息。
5、还有很多您想到,我们却没有想到的应用。

[功能概述]
  卫兵传媒针对当前政府及企业在内容管理、知识管理和信息资源开发利用等方面的新要求,推出互联网信息采集平台。平台支持实现对Web页面、各种常见数据文件及数据库内容进行增量式的信息采集,并对采集到的互联网信息进行自动分类、过滤、存储、和发布,是内容管理发布系统的素材库,能够极大的提升网站内容的多样性和时效性。

○ 多任务 & 多线程:可以同时执行多个采集任务,每个任务又可以使用多个线程。
○ 通过N层导航技术,可以进行海量采集。
○ 支持插件调用,可以通过二次开发扩展功能。
○ 支持历史记录功能,有效避免重复采集。
○ 支持任务列队功能,当有大量任务同时运行时,可以分批、排队。
○ 支持跨层采集功能,能够对复杂的网站结构进行采集。
○ 可以对采集结果进行筛选。
○ 采集任务可以进行分类,采用树型目录管理。
○ 支持定时采集、自动关机。
○ 支持断点续采,即软件关闭后,下次打开可以接着上次的断点采集。
○ 支持网站登录采集,可以采集需要登录的页面。
○ 支持POST网址捕获,可以轻松采集以POST方式提交的页面。
○ 通过独立文件下载,可以下载任何类型的文件(PDF、RAR、MP3、SWF、3GP等等)。
○ 通过内容文件下载,可以提取并下载内容中的图片、Flash、附件(任何类型的文件)。
○ 采集时可以同时下载列表中的“缩略图”。
○ 采集时将结果写入临时文件,不占内存。采集完,可以轻松导出为Access、Excel文件,或直接发布到数据库。
○ 支持采集结果发布,可以发布到Access、SQL Server、MySQL、Oracle等各种数据库。
○ 支持存储过程调用,可以与现有数据库进行整合,构造一个数据处理层。
○ 支持采集结果在线发布,即以在线方式发布到现有的网站系统。

[产品架构/应用流程图]


[产品特色]
A、通用:通过定制采集规则,能够采集任何通过浏览器看得到的东西。
B、灵活:支持网站登录采集、网站跨层采集、POST采集、脚本采集、动态页面采集等高级功能。
C、扩展性强:支持存储过程、插件等,可以通过二次开发扩展功能。
D、高效:为了让您节省一分钟去做其它事情,软件中做了精心设计。
E、速度快:速度最快、效率最高的采集软件。
F、稳定:系统资源占用少、有详细的运行日志、采集性能稳定,而且,软件要求“0 bug”。
G、人性化:始终注重细节,力求带给您更加人性化的体验!

[产品优势]
极强的采集能力
  系统的扫描间隔最小可以设置成1分钟,单机即可支持数百网站信息的采集工作,同时支持单机多线程,多机分布式的信息集。
增量式的信息采集模式
  采用增量式的信息采集模式,采集子系统根据特有的扫描技术可以不用下载全部网页即可判断网页信息是否已经被抓取,从而加快采集速度,减少带宽占用。
支持内容过滤
  通过网页结构分析的方法确定新闻报道的正文、图片以及表格内容,自动去除广告等与新闻报道本身无关的信息。
支持多种网页类型
  采集子系统能够对多种网页类型的信息进行采集,还能够采集由JavaScript生成的动态超链信息。
支持对采集信息进行分类和过滤
  系统将采集到的信息按规则自动分类,同一分类可设置多条规则,支持关键词逻辑表达式。

[应用范围]
○ 政府门户网站
○ 企业门户网站
○ 行业门户网站
○ 信息管理与服务系统
○ 知识管理系统
○ 信息安全检查、过滤与监控