加载中 ...
首页 > 软件介绍 > 网站建设 正文

中电翔云数据采集

2019-03-24 16:03:53 来源:沈阳软件公司 作者:沈阳软件开发

多种页面解析方式,系统维护简单、易用

利用XPATH反向生成工具和在线验证等方式,实现所见即所得的元数据抽取规则设置,改善只有技术人员才能维护的状况,提高系统维护简易性。

多种信息导出方式,支持信息再利用

选择采集任务与CMS栏目的对应关系,经过权限验证后以CMS提供的Web服务接口方式导出信息。

针对外部系统索取数据过程,有两种方式可获取信息,一种是XML导出的方式,一种是Web服务接口方式。

精确度高

    用户可以按照自身需要自行选择、设定监测的目标网站和特定信息源,实施24小时不间断监测和采集,信息动态始终处于掌握之中。系统支持将网页中的信息内容按日期、标题、作者、栏目进行提取,过滤网页中的无用信息。扩展抓取采集范围可以精确到特定网站、特定栏目、特定页面、特定区域。

易用性好

    系统参数设置简单,一次设置多次使用。采用精确抓取时针对不同用户应用要求,可设定“所见即所得”的拖拽选取信息内容方式。设置过程直观、便捷。系统能将收集的信息进行精确的自动分类与整理,按照用户要求进行快速推送。

灵活性强

    系统具有很强的灵活性,可按需选择目标站点,并根据形势的变化,随时更换目标站点。用户可直接到某一网站抓取用户想要的特定栏目下的信息,它仅仅要求用户设定特定的抓取条件,用户需要的内容就会自动被抓取和保存下来,从而实现由用户上网找信息转变为信息自动流向用户的方式。

实施部署容易

    系统用户界面友好,抓取服务器在Windows平台下运行,实施部署过程简单,即装即用。系统稳定性很高,可以在“7天×24小时”运行模式下长时间地运行。

采集内容全面

    适应网站内容格式的多变性,能完整地获取需要采集的页面,遗漏少,网页采集内容的完整性在99% 以上。

抓取速度快

    系统支持多线程处理技术,支持运行多条线程的同时抓取。可快速高效地对目标站点或栏目进行信息采集,大大加快了信息的抓取速度,保证在同等单位时间内信息的抓取量成倍数增长。

性能指标

    每分钟可以抓取上百个最新网页,每小时可以同时监控5万个以上的网页(受网络带宽的限制),支持上千个网站的并发采集。与大汉内容管理系统无缝集成,同时提供标准的第三方应用系统接口,方便进行二次开发

 

“沈阳软件公司”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与

我们联系删除或处理,客服QQ:55506560,稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同

其观点或证实其内容的真实性。