加载中 ...
首页 > 软件介绍 > 网站建设 正文

中电翔云数据采集

2019-03-24 16:03:53 来源:沈阳软件公司 作者:沈阳软件开发

网络信息采集系统

 

利用中电翔云 网络信息雷达系统,对采集目标网站进行监控采集,并进行页面信息的过滤,保留网页的信息主体内容,文档图片,文档表格,基本过滤大多的无关导航、广告信息。并能自动进行相似性文档标引、分类。

同时中电翔云网络信息雷达系统不但可以对指定网站、指定栏目的内容定时进行抓取,还能实现进行内容提取后,自动导入中电翔云内容管理系统,辅助编辑工作

强大的信息实时监控和采集功能

定制采集源和监控周期 

高效的采集技术和更新策略

智能化的信息过滤、自动分类和排重等信息处理功能

专题内容定制 

垃圾信息过滤 

灵活的信息发布和检索 

配备强大内容检索引擎

基于内容相似度计算的自动排重 

支持自动发布和人工发布两种方式 

频道管理是定义采集任务信息与提取信息的管理模块,不同的采集站点通过频道划分归类。频道可以包含一个或多个任务。用户可以根据分类需要或习惯把一些相关站点作为一类放在一起,定义为一个频道。

l 抓取配置:为采集任务定义优先级、分配采集器、设定更新周期等运行设置。
l 调度配置:设定抓取任务为自动或定时抓取。
l 解析配置:设定抓取任务的页面解析规则和元数据提出规则。

采集器管理

添加采集器的ip、端口等内容,为采集服务的检测提供基础配置管理。

任务导出

用户可以应用采集导出功能将采集任务下载的站点数据以XML文件的形式导出,并且整合到其它业务系统中。采集导出提供按任务、页面发布时间、导出每页记录数、文件类型、是否包含图片等组合条件导出数据的功能。

索引库管理

可创建多个索引库,每个索引库可添加多个索引项。系统采用中文分词技术,可对索引项进行分词设置、模糊匹配等。

同义词管理

用户可以通过词典管理功能为索引过程建立同义词典,具体操作包括新建同义词、删除同义词和查找同义词。

索引设置

对索引库进行基本的配置,包括索引库路径,服务器地址等。提供系统定时自动处理索引库操作的功能。

分类树管理

用户在分类数管理中可定义父分类也可定义子分类。在定义好的分类树中,可移动分类在分类树中的位置,但是分类只能在同级间移动,不能越级移动,如果父分类被移动,那么该父分类下的所有子分类也跟着被移动。

分类规则管理

分类规则管理中可定义分类规则的多种属性,包括分类间的关系、是否生效、关键词、来源、文件类型。

分类信息发布管理

可对分类下的信息的发布情况进行管理。

信息导出管理

用户可以将所定义的分类下的信息导出来,存放到自己的文件目录中。

4)系统特点

松耦合性架构,支持各功能模块的扩展应用

由于数据采集和内容检索的广泛性应用,系统设计采用松耦合的架构,各功能模块相对独立,使得采集、索引既作为搜索服务系统的核心业务,也可被其他业务系统整合。

多机采集、分布式部署,适应大规模采集任务

系统支持一机或多机模式下实现采集任务,用户可以通过注册的方式声明一台新的采集器。当采集任务过大时,采用采集沈阳小程序定制

 1/2    1 2 下一页 尾页

“沈阳软件公司”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与

我们联系删除或处理,客服QQ:55506560,稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同

其观点或证实其内容的真实性。