大汉信息抓取系统针对不同行业用户的实际应用,以Internet信息抓取为目的的跨平台软件,主要用于指定网络信息的抓取,实现在用户自定义的规则下,自动从互联网上的HTTP服务器(或其它服务器)上抓取指定信息的功能。用于内部使用或外网发布,快速实现信息的全面共享。
大汉信息抓取系统是基于HTTP协议的一种文件搜寻处理方式,完成在管理员的设定下,定时运行、自动在网络中进行相关资料的搜寻,并将搜寻到的文档下载、分类、整理后存储到服务器的功能。
基于导出接口,信息抓取系统可实现与第三方应用系统对接,实现将抓取的信息自动导入。第三方系统要求基于XML标准,开发环境须支持ASP、PHP、JSP,且为B/X架构
功能特点
1.对动态网站进行信息自动抓取,支持各种标准格式信息资源的采集,如HTML页面、文本信息、图片等;
2.搜集到的信息可以按照不同方式分类,用户可以按照日期、来源、标题进行检索、浏览。
3.可以对WEB页面与内联图片的统一采集,并可将图片导出成XTML格式。
4.可以对信息内容与图片分类保存,支持信息分类的自定义精确扩展;
5.可以自动跟踪目标站点,及时发现更新的页面,避免重复,对数据实时更新;
6.可以定义关键词,对网页内容进行过滤,精确地获取与采集主题相关的网页内容;
7.对于下载的WEB页面,系统自动进行信息过滤与内容提取。系统提供页面内容智能跟踪与指定页面内容精确提取相结合的处理方式,保证提取信息的完整性和准确性。
应用领域
1.政府机关行业应用
实时跟踪、采集与业务工作相关的信息来源。
全面满足内部工作人员对互联网的信息需求。
及时解决政务外网、政务内网的信息源问题,实现动态发布。
快速解决政府主网站对各地级子网站的信息获取问题。
全面整合信息,实现政府内部跨地区、跨部门的信息资源共享与有效沟通。
节约信息采集的人力、时间,提高办公效率。
2.企业行业应用
企业实时准确地监控、追踪竞争对手动态,是获取外部情报的大门。
准确监控竞争对手的公开信息以便研究同行业的发展与市场需求。
为企业的决策部门和管理者提供多种途径、是便捷的企业战略决策工具。
大幅度地提高了企业获取、利用情报的效率,节省情报信息收集、存储、挖掘的相关费用。是提高企业核心竞争力的关键。
提高企业整体分析研究能力、市场快速反映能力,建立以知识管理为核心的“竞争情报数据仓库”,是提高企业核心竞争力的神经中枢。
3.新闻媒体行业应用
快速准确自动跟踪、采集数千家网络媒体,扩大新闻线索,提高采集速度。
每天支持对数万条海量新闻进行有效抓取。监控范围的深度、广度可以自行设定。
支持对所需内容智能提取、审核,发布到自身网站相应的栏目上。
实现互联网信息内容采集、浏览、编辑、管理、发布一体化。 |