您现在所在的是:

管理软件

回帖:0个,阅读:155 [上一页] [1] [下一页]
895
beite52
文章数:126
年度积分:50
历史总积分:895
注册时间:2013/5/17
发站内信
发表于:2013/5/24 15:09:49
#0楼
我们先看看搜索引擎的工作原理。商业智能搜索引擎有抓取网页、处理网页、提供检索服务三个主要环节。首先是抓取网页。端到端的搜索引擎都有自己的网页抓取程序(spider)。Spider以超链接为顺序,连续地抓取网页。被抓取的网页被称之为网页快照。其次处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分析超链接、计算网页的重要度。 准备工作完成后,即是浏览者所见到的搜索引擎界面,即第三提供检索服务 。用户输入关键词进行搜索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,BI还会提供一段来自网页的摘要以及其他信息。

再看看组成:搜索引擎的组成部分一般由搜索器、索引器、检索器和用户接口四个部分。搜索器的功能是在互联网中漫游,发现和搜集信息,主要是讲spider;索引器功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表;第三个是检索器,其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息;第四用户接口,商业智能软件作用是接纳用户查询、显示查询结果、提供个性化查询项。

这四个组成部分,搜索器是收集数据,索引器是处理数据,检索器和用户接口是数据展示。商业智能分析检索器是数据展示的提取过程,用户接口是个性化展示用户的数据需求。

收集数据的方法一般有人工录入、机器抓取、人工录入机器抓取同步。人工维护数据的搜索引擎分类目录由人工整理维护,如Yahoo、新浪分类目录搜索,机器抓取自建网页数据库,搜索结果直接从自身的数据库中调用,Google和百度就属于此类。现在人工整理维护和机器抓取都在融合之中。

数据获取方面,需求满足第一,效率第二。机器抓取体现了高效率,高稳定,低成本,但原创性和信息的编辑性不够,人工录入如果做到高质量原创性、较低成本则更能体现信息对于用户需求的满足,效率则是排在第二位。比如走群众路线的通通网,以产权私有为基础,发动大量的学生录入经学生自己编辑过、且符合学生群体特征的原创性信息(通通网那里是“线路”),成本非常低,但更能满足学生群体的搜索需求。

我们知道,商业智能(BI)的主要工作原理在“数据抽取、数据加工存储、数据分析和数据展现”这四个环节体现,这是一个完整的端到端的商业智能解决方案。每个环节都有不同的工具或厂家,但是整合基本完成,当前数据库环节的厂家已将其它环节的厂家收购得差不多了。搜索引擎抓取网页过程和数据抽取ETL过程一样,实质是获取数据。处理网页实际是对获取数据的清洗和整理,这是数据加工存储,是数据仓库内容。提供检索服务实际上是数据分析和数据展现。

关于我们 | 联系我们 | 广告服务 | 本站动态 | 友情链接 | 法律声明 | 非法和不良信息举报

工控网客服热线:0755-86369299
版权所有 工控网 Copyright©2024 Gkong.com, All Rights Reserved

31.2002