发表于:2013/6/18 17:23:18
#0楼
BI与搜索技术融合的构想一经提出,就被寄予了厚望。人们希望这种融合能够解决那些长期悬而未决的问题。以Google OneBox为代表的企业级搜索产品的成熟更是让BI行业发生了很多改变,商业智能但我们也必须正视这一领域所面临的困难。
传统BI所实现的结构化数据搜索无法向用户提供上下文关联信息。比如,用户可以打开一个库存数据库,但是却无法获得数据库之外像货品照片、库存位置地图等关联信息。有专家表示,这样的问题最终会通过元数据搜索的介入而得到解决,就像在数据库领域XML所获得的成功一样。但是在目前,商业智能分析海量的结构化数据与非结构化数据的结合仍是一个难题。
非结构化数据搜索的挑战在于,如何驾驭如此庞大、高容量的文档信息。以一个拥25000名员工的企业为例,每个员工每个工作日处理70封邮件,那么该企业每年出于法规遵从目的需要存储的邮件数量就达5亿封,商业智能软件还要保证这些邮件是可搜索的。加上其他需要存储和搜索的HTML、Word、EXCEL、PPT文档,搜索指令仿佛"大海捞针"。
作为一位资深BI人,神州数码移动事业部的刘庆认为,BI与搜索的融合不是单纯易用性的改进,需要解决的关键问题包括实施成本、技术标准化等。他表示,在2006年曾经有国内的企业有意尝试企业文档的搜索,但真正把搜索系统与BI系统结合起来的用户很少。"两年之后,我们可能会看到比较成功的案例,而BI与搜索的深度融合可能要在5年以后。"刘庆说。
虽然现有的解决方案已经能够支持企业对BI与搜索系统的同步部署,但刘庆强调,分步实施仍是最佳选择。"实施者需要协调BI和搜索的部署特性,BI项目强调以客户应用为中心,而搜索强调技术标准化,在技术融合过程中需要加以调和。同时还应该考虑好系统集成之后推什么应用,是报表还是数据钻取?对客户而言,现实的做法是先把BI系统做好,这样搜索才有价值。"他说。真正的融合应该是无缝的,BI与搜索在现阶段的融合表现显然距离这一标准还有很大距离。
其中,结构化和非结构化数据搜索怎样自然结合是症结之一。SAS的张天峰在BI行业拥有近15年的从业经历。他表示,结构化和非结构化信息的搜索技术是截然不同的,非结构化搜索的技术也有进一步的细分。非结构化数据搜索应该被更加准确地定义为文件检索技术,包含检与索两个方面。检就是文档归类,在这一领域,SAS等厂商所提供的文本挖掘(Text Mining)技术正趋向于成熟;索就是搜索,目前最成熟的是以Google为代表的蜘蛛(Spider)技术。
"企业实施'BI+搜索'项目的难点体现在,如何把两种不同的技术自然地'缝合'起来。开发人员必须熟练掌握这两种技术,目前,同时掌握两种搜索技术的人才并不多。同时,要完整呈现不同层面、种类的关联信息,并做出科学的决策,这需要大量的定制开发工作,在目前的情况下实施难度还很大。这些都决定了BI与搜索结合尚不自然的现状。"张天峰说。
传统BI所实现的结构化数据搜索无法向用户提供上下文关联信息。比如,用户可以打开一个库存数据库,但是却无法获得数据库之外像货品照片、库存位置地图等关联信息。有专家表示,这样的问题最终会通过元数据搜索的介入而得到解决,就像在数据库领域XML所获得的成功一样。但是在目前,商业智能分析海量的结构化数据与非结构化数据的结合仍是一个难题。
非结构化数据搜索的挑战在于,如何驾驭如此庞大、高容量的文档信息。以一个拥25000名员工的企业为例,每个员工每个工作日处理70封邮件,那么该企业每年出于法规遵从目的需要存储的邮件数量就达5亿封,商业智能软件还要保证这些邮件是可搜索的。加上其他需要存储和搜索的HTML、Word、EXCEL、PPT文档,搜索指令仿佛"大海捞针"。
作为一位资深BI人,神州数码移动事业部的刘庆认为,BI与搜索的融合不是单纯易用性的改进,需要解决的关键问题包括实施成本、技术标准化等。他表示,在2006年曾经有国内的企业有意尝试企业文档的搜索,但真正把搜索系统与BI系统结合起来的用户很少。"两年之后,我们可能会看到比较成功的案例,而BI与搜索的深度融合可能要在5年以后。"刘庆说。
虽然现有的解决方案已经能够支持企业对BI与搜索系统的同步部署,但刘庆强调,分步实施仍是最佳选择。"实施者需要协调BI和搜索的部署特性,BI项目强调以客户应用为中心,而搜索强调技术标准化,在技术融合过程中需要加以调和。同时还应该考虑好系统集成之后推什么应用,是报表还是数据钻取?对客户而言,现实的做法是先把BI系统做好,这样搜索才有价值。"他说。真正的融合应该是无缝的,BI与搜索在现阶段的融合表现显然距离这一标准还有很大距离。
其中,结构化和非结构化数据搜索怎样自然结合是症结之一。SAS的张天峰在BI行业拥有近15年的从业经历。他表示,结构化和非结构化信息的搜索技术是截然不同的,非结构化搜索的技术也有进一步的细分。非结构化数据搜索应该被更加准确地定义为文件检索技术,包含检与索两个方面。检就是文档归类,在这一领域,SAS等厂商所提供的文本挖掘(Text Mining)技术正趋向于成熟;索就是搜索,目前最成熟的是以Google为代表的蜘蛛(Spider)技术。
"企业实施'BI+搜索'项目的难点体现在,如何把两种不同的技术自然地'缝合'起来。开发人员必须熟练掌握这两种技术,目前,同时掌握两种搜索技术的人才并不多。同时,要完整呈现不同层面、种类的关联信息,并做出科学的决策,这需要大量的定制开发工作,在目前的情况下实施难度还很大。这些都决定了BI与搜索结合尚不自然的现状。"张天峰说。