剖析大数据失利症结 重整旗鼓找回核心价值
近几年多数人应该都曾听闻类似话语,每10分钟,全球就产生近1.4亿封电子邮件、266万次Google查找、逾500万次Youtube影片点阅、1.1万张相片上传至Flickr…等等,日复一日,累积的数据部位自然庞大,正是支撑巨量数据分析概念的主要理由;然而,要做好这件事,其实并不容易。
随着市场变迁速度加剧,再加上市场竞争态势趋于激烈,使得多数企业的经营高层有所顿悟,深知意欲在混战局面上脱颖胜出,绝对不宜继续凭藉经验、感觉甚至猜测来制定商业决策,而必须紮紮实实地靠数字来说话,只不过,可能潜藏商业决胜因子的信息,不仅见诸于结构化数据,有更多部分存在于非结构化数据,单凭现有技术或系统架构,并不足以在合理时间内对此进行存储、运算、处理,也难以有效分效出可以解读的信息,故而驱使企业投入大数据分析。
换言之,靠着大数据,企业可望从中探索一些未知相关性(Unknown Correlation)、市场趋势,抑或未显露的模式(Hidden Patterns)的知识应用,进而加以发现、挖掘,为营运创新增添丰沛动能。
早在2001年,Gartner的分析师Doug Laney,即发表了一篇名为「3D Data Management: Controlling Data Volume, Velocity, and Variety」文章,清楚点出三个有关于数据处理的主要挑战,分别是数据量、速度与多样性;时隔十多年,当时的立论依然适用,且据此形成了大数据的3V特性。
当然,日后又有不同人士,意图加入真实性(Veracity)、波动性(Volatility)、价值(Value)、有效性(Validity)…等等更多的「V」,以期诠释与解读大数据,而且听来都言之成理。无论有多少个V,哪怕只有最初始的三个最基本元素,都意谓大数据相当难搞,所以企业必须引进相关技术方案,借此突破种种难关,实现大数据分析愿景。
五大技术方案 助企业练就大数据功力
这些技术方案是什麽?总括来说,可区分为五大类型,由底层而上,依序是数据仓储或数据库系统(含关联式数据库、NoSQL数据库)、数据管理工具、数据整合工具(含ETL、MDM)、商业智能(BI)工具,以及位居最上层的先进分析软件,若依市场产值而论,则以先进分析软件、BI、数据仓储/数据库三者相对较大,各个都有逾130亿美元的实力。
其中先进分析软件意指数据探勘(Data Mining)、文字探勘(Text Mining)与预测性建模等加值型技术方案,乃是赖以展现数据价值的最终依归,年复合增长率尤其可观。
着眼于大数据分析效益无穷,近年来诸多企业也纷纷导入上列解决方案,开始执行数据挖掘分析;然而据业者统计,发现虽然有高达六成以上比重的企业,已经投入程度不一的巨量数据分析动作,可惜真正能够萃取价值者,却仅有两成五不到,换言之,有超过一半自认已经推动巨量数据分析的企业,并未因此而受益,几乎形同白忙一场,充其量也只是花了大把钞票,做到解读当下营运现状的程度。
为何如此多数企业事与愿违?业者分析个中症结如下:首先,许多企业所采用的技术颇为过时,无法支撑所有型态的数据分析需求,更不足以应付不可预期的分析作业负载,当务之急需要引进更为有效的数据管理与整合技术。其次,常见的应用场景是,企业内部不同单位各做各的分析,导致形成一个个孤岛(Silo),以如此片段的分析成果而论,根本无从厘清不同部门之间交互作用,自然不足以帮助最高决策主管综观全局,做出最为完善的商业决策。
第三,多数企业的IT与业务单位之间,彼此缺乏有效连结(Alignment),以致IT费心协助推动各项分析活动,却始终无法与公司商业目标挂钩。
补强大数据价值链 避免沦落解读现状之低层次
总结来说,一个真正有效的大数据价值链,从无到有,必须历经数据的蒐集、整合、正规化、分析直至最终的可视化等五个不同里程碑,倘若企业肇因于上述症结,使得最终分析成果沦于营运现状的解读,等同于只完了前三项里程碑,投资报酬率当然未尽理想。
业者建议,如果企业为前述现象所困扰,理应尽速审视自我的数据分析架构,是否具备五个完整层次,依序是数据蒐集与基本分析、数据整合、商业报表与分析、预测性分析(Predictive Analytics),乃至最上层的时效性分析(Prescriptive Analytics),一旦备妥这些必要机制,即可掌握要领知悉「已经发生何事」、「为何会发生此事」、「应针对此事采取哪些移动方案」、「预测未来可能还会发生哪些事件」、「有效管理与控制未来事件的发展脉络」,一步步实现大数据分析的最高价值。
具体来说,藉助良好的大数据分析机制,企业不难精准掌握对其贡献度较高的顾客群为何,接着妥善运用跨部门资源,想方设法促使这些目标客户群,持续对公司产生高盈利贡献而不坠,更有甚者,还能巧妙融会贯通所有的内外部数据,预测这些目标客户群的下一步需求为何,最终依据这些需求拟定极具诱因的行销方案,诱使客户买单,对公司挹注更高的贡献。
IT与营运部门协同分析预测 为企业开创最高价值
有监于此,已有供应商瞄准大数据价值所应具备的数据蒐集、整合、正规化、分析、可视化等五个完整构面,进行产品布局。以戴尔(Dell)为例,即以「与平台或数据无关」为诉求,推出一系列模块化方案,包括藉由Toad执行数据管理功能,Boomi满足内外部数据交换需求,Toad Intelligence Central(TIC)进行商业智能分析,Statistica负责执行先进分析,而最终分析成果,不仅可藉助多元化图表类型与文字描述而营造高度可视性,还可进一步回馈到Marketo自动化行销、或Salesforce客户关系管理等系统工具,确使企业商业决策可立即被付诸实现。
前述模块化方案,皆可适用于Oracle、SQL Server、Hadoop、MongoDB或IBM DB2等不同平台,换言之,企业不论采用何种数据管理系统,都能够利用Toad执行深度监控,持续剖析并诊断其效能瓶颈,确保数据库恒常维持最佳运作状态。
值得一提的,透过Statistica先进分析工具,有助于企业推动预测性建模,且不只是把数据模型建好、再被动等待结果是否印证,而是将此数据模型部署到企业的真实营运流程,以便于适时发挥预警功效;而Statistica经由多次改版,于去年(2015)第四季推出第13版,标榜加强支持在大数据先进分析领域相当火红的R语言,故而能顺势承接运用由不同领域专家透过R语言所催生的各式分析套件,此外也支持多项数据应用功能,让企业可植基于假设性的情境模拟,预先洞见各种商业决策的可能性。
当然不可讳言,根据前已述及的各种大数据分析失败原因,有一项重大项目,即是企业IT与业务单位无法紧密链结,以致各项看来神奇的数据探勘分析成果,始终无法契合企业的营运规则或目标,让分析成果沦为漂亮的摘要报告,不具备高价值,之所以出现这个失望结局,固然与技术方案是否完整到位不无关联,但却非压垮骆驼的关键稻草。
在此前提下,企业意欲在大数据分析方面缔造最佳成效,引进完备的技术工具还不够,仍应设法促使IT与营运部门齐力进行协同分析预测,若有必要,甚至不排除引进外部专业顾问来促成此事,只因为唯有如此,企业才能真正练就雄厚功力,继而成为当今「以数据为导向」的新经济时代赢家。