导读
国家标准委正在着手制定首批共十项大数据标准,分别是大数据术语、大数据技术参考模型、数据交易平台交易数据描述、数据交易服务平台通用功能要求、数据能力成熟度评价模型、多媒体数据语义描述要求、科学数据引用、数据溯源描述模型、数据质量评价指标和通用数据 导入接口规范。
本报记者 周慧
实习记者 宋兴国 北京报道
大数据企业如何发展,市场正在做出自己的选择。
8月末,北京某酒店的一场大数据企业展上,聚集了全国各地的企业。现场展示有随着《江南style》起舞的机器人,有早期科幻电影里走出来的“触摸式数据可视化屏幕”……
“你们的具体业务是做什么的”、“和大数据有什么关系”……和直观的服装展、美食展不同,大数据行业作为当下的风口新业态,其行业标准、商业模式正在探索中,参展的大数据企业们,以各种可视化的方式,把大数据产业的最新成果展示给观众。这场活动吸引了大批企业和研究人员,其中还包括自费从国外过来学习的教授。
中国的人口数量,让其成为大数据大国,但却不是生来的大数据强国。国内大数据市场正在经历炒作、探路和实践期。21世纪经济报道记者采访发现,今年的大数据行业聚会,探讨的内容已经从2014年的数据是什么,发展到大数据产业的商业模式怎么做。
从业务定位到市场开发,从产品生产到服务提供,大数据企业的发展还处于初始阶段。在大数据生态圈里,看上去很美的商业价值,已经吸引了一批创业者,将之视作弯道超车BAT的最大机遇;也有传统企业和行业巨头借势圈地扩张,寄望完成转型和整合。
有学界和业界人士预测,大数据已经从概念炒作走向了稳步发展时期。另外,8月份出台的促进大数据产业发展行动纲要,系列鼓励和规范政策正在密集出台中。在大数据这个具体政策和标准近乎空白,正在野蛮生长的大数据产业生态链中,21世纪经济报道记者通过采访大数据产业生态链上的各类企业,摸底大数据产业的商业化落地进程。
应用行业参差不齐
“扫码送牛奶”、“扫码送雨伞”……进入2015年,从中关村地铁站出来,簇拥围住你的人群,不再给你发传单,而是各类APP扫码推广。APP推广的大量聚集,让这里被戏称做“扫码一条街”。
在大数据被各方合力推上风口的当下,这些APP推广工作人员会介绍,这款应用是基于某领域海量数据库的处理和分析的产品。在很多新上线APP的宣传里,“数据为王”,“企业对大数据的态度决定未来的高度”,类似的说法越发常见。
事实上,这些企业是不是纯粹的大数据企业尚有争议。一部分人认为,严格意义上来说他们只是通过互联网+的方式应用大数据,是大数据生态链上最终的消费者,是大数据得以应用的主要场景,而不是纯粹的大数据从业企业。
抛开争论,这些大数据应用企业,对大数据产业发展的重要性毋庸置疑。“企业对数据的应用,是大数据行业发展的引擎”,有专家表示。
21世纪经济报道记者发现,在每一次关于大数据相关的活动中,大数据的商业应用,是最受关注的板块。在8月26日的中国国际大数据大会开幕论坛上,关于大数据的商业应用,学界和业界即产生了两种完全对立的观点。
北京大学鄂维南院士提到:“现在的数据分析公司是风起云涌,我把它说成是小锅炉战场,想当年大炼钢铁的时候,就是自己在家里就建了锅炉就炼。”鄂维南称,现在的确什么人都可以做,没有什么技术含量。
鄂维南还提到,数据交易存在经济学上的悖论,数据服务作为一个业务模式,它的商业模式现在没有真正被认可,数据通过什么方式赚钱,前景不是那么清楚。
晶赞科技董事长汤奇峰在中国国际大数据大会上发言称,大数据交易并不存在经济学上的悖论。我国企业对大数据应用的现状基本都是初期的状态。应用的主要形式还是,基于大数据得到的商业洞悉,业务推荐和智能获客等三个领域。其中的典型就是个性化推荐和智能广告。
汤其峰在接受21世纪经济报道记者采访时表示,大数据的商业模式体现在很多方面,大数据价值在交易和流通的过程中体现,并且会发生聚变效应,实现边际效应递增。
21世纪经济报道记者了解到,目前国内对于大数据应用,发展较好的还是以大企业为主,比如BAT、滴滴快的、Uber等互联网企业。不管是对外数据源采集,还是企业内部的数据资产管理,其互联网企业基因,以及自身的资本优势,使得他们在大数据的应用上同样处于领先的态势。
同时,由于这些拥有大量数据资源的企业,在分析挖掘数据形成应用的同时,放弃直接依靠出售数据获利,而选择对外提供数据服务和分析结果,为应用类企业的决策和东西提供了便利条件。这也是应用类的数据企业或产品数量较大,占到了行业总数的三分之一的重要原因。
而对于部分中小企业而言,资金缺乏和技术难题导致数据获取难,缺乏数据资产管理意识,其对大数据的使用,仍在探路中。
另外,我国的大数据应用领域分布仍然不够全面,相关企业主要集中在互联网、市场营销、电信、金融领域,而政府公共服务、农业类应用,发展还在原始阶段,近期个别企业还不时爆出数据造假的传闻。同时,数据应用的方式单一,思路狭窄,一些企业盲目学习国外的数据应用模式,也是大数据应用企业发展的一大短板。
抢占数据分析高地
如果说大数据的应用,是大数据产业的商业价值终端,那么大数据行业公认的大数据分析,将会是大数据产业的核心,是大数据能够点石成金的关键。
这样的判断是基于大数据的特性。数据本身不产生价值,当数据经过挖掘、归类和分析,能够给企业决策提供帮助之后,才具有价值。
数据堂公司今年发布了一份《大数据产业调研及分析报告》,其中将大数据分析工作归类为商业分析、语音识别、图像分析、实时处理、空间分析、基因分析、用户分析、日志分析,和数据可视化等九个种类。目前,国内在各个领域都已出现了一批相关大数据企业。
与上述横向划分不同,另一些看法则偏向将大数据分析按商业价值的高低进行区分。前LinkedIn商业分析部总监,GrowingIO的创始人张溪梦介绍说,在数据分析发展更早的美国,数据分析区块已经按商业价值从低到高地细分为数据采集、大数据架构、响应性分析,诊断性分析、战略性分析、预测性分析和全自动分析。而一旦做到数据分析全自动化,将会利用10%的时间,创造出这个行业90%的价值。
在美国数据分析领域工作十余年的张溪梦认为,“数据分析前端过程复杂,分析昂贵,导致在过去若干年里,数据科学家90%的时间和工作都是进行数据清洗、整理、传输和存储,但真正产生价值的是剩下的10%。我们必须要利用各种先进技术,把金字塔底部做得非常狭窄,把以往很缓慢的流程缩短甚至透明化。”
21世纪经济报道记者获悉,目前国内的数据分析产品,在与国外产品的竞争中仍处劣势。以日志搜索系统为例,虽然国内已有自主研发的日志实时搜索分析引擎面世,但市场使用的主流还是HADOOP、STORM和SPARK等国外开放计算框架下的产品,有部分互联网和金融企业则选择了SPLUNK等第三代日志搜索软件包,这同样也是美国开发的大数据工具。
然而国内企业并非毫无竞争力,日志搜索分析引擎“日志易”的创始人兼CEO陈军介绍,这些国外数据搜索处理系统价格非常昂贵,同时由于之前的“棱镜门”事件,国外系统的软件后门也令一些国内的企业尤其是金融企业担忧。
人才短缺是限制国内大数据分析企业发展的另一大主因。《哈佛商业评论》曾将数据分析师称为“21世纪最性感的职业”,当下也是稀缺和抢手的职业。鄂维南院士介绍,我国大数据发展最大的优势是庞大的市场,最大的劣势是缺乏人才,“我们国家目前没有建立起非常好的培养大数据人才的机制,在大数据涉及的统计、机械学习等这些领域相比而言更加弱势。”
滴滴快的CEO程维在讲述如何到硅谷挖人时提到,人才是最大的瓶颈,中国没有那么多的大数据和机器算法的科学家,后来发现硅谷一线的互联网企业,像Uber、Facebook里面20%的工程师是华人。“我们派了CTO和一个代表团在硅谷把他们请到一起交流。”程维说。
鄂维南认为,大数据分析人才的缺乏,当下数据人才市场,不仅有国内和国外的竞争,学术界与企业界也在竞争。要想弥补人才短缺,在大数据领域取得领先地位,需要建立一个开放的,既可以做科研也可以产业化做市场的国际标准的研究平台,或是解决之道。
数据平台期待全覆盖
相对大数据分析企业的专业和专一定位,产业覆盖面广的大数据平台类企业,则是在国际大数据大会的企业展厅中,占比最高的行业类型。
一位参展的大数据平台商人告诉记者,“大数据平台会是大数据行业的基石和中坚。”据了解,阿里,百度,华为等企业都早已布局大数据平台,阿里云更是从2010年就对外开放了其在云计算领域的技术服务。
然而,大数据平台的准确定义至今仍未有定论。广州工业大学大数据战略研究院副院长谢卫红告诉记者,与数据分析、数据应用不同,大数据平台是随着大数据产业兴起而诞生的新兴事物,目前还没有官方定义。大数据平台的数据规模和具体功用,都还有待界定。
21世纪经济报道记者采访发现,当下市面上所谓的平台主要有两类,一类是通过各种渠道搜集、整理数据,并为数据应用企业提供有偿数据的数据交易类平台;一类是为了处理企业内部生产运营中产生的海量数据,以存储、运算、展现这些数据为目的的数据处理类平台,其工作内容包括了数据的输入、导入、分析以及加工。
在整个大数据生态中,大数据平台处于行业中上游位置,是进行数据分析和应用的基础。其中,大数据交易平台由于数据权属和交易规则尚未制定的缘故,发展相对滞后,基本都是2014年后开始投入运营;大数据处理平台则开发较早,商业化程度相对较高。
目前,大数据处理平台的服务对象以企业为主。除了一些中小型的创业公司,一些大公司也相继推出自己的相关业务,如华为的FusionInsight,和海尔的SCRM(社交化客户关系管理)平台。
其中,大多数平台主要解决企业特别是大企业内部的数据孤岛问题,将CRM(客户关系管理)、ERP(企业资源计划)、OA(办公自动系统)等业务系统打通,实现跨行业、跨部门的数据分析与整合,以协助企业的运营、管理和决策。
在这部分数据处理平台中,包括依靠技术模块的变化,提供不同行业平台服务的平台,和针对专门行业的平台;后者数量较少,在交通、建筑和媒体行业都有较为典型的专业化平台出现。
此外,数据处理平台中还有一类针对特定业务系统的大数据平台,比如海尔的SCRM,就是专门的社交化客户关系管理的数据平台。
由于大数据平台在大数据产业中的基础性地位,国内的大数据处理平台企业数量相对较多。对其业务性能和服务的评价体系也相应较为完整。
大数据处理平台供应商,九章云极的CEO方磊称,数据集成能力、存储和计算能力、分析能力、部署能力、运维能力、开发定制能力,和管理协调能力等七大方面的能力,会是厂商在挑选平台服务时的主要尺度和标准。其中前六者形成数据资源挖掘和计算能力闭环,管理协调能力则影响着平台的工作效率。
然而需求方的要求似乎并没有得到满足。方磊向21世纪经济报道记者透露,在他们与平台需求企业的对接中,“端到端”、在数据处理平台上直接实现数据分析的要求,越来越多。需求方,往往也是数据应用企业,希望平台能够提供一体化、一键式的自动化数据服务。
在商业价值开放较好的大数据处理平台区块,需求正加速推动着产品的转型。“未来大数据平台和大数据分析的融合会是一种趋势,大数据分析企业会向下渗透到数据收集和整理,大数据平台企业会往数据分析上发展,这种扩张是必然的。”方磊说。
不过在当下的技术和人才条件下,大多数大数据处理平台,还只能实现基础性的数据分析,和简单的可视化呈现。清华大学数据科学研究院执行副院长韩亦舜,在接受21世纪经济报道记者采访时表示,目前一键式的自动化数据服务,只能在一些数据结构单一的特定领域实现。对于多源异构的数据,想要实现一键式自动化服务,还有很长的路要走。未来的数据平台,实现针对不同行业领域的垂直细分后,可能会在某些行业率先实现突破。
十项大数据标准制定中
在业界构想中的完整大数据生态链里,不同人的分类不同,大数据企业的类型也很多。其中必须要提的,就是大数据产业最基础的工作——数据源。一些数据源企业和数据存储系统企业,都已在市场上占据了一席之地。
目前,由于数据流通尚未形成规模,国内数据源区块中的平台比例较为明显。作为当下仅有的几家号称专门从事数据源业务的公司之一,数据堂搜集线下数据,开展线上业务的市场定位和数据众包、采集加工流通三位一体的“数据银行”的业务模式较有代表性。
然而,由于行业规则和行业标准缺失、数据的权属不明,当下大量的数据交易是不规范且有争议的。国务院发展研究中心技术经济部副部长田杰棠称,数据交易的前提是产权要清晰,尤其是个人在线活动产生的数据,其产权到底属于个人还是企业,对于整个产业的发展和数据资源的配置都有很大影响。
数据源企业的发展必然伴随着数据交易,不规范交易、个人隐私界定模糊和数据产权划分不清晰带来的安全担忧,是造成国内专门从事数据源工作的企业数量稀缺的重要原因。
与数据源区块不同,在大数据存储区块,核心技术的缺失成为了最大的问题。一家参展的厦门数据存储系统开发商负责人告诉记者,国内的数据储存企业拥有自主知识产权的很少,特别在硬件上的技术落后国外更多。
不过这样的情况正在好转,韩亦舜告诉21世纪经济报道记者,随着近年来硬件开源的兴起,国内在数据存储领域实现自主可控的速度有望加快。
另外,国内大数据标准化进程也在逐步推进中,困扰大数据行业的瓶颈或将迎来部分解决。
据中国电子信息标准化研究院技术总监王立建介绍,国家标准委正在着手制定首批共十项大数据标准,分别是大数据术语、大数据技术参考模型、数据交易平台交易数据描述、数据交易服务平台通用功能要求、数据能力成熟度评价模型、多媒体数据语义描述要求、科学数据引用、数据溯源描述模型、数据质量评价指标和通用数据导入接口规范。
其中前四项处在征求意见稿状态,中间四项已完成草案,最后两项还在草案大纲阶段。另外,大数据标准体系框架也已在征求意见稿阶段。
随着政策顶层设计的越发清晰和行业标准的逐渐形成,对于大数据企业的未来发展方向,各方也有了不同的判断。
一些大数据商人认为,长远看单纯从事数据生态某一环节的企业,都存在重大转型压力,特别是底层的数据搜集和挖掘企业,针对不同行业领域的大数据企业将会整合该领域的数据收集、储存和分析业务。
而另一些大数据交易平台的支持者则认为,大数据行业未来会围绕大数据交易平台,形成纵向细分的垂直行业生态,以及横向产业链精细化分工的网格状发展态势与布局。
来自业内的预测更为乐观。阿里研究院数据经济研究中心秘书长潘永花表示,根据2014年的Gartner新兴技术曲线显示,大数据已经从炒作高峰,进入5到10年的稳步发展期,2015年大数据已经成为主流技术。
作者:周慧 宋兴国
我来说两句排行榜