大数据行业前景和发展趋势!


一、行业发展概况

1、相关定义

对于大数据的概念,目前尚无业界所广泛接受的明确定义。各权威机构及普遍理解大致如下:

  • 麦肯锡在研究报告《大数据的下一个前言:创新、竞争和生产力》中认为:大数据是指其大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集;
  • 美国国家标准技术研究所(National Institute of Standards and Technology,NIST)的大数据工作组在《大数据:定义和分类》中认为:大数据是指那些传统数据架构无法有效地处理的新数据集。
  • 维基百科列示的定义是:大数据,或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。
  • Gartner 列示的定义是:大数据是体量大、快速和多样化的信息资产,需用高效率和创新型的信息技术加以处理,以提高发现洞察、作出决策和优化流程的能力。

国内普遍的理解是:大数据是具有数据量巨大、来源多样、生成极快、且多变等特征并且难以用传统数据体系结构有效处理的包含大数据集的数据。

2、大数据的特征

传统的数据处理只有两个环节:从“数据源”到“应用”,数据源需要经过处理存到一个结构化数据库进行管理,然后再使用诸如数理统计、结果可视化等技术完成对数据的应用。

与传统的数据处理周期不同,大数据处理需要在传统的 “数据源”到“应用”这一流程上增加“数据管理”这一步骤,以应对海量大数据带来的新挑战。

对于大数据的数据特征,业界通常引用国际数据公司定义的 4V 进行描述:

  • 数据量大(Volume):虽然对大数据量的统计和预测结果并不完全相同,但是一致认为数据量将急剧增长。
  • 类型繁多(Variety):除了结构化数据外,大数据还包括各类非结构化数据,例如文本、音频、视频、点击流量、文件记录等,以及半结构化数据,例如电子邮件、办公处理文档等。
  • 数据价值(Value):从海量价值密度低的数据中挖掘出具有高价值的数据。这一特性突出表现了大数据的本质是获取数据价值,关键在于商业价值,即如何有效利用好这些数据。
  • 处理速度快(Velocity):通常具有时效性,企业只有把握好对数据流的掌握应用,才能最大化地挖掘利用大数据所潜藏的商业价值。

3、我国大数据产业发展历程

我国的大数据产业目前已经历了三个时期:

  • 探索期:大约从 2004 年前后,随着数据库等技术的进步,数据挖掘概念 开始普及,越来越多的企业将信息管理作为单独的业务部门。但由于当时企业数 据采集能力的限制,以及企业信息化时间较短,本身管理软件中积累的历史数据 有限,一些厂商推出的领先数据管理方案并不容易获得企业认可,业务尚不足以推动技术的快速进步。
  • 市场启动期:2008 年金融危机后,国内企业为了尽快从业务低迷的状态中恢复,获得市场竞争优势,对商业智能(BI)以及商业分析(BA)的需求出现快速提升,主要应用在决策支持、业务优化、销售机会挖掘预测等领域。但在随后的 2010-2011 年,领先企业拥有优势后并不甘愿放弃,而落后企业更急于寻求方案快速赶上,使得共同作用下,企业级市场对商业智能及商业分析的需求并未减退,反而成为一种常态。
  • 高速发展期:到了 2012 年以后,由于企业信息化及互联网应用的日益完善,对消费者及企业内外部所积累的数据日益丰富,大数据的概念迅速为各类人 群所接受。而在企业领域,包括营销、风险管控、预测、客户挖掘、海量数据实 时处理、可视化展现、数据仓库建设等方面的多样化需求迅速扩张,业务推动技 术进入高速创新期。而进入 2015 年后,企业深度利用数据价值的意识迅速提高, 数据资产管理成为热门概念,企业开始愿意通过数据交易进行变现,各种与大数据有关的政策及法律法规不断完善。

预计,中国大数据市场将在 2020 年前后进入成熟期。一方面业务需求的变化将推动细分领域出现丰富的商业模式,并使得新产品和服务具有稳定的刚性需求;另一方面随着产业链的完善,专注于细分行业及细分应用领域厂商竞争逐渐稳固,而不善于充分利用数据的企业将被快速淘汰出局。

二、行业发展情况分析

1、市场规模

目前,我国大数据产业发展在经历初期探索、市场启动等阶段后,大数据的技术、应用以及社会公众的接受度等方面逐步趋于成熟,整个产业开始步入快速发展阶段,行业规模增长迅速。根据中国电子信息产业发展研究院发布的数据显示,2018 年中国大数据产业的市场规模约为 4,384.5 亿元人民币,同比增长23.50%。随着国家政策激励以及大数据应用模式的逐步成熟,未来几年中国大数据市场仍将保持快速增长,预计到 2021 年中国大数据市场规模将达到 8,070.60 亿元。

大数据行业前景和发展趋势!插图

数据来源:中国电子信息产业发展研究院

当前,国内大数据正在被越来越广泛地应用到政府公共管理、金融、交通、零售、医疗、工业制造等领域,随着大数据应用范围的不断扩大,大数据所形成的市场价值将不断提升。

2、区域结构

当前,由于各地区发展基础和起步时间不同,全国各省市大数据发展水平存在明显的差异性。从区域角度来看,华北、华东、中南是大数据企业主要集中区域,这些区域集中了中国主要的互联网企业和金融、消费品、制造等行业用户。其中,2018 年华北地区份额最高,占 27.60%。

大数据行业前景和发展趋势!插图1

数据来源:大数据产业生态联盟

3、行业结构

大数据市场刚刚迈入中国之时,国内对大数据的应用领域主要集中在互联网,智能交通、电子政务、金融理财、电商物流等方面虽然得到了发展,但应用领域仍然较为狭窄。近年来,随着泛互联网的发展,各行业的数据量激增,金融科技、征信、工业、医疗等更多领域开始关注并利用大数据技术挖掘数据价值,并逐步成为大数据行业的主流下游应用领域。

4、在征信领域应用

随着我国社会信用体系建设的步伐不断加快以及计算机和网络技术的不断提高,征信业的发展也需要适应大数据时代发展所带来的技术变革。征信机构在积累征信数据的同时,也需要提升自身的数据存储能力,丰富所积累数据的维度,提升数据分析挖掘、处理速度等各方面能力,从而促进大数据技术在征信领域的应用。

随着云计算、数据挖掘等信息技术的发展和应用,为征信产品的创新和升级奠定了技术基础。数据处理能力的提升,使得征信机构可以对数据资源进行更充分地挖掘和分析,开发出具有更高技术含量的产品和服务,满足银行、保险等金融机构多层次、全方位、专业化的征信需求。

此外,以互联网金融为代表的新型互联网服务行业的快速发展也带来大量新的征信需求。对于互联网金融企业,需要借助信用信息共享来防范信用风险、降低交易成本。大数据技术在征信领域的应用,可以帮助其甄别和防范可能发生的风险。

三、 行业主要特点

大数据行业的下游应用领域极其广泛,例如金融科技、征信等领域,下游应用领域市场规模的增长代表着大数据行业市场需求的上升。

1、金融科技

金融科技是基于大数据、云计算、人工智能等一系列技术创新,全面应用支付清算、借贷融资、财富管理、零售银行、保险、交易结算等六大金融领域,是金融业未来的主流趋势。回顾人类金融发展史,科技创新与金融创新始终紧密相连,特别是进入信息社会以来,在摩尔定律的作用下,新技术的出现速度不断加快,而金融与科技的共生式成长也使得现代金融体系伴随信息技术共同经历着指数级增长。

大数据在金融业的应用场景相当广泛。如在银行业,大数据应用场景集中在数据库营销、用户经营、数据风控、产品设计和决策支持等;在证券业,证券企业可以运用大数据技术进行数据挖掘和分析以找到高频交易服务对象、资产较高的服务对象和理财服务对象,然后证券公司就可以根据服务对象的特点进行精准营销,推荐针对性服务。

根据艾瑞咨询统计,2018 年我国金融机构技术资金投入达 2,297.3 亿元,其中投入到以大数据、云计算为代表的前沿科技资金为 675.2 亿元,占总体投入的 比重为 29.4%。另外,艾瑞咨询预计,到 2022 年中国金融机构技术资金投入将 达到 4,034.7 亿元,其中前沿科技投入占比将增至 35.1%。

大数据行业前景和发展趋势!插图2

数据来源:艾瑞咨询

虽然我国目前与欧美发达国家相比,金融基础比较薄弱,但正是我国金融市场尚未成熟的特点给予我国金融科技快速发展的土壤,未来相关金融机构投入到以大数据、云计算为代表的前沿科技资金投入也会不断加大,这也会在相当程度上推动大数据行业的发展。

2、征信

征信是依法收集、整理、保存、加工自然人、法人及其他组织的信用信息,并对外提供信用报告、信用评估、信用信息咨询等服务,帮助客户判断、控制信用风险,进行信用管理的活动。党的十八大以来,在党中央、国务院统一部署下,我国征信业发展明显提速,初步形成了“政府+市场”双轮驱动,金融信用信息基础数据库与市场化征信机构错位发展、功能互补的市场格局,征信体系在市场经济中发挥了更为重要的基础性作用。

从征信企业业务流程看,信息收集、信息加工处理、信用产品输出、商业化应用是征信业务开展的四大关键环节,而大数据的应用贯彻于征信企业业务流程四大关键环节始终。特别是央行在 2009 年 1 月发布了征信行业数据标准:《征信数据元 信用评级数据元》、《征信数据交换格式信用评级违约率数据采集格式》,该标准格式的发布带动了大数据风控技术的快速发展。同时,以机器学习、神经网络为代表的大数据算法的不断完善,也极大地推动我国征信行业的发展。

根据央行征信中心统计,截至 2019 年底,征信系统共收录 10.2 亿自然人、 2,834.1 万户企业和其他组织的信息,规模已位居世界前列。此外,我国央行征 信中心 2011、2015 和 2019 年征信查询总次数分别为 3.09 亿次、7.19 亿次和 25.1 亿次,增长速度较快,特别是 2015 年到 2019 年,征信查询总次数增长了近 2.5 倍,年复合增长率达到 36.69%。

大数据行业前景和发展趋势!插图3

数据来源:中国人民银行征信中心

虽然我国目前征信查询次数增长较快,但是对于中国庞大的人口基数来说,人均查询次数仍然偏少,且考虑到我国目前金融市场尚未成熟的特点,未来我国征信行业市场需求巨大。

综上所述,以金融科技、征信等领域为代表的大数据下游应用领域市场规模的增长一方面对大数据产业提供了稳健的需求保障,另一方面也对大数据技术提出了更高的需求。这就要求大数据相关企业不仅要不断加大技术研发投入,而且要更加深入了解、分析下游应用领域市场诉求,从而提供更加贴合市场需求的大数据技术解决方案。

四、行业上下游产业的关联性

大数据产业链覆盖从数据采集挖掘到数据应用服务,当前大数据及相关应用的产业链日益完善。产业链概况如下:

大数据行业前景和发展趋势!插图4

1、数据来源

(1)产业概况

近年来,官方数据开放程度逐渐提高,行业联盟兴起,第三方数据服务蓬勃发展,各大企业(以互联网核心企业为主)也开始逐步开放群体画像数据,不同口径单一数据的跨界融合成倍放大了数据价值。从整体趋势上来讲,数据来源已较为多元,数据产生量爆炸式增长,可供分析的数据维度越来越丰富。

据 Forrester 的研究结果,目前在线或移动金融交易、社交媒体、GPS 坐标等数据源每天要产生超过 2.5EB(1EB 为 2 的 60 次方字节)的海量数据。据国际数据公司(International Data Corporation)预计,全球数据总量增长率将维持50%左右,2020 年全球数据总量将达到 40ZB(1ZB=1024EB);中国将达到 8.6ZB, 占全球的 21%。

大数据行业前景和发展趋势!插图5

数据来源:国际数据公司

伴随着数据资源价值逐步得到认可,数据流通的需求不断上升,除企业直接合作外,数据交易市场开始出现,建立数据需求方与供给方之间成规模化的联系。数据的开放需要多方助力,数据的流通与分享能够成倍提升大数据的经济价值和 社会价值。

当前大数据应用的数据源仍以自由数据为主,尚未形成完善统一的监管政策与行业规则,企业之间的数据孤岛情况仍然存在,数据交易方面,数据交易模式与数据资产定价标准有待建立,发展程度尚不成熟。

数据源是大数据应用的起点与核心,用户的自有数据资源是后续开发应用的基础资产。在大数据的背景下,除了自有数据的不断增大之外,打破数据孤岛,实现数据开放,大数据的价值才能最大地显现。用户的自有数据与外部服务商的数据相结合,将成为各个垂直行业价值开发的起点。

(2)关键技术:数据库技术

在解决大数据问题时,首先需要解决的问题是针对不同数据的分类选择不同方法进行数据的整理与存储。当前,来自各领域的数据呈现爆发式增长,包括网页与社交媒体、机器数据、内部数据、交易数据、生物数据、来自数据提供商的数据等。大数据与传统数据最重要的区别即是数据类别由原来的结构化数据,加入了半结构/非结构化的数据。为解决半结构化/非结构化数据的爆发,NoSQL 数据库应运而生。

NoSQL(Not Only SQL)数据库泛指非关系型数据库,能够解决大规模数据集合的处理问题,特别是针对非关联性数据。NoSQL 数据库包括 Key-Value 存储、列存储、文档型等多种类型,适用于多种场景,具体情况如下:

大数据行业前景和发展趋势!插图6

2、数据管理

(1)产业概况

数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程,经历了人工管理、文件系统、数据库系统三个发展阶段。狭义的数据管理包括数据准备、存储管理、计算处理及数据安全等环节。随着互联网和移动互联时代的到来,非结构化数据呈现爆发式增长,继而对数据的处理和管控提出了更高的要求,将对非结构化数据的清洗、加工、挖掘、集成和可视化被纳入广义数据管理过程,以满足更深入的数据处理需要,在此过程中,数据管理的外延还将持续拓展。数据管理各环节概况如下:

大数据行业前景和发展趋势!插图7

资料来源:艾瑞咨询

(2)关键技术:分布式架构

与传统数据“数据简单、算法复杂”的计算不同,大数据计算是数据密集型计算,对计算单元和存储单元间的数据吞吐率要求极高,对性价比和扩展性要求也非常高。因此传统以来大型机和小型机的并行计算不能满足大数据时代数据体量、规模、类型的变化。由此,分布式计算被大规模应用到了大数据领域。分布式计算系统是一组自治的计算机集合,通过通信网络相互连接,实现资源共享和协同工作,从而呈现给用户的是单个完整的计算机系统。

2004 年,Google 公布了 MapReduce 分布式并行编程架构;而后,Yahoo 提出 S4 系统、Twitter 提出 Storm 系统;Google 随后提出了将 MapReduce 内存化 以提高实时性的 Spark。

①Hadoop

MapReduce Hadoop 是一个由 ASF 所开源的发布式系统基础架构。用户可以在不了解底层分布式细节的情况下,基于 Hadoop 开发分布式的大数据存储与处理应用程序,并利用分布式集群进行高速运算和海量存储。主要特点是扩展能力强、成本低、 高效率、可靠。

②Storm

Storm 是 Twitter 正式开源的一个分布式的、容错的实时流计算系统,能够逐条接收和处理数据记录,具有很好的实时响应特性。Storm 实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据。借助实时的信息交互与通讯组件(如 Kafka、ZeroMQ、Netty 等),Storm 对大数据中的记录进行逐条处理,响应实时性可以达到秒级别甚至更短。

③Spark

Spark 是 Hadoop MapReduce 的一个替代方案,可以在 Hadoop 文件系统中并 行运行。Spark 克服了 MapReduce 在迭代计算和交互式计算方面的不足,同时能 够充分利用内存资源提高计算效率。

3、数据应用

(1)产业概况

大数据应用,是利用大数据分析的结果,为用户提供辅助决策,发掘潜在价值的过程。近年来,大数据应用从独立的工具产品向完整的行业解决方案发展,相关产品和企业数量越来越多,涉及的领域越来越广,大数据正在政府决策、交通物流、 医疗健康、公共服务、人力资源、广告营销、影视娱乐、能源、金融、农业、电信、零售等领域得到越来越深入的应用。但由于各行业自身的信息化和数字化发展程度不均匀,大数据的行业应用的深度仍需加强。从趋势上看,除通用型工具外,其他独立数据产品的可适用范围将越来越小,基于行业的定制,结合平台的解决方案将成为大数据产业的必然趋势。

大数据行业前景和发展趋势!插图8

资料来源:艾瑞咨询

(2)关键技术:机器学习和人工智能

大数据的本质,不在于研究如何处理数据,而是更好的发现海量数据中隐藏的价值,当前,在全球范围内,大数据的应用已经具备了初步的实践基础,在政府决策、医疗健康、金融、电信、零售、广告营销等领域得到了较为深入的应用。在数据处理与应用之间,必要的过程即是数据分析与解释。分析与解释是用于帮助解释过去和预测未来的一系列方法。数据分析与解释横跨了计算机科学、统计学和数学、专业领域知识等多个领域。近年来,传统的数学和统计学数据分析越来越难以满足大数据时代的需求,机器学习和人工智能渐渐流行。

①机器学习

机器学习是研究如何使用机器来模拟人类学习活动的一门学科。稍为严格的提法是:机器学习是一门研究机器获取新知识和新技能,并识别现有知识的学问。当把机器学习算法应用在大量数据集时,机器就可能“学习”到一些有价值的新的关系,这些关系原本隐藏在浩瀚的数据海洋之中,依赖人脑根本无法发现。

②人工智能

人工智能则是高于机器学习的一个范畴。现代公认的人工智能主要研究课题有:推理、知识表示、自动规划、机器学习、自然语言处理、计算机视觉、机器人学、通用智能或强人工智能。在这八项研究课题里,自然语言处理,计算视觉都是用来处理人类交互环境中信息,可以用来处理大数据库中非结构化的图片/视频/语音数据。而推理/知识表示/机器学习则是用来发掘大量数 据中隐藏关系的利器。人工智能领域的研究自然而然的被认为是解决大数据分析 这一难题的答案。

 五、行业竞争格局

目前,根据自身核心竞争力与商业模式情况,我国大数据企业主要呈现数据优势型、技术拥有型、应用服务型三大特征,行业内企业均具备一项或多项上述特征。

1、数据优势型企业

具备数据优势型特征的企业即先天拥有或以收集数据资源为目标的企业,类企业占据一定的先发优势,可利用手中的数据资源提升自身的企业竞争力,或主导数据交易平台机制的形成。具备数据优势型特征的企业以在自身行业积累了丰富数据资源以及力图汇聚开放网络数据的企业为代表。

2、技术拥有型企业

具有技术拥有型特征的企业是以技术见长的,专注于数据采集、存储、分析以及可视化工具的企业,主要为软件企业、硬件企业和解决方案服务商。

3、应用服务型企业

具有应用服务型特征的企业是指为客户提供云服务和数据服务的企业,这类企业广泛对接各个行业,专注于产品的便捷化和可维护性,同时针对不同行业客户的需求提供差异化的服务。

大数据技术在征信领域应用的主要企业包括上海华夏邓白氏、益博睿、中诚信征信、金电联行、芝麻信用、前海征信、苏州朗动、北京金堤等。

 六、行业未来发展趋势

1、各行各业对数据分析的需求将更加旺盛

随着计算机技术的发展普及,各种信息系统的广泛运用,各类系统中积累了大量的原始数据,各行各业对于数据分析的需求越来越急迫,除了分析这些数据内部所蕴含的规律、预测相关系统的运行趋势以外,对于数据分析的广度和速度都有了越来越高的要求。

这些需求促使 IT、互联网厂商不断加快对于数据分析技术的研发创新。一方面,大数据分析不再局限于结构化的历史数据,而更倾向于分析来自社交网络、各种传感器采集的非结构化数据;另一方面,激烈的市场竞争促使大数据解决方案厂商加大了对数据的快速、实时分析、智能决策技术的研发投入。

2、人工智能化是大数据的发展方向

人工智能的实现以大数据和深度学习算法为基础。深度学习依托于模拟人脑进行分析学习的神经网络,通过模仿人脑的思维方式进行数据的分析和处理。大数据则为人工智能提供的海量数据进行算法的验证和模型的构建。在没有海量数据支持的情况下,仅依靠深度学习算法上的革新是无法实现人工智能的。而近期人工智能之所以能取得突飞猛进的进展,是因为这些年来大数据长足发展的结果。正是由于各类感应器和数据采集技术的发展,我们开始拥有以往难以想象的海量数据,并开始在某一领域拥有深度的、精细化的数据。而这些,都是训练某一领域智能的前提。

大数据是让人们通过数据看到未来,帮助人类决策;而人工智能则是为了彻底将人们从劳动中解放出来,帮助或者替代人类完成任务。大数据为人工智能提供数据支持,人工智能通过主动学习、处理、分析大数据,自发得到可以指导人类决策的依据,指导或者直接替代人类进行决策和行动。人工智能将是各个领域 的大数据应用的发展方向。

3、产业链的分工将日益清晰和细化

随着数据价值认知的深化,用户对于数据的质量要求越来越高,标签的准确性、无效或错误值的比例、数据检索的效率和数据关联的精准度等指标对产业链上各类产品或服务价格的影响日渐加大。同时,在综合性的大型数据交易平台带动下,围绕数据所产生的各类需求能够得到最大程度的凸显,必然会促进大数据产业链的划分逐渐清晰和细化,诸如数据采集、汇聚、加工、交易和分析等环节在内的细分产业都将得到极大的推动。

此外,企业在大数据产业链中的定位将会更加明确和聚焦。当前很多跨越了多个环节的企业,将会根据自身的优势和特点来重新定位在大数据产业链中的角色,可以预见的是某些数据拥有者将专注于对外提供数据服务,而目前横跨分析和应用环节的企业将会有很大一部分成为专业的分析技术提供商。

4、数据处理外包行业将兴起

当前,有大量公司将各种 IT 和业务功能外包给服务提供商,这其中包含数据分析。数据外包将是继软件外包之后的另一大产业。从历史上来看,我国的软件外包产业始于 20 世纪八十年代,此后一直保持持续稳定增长,软件外包已经成为发达国家的软件公司降低成本的一种重要的手段。而数据外包作为一个新兴的大数据产业,即为企业和科研客户提供海量数据处理的外包服务,帮助客户完成海量数据作业任务,并最终交付精准无误的数据成果。使用户最小成本、最大利益获得处理后的数据资产,从而可以将更多的人力和资本投入到生产和科研活动中。

市场研究和咨询公司 Hexa Research 于 2017 年公布的报告称,全球数据分析 外包市场将在 2016 年至 2024 年间的复合年增长率超过 30%,年收入超过 60 亿美元。

大数据的价值体现在基于海量数据形成的洞见以指导人类行为。海量数据不仅仅体现在数据体量上,还体现在关联性上。分离数据形成的“数据孤岛”是大数据行业面临的重要问题,其阻碍了数据的连接融合,使数据无法形成知识体系产生洞见,降低了数据的利用价值。只有跨领域的数据分析才更有可能形成真正的知识和智能从而产生更大的价值。同时,大数据本身具有非常强的资产属性,大数据时代,数据就是金钱。因此,基于各类大数据的共享与交易也将得到蓬勃的发展。

创业者朋友,请注意!

顶级引流赚钱高手的秘诀
免费赠送

大数据行业前景和发展趋势!插图9
大数据行业前景和发展趋势!插图10
大数据行业前景和发展趋势!插图11
大数据行业前景和发展趋势!插图12


我是石高峰,9年实战创业者,【高峰会】大当家的,互联网项目投资人,搜索营销获客专家,曾零售出产品超650000+件,《年赚30万+实操手册》作者,为个人创业者/实体店/中小企业,提供引流获客的营销咨询服务!

高峰微信:295052769

分享到