图片说明

信而富王征宇:?大数据的机遇与挑战 | 互联网金融十二讲摘编连载

  《互联网金融十二讲》一书是2015年下半年北京大学数字金融研究中心(IDF,原互联网金融研究中心)在北大开设的互联网金融讲座课的整理稿。讲座课由黄益平、沈艳、黄卓和王海明共同主持,每周邀请一位专家做讲座。课程大纲综合考虑了话题的代表性和嘉宾的权威性,希望尽量全面地反映当前中国互联网金融的状况。北大数字金融研究中心官方微信公众账号将陆续摘编《互联网金融十二讲》的部分内容,敬请关注。文章仅代表演讲者个人观点,不代表IDF意见,转载请注明出处。

大数据的机遇与挑战

王征宇

20151023

  今天的主题是大数据。大数据这个问题的由来是什么?大数据的发展历史是什么样的?大数据对于互联网金融意味着什么?为什么研究互联网金融要研究大数据?

  (一)大数据的发展历史

  大数据在美国是一个流行词。早在世纪之交,当时还没有互联网金融、P2P网贷和大数据的概念,但是从美国当时的经验看,中国必然存在三个明确的发展方向。

  1、征信局。美国在21世纪初形成了Equifax、Experian和TransUnion三大征信局垄断的局面,其数据库中存储了所有消费人群的信贷数据。而在2001年,中国还没有征信中心。传统三驾马车——消费、投资、出口中,中国消费是最滞后的。如果要发展消费经济,发展征信局是大势所趋。

  2、基于大量数据的风险评分方法,或者基于征信局数据的风险评分或自动决策技术。在美国,这些业务形态已经形成了一个非常完整的业务链条。

  3、消费信贷产品——信用卡。2001年中国还没有一张信用卡,而在美国,信用卡行业已经发展得如火如荼。信用卡的发展依赖于征信局和风险决策体系。

  征信业务、风险评估业务、信用卡业务紧密联系、互为依存

  信而富公司的创业出发点正是基于中国经济体系的三个必然发展,信而富的创业轨迹很好地诠释了中国征信业的发展历程。信而富参与了中国第一个征信机构——上海资信的创立;参与人民银行征信中心业务;为银行提供风险评估服务;为中国超过一亿张信用卡提供CDS自动决策系统;参与消费信贷发展的工作。

  (二)大数据在互联网金融领域的重要角色

  大数据源自一个最基本的现象。举例来说,美国疾病控制和预防中心(CDC)与世界卫生组织(WHO)合作回执疾病世界地图,控制和预测疾病爆发。但在世界各地,CDC和WHO与众多国家紧密合作,花费大量人力物力却很难绘制精确的感冒世界地图,在感冒流行的发展趋势预测上总是滞后。然而Google基于大数据发布的感冒分布——Google指数却比WHO编制的感冒地图要更精准、更及时、反应速度更快,原因在于Google覆盖了世界各地区及语言,当一个地区内查找“感冒药”、“头疼”等感冒症状相关词汇时,Google就分析这些词汇的频度、强度和范围,然后用不同颜色划分成全世界的感冒地图,解决了感冒发生的即时分布问题。这是一个大数据的典型应用。

  大数据应用解决的不是金融问题,而是一个靠人力难以解决的问题。

  在预测人的消费信贷、借款行为、还款行为等方面,征信局的信贷行为数据相当于我们在白天见到的太阳,太阳出来,即有了征信局数据这样一个极强的数据源的时候,就能极好地诠释人的消费信贷行为。而大数据所起的作用,就相当于满天的星星,太阳一出来,星星的光芒都没有了,除非到了晚上——当征信局的数据覆盖不充分时,就是天上没有太阳,在这种情况下,星星的光芒就透出来了。比如中国征信中心的数据就覆盖不充分。

  美国的传统金融服务不需要特别多的大数据,因为它们的征信局存有一个人在所有金融活动或信贷活动中所有的数据,大数据与互联网金融的结合也就没那么紧密。而在今天的中国,由于金融服务覆盖数据不充分,所以提出了大数据,这就是大数据这个问题的由来,大数据也确实可以在很大程度上帮我们解决一些问题

  (三)大数据的三个层级

  抛开互联网金融的语义环境,大数据这个命题可分成三个层级。

  第一个层级是前端的数据设施、数据展示、数据采集,这是处于最前沿、与数据直接相关的采集体系。

  第二个层级是大数据的后台综合处理。中国有很多机构都在进行大数据的前端采集,包括物联网等,但现在中国比较欠缺的是后端处理体系,这就涉及把大数据进行综合的算法。今天的中国大数据,产业界走在学术界前面,学术研究机构和大学院校落后了,因为大数据的源头在产业界,那些掌握着大数据源头的行业具有极大的数据综合概括能力。这里面最典型的是Google,中国比较典型的是百度,百度的研究中心也在硅谷,就在Google的隔壁。世界级大数据研究中心是在美国的加州。

  第三个层级是后台实施机构,即利用大数据产生真正有效应用的部门。

  大数据的应用可以散布在社会生活的各个方面,但在大数据的应用方面,我国现在还相当落后。大数据不是数据大,不能简单地把数据的堆积认为是大数据。在大数据技术的发展中,大数据的概念和应用场景需要脚踏实地、循序渐进。最早的时候是20世纪70年代的概率论、数理统计,随后是人工智能。人工智能是第一次通过机器驾驭的方式,来学习新的重复性或者复杂类型判断的技术。今天在人工智能的技术方面,很多大数据的算法依赖于人工智能的传统方法。再后来,20世纪90年代左右出现的数据库技术,这些是真正使得今天的大数据得以发展的物理基础。

  大数据的存在需要几个物理条件。第一需要大硬盘、大存储技术;第二需要好的数据库技术,使得数据可以有效地进行管理;第三需要有良好的分析体系和分析工具。在今天,数据库的技术已经发展得炉火纯青,从90年代到现在,经过几代发展,出现了数据集市,这些都是对数据库技术的有效利用。

  (四)大数据技术的应用前沿

  现在正走在大数据技术应用前沿的是图像识别。图像识别最早是应用在社交网络中的搜索,社交网络通过人脸联系用户彼此。例如一个人的照片里面拍了张三,而李四的照片里也拍到同一个人,Facebook就会以此断定他们互相认识。人脸识别技术在Google的框架下已经用得炉火纯青,并在世界范围内为数以亿计的人提供这样一种公众服务。而这一技术在国内暂时还没有软件能做得到。

  在大数据的应用前沿当中,人脸识别技术非常先进。最近,有些银行提出通过人脸识别来实现远程开户,因为我国的金融服务体系开户是需要实名认证的。在实名认证的过程中,银行就试图通过远程人脸识别来免除实名认证的麻烦,但这个技术由于所谓“赵薇先生”的“乌龙事件”被人民银行叫停,甚是可惜。

  (五)大数据与征信的相互关系

  为了弥补中国金融服务领域中征信覆盖不充分的问题,大数据与征信数据具有相关性,但并不完全等同。互联网金融征信服务所覆盖的数据要解决的核心问题是:一个人的还款意愿、还款能力、还款稳定性如何。在这些方面,一个人的信贷行为数据、历史借款数据、或者人民银行的征信数据具有最好的预测性。但是,当征信数据无法覆盖时,就只能依赖于所谓的大数据,或者叫非结构化数据——即无法用一个数据表格来表示的数据,例如社交网络数据、聊天数据等。而这些恰恰是我们认为可以解决今天中国所面临问题的方法。

  在今天的互联网金融、特别是网络贷款环境中有数以千计的P2P机构,每家机构的客户数只有几百、几千或者几万。在这样的一个语义环境下,大数据作用非常有限。大数据真正可以发挥作用的地方,是一种可以服务于成千上万人群的网络贷款业务方式或形态,可以帮助他们解决金融数据不充分的问题。在这种情况下,通过移动数据、社交网络数据的算法来预测他们的行为,才能真正驾驭大数据,解决互联网金融的问题。

  我们看一下今天互联网金融面对的一个基本命题。我假设的人群是生活处于起步阶段的年轻人,教育程度仅为高中毕业,喜欢网游、网聊,手机一般用的是安卓或者苹果,在一个很小的企业从事服务性质的工作。大家想象一下银行会向这样的人提供贷款吗?没有机会进入北大深造,没有供职于一流的机构,也不在政府机关工作,当然也不在国有企业。他没有任何的抵押品,银行肯定不会为其提供信用卡服务,小额贷款公司也不会提供贷款服务,其他互联网金融公司当然也不会为他提供服务。这样的人在中国有几千万甚至上亿。今天的互联网金融对这类人是没有解决方案的,互联网金融和网络贷款在今天的中国还没有破题,理由是数以千计的机构2015年以来发放的贷款才有100万笔,和几千万甚至上亿这样的人一点关系都没有,普惠金融没有照到他们身上。

  要解决普惠金融的话题,解决这个语义环境下的互联网金融问题,必须靠技术进步,必须靠大规模预先核准新技术。这里涉及的核心技术是对大量数据行为进行综合性分析。我们面临的问题是没有广泛的征信数据覆盖,特别是人民银行的数据库没有覆盖上述提到的人群。

  通过在移动互联网环境下留下的蛛丝马迹,对其行为进行分析,来确定还款意愿、还款能力及还款稳定性,这是我们在技术上面临的基本挑战,也是今天中国大数据应用于互联网金融的最基本的体现。从技术发展的角度来看,国有银行很大程度上还在从靠人工判断发展到评分决策和评分矩阵的过程中,而今天中国所引领的技术已经走到通过社交网络数据对个体的授信水平进行评估的阶段。这种文明的进步形象地代表了以大数据为代表的风险评估水平的发展,这种发展的趋势还会持续下去。中国之所以要往前走是迫不得已,市场需求催生着技术的进步。希望产业界、实业界、企业界的技术创新,和学术界、研究界、实验室里的研究能获得同步的发展。

  (六)信而富在互联网大数据征信的创新试水

  我们现在和一些拥有大数据的互联网机构合作推动一种实验,把我们的分析技术应用到他们的客户中。这些人拥有多维度的数据,包括社交网络、游戏、支付、电商等,我们从中筛选出一些我们认为具有还款能力、还款意愿、还款稳定性的人。他们需要做的仅仅是核实姓名、验证手机、核实银行卡。这个产品500元起步,每次借款付5元手续费,每天付3毛钱的利息,年利率大约为21%。

  我们从2014年11月将产品推向市场,到2016年1月大概撮合了500万笔借款。全中国几千家互联网金融机构的贷款总笔数不到100万笔。这些客户觉得这种借款方式方便,一方面用于朋友聚餐、生日聚会、两人世界等典型的消费场景;另一方面用于电商网购、在线支付、电话充值。之后的调查发现,其中3/4以上的借款人从来没借过钱,因为没有人借钱给他们。

  这就是刚刚提到的年轻人群,他在整个借钱过程中甚至没有透露地址,在手机上几秒钟就可以完成整个借贷过程。而5元手续费对人们来说并不重要,假设借朋友500块钱,还钱时请喝一杯奶茶都会超出5元。那为什么要收5元呢?因为我们给第三方承担的交易费用是18元,还钱时承担的交易费用也是18元,共计36元,这是小额交易的手续费。

  社会实践证明了这类年轻人群的存在和需要,并且我们可以找到一种技术方法为他们提供服务,技术、费率都是可行的。而这种技术进步背后所支撑的技术体系才是应该关注的。只有通过技术进步,才能使作业成本最大程度地降低,并最大范围地覆盖借款人群。这才是真正解决了互联网金融承载普惠金融的使命,为5亿人提供服务。

  注:此文摘编自王征宇博士2015年10月23日在北大的演讲。王征宇,美国芝加哥伊利诺伊大学统计学博士、上海互联网金融行业协会理事、上海金融信息行业协会副会长、中南财经政法大学硕士生导师。王征宇博士曾在美国长期从事消费信贷管理,负责控制风险、提高价值综合策略的制定,先后为众多国际著名金融机构提供咨询服务。2001年回国后开展北京首航的业务,创立了信而富。

  

  “未名湖数字金融研究”公众号(iif_pku)为北京大学数字金融研究中心(Institute of Digital Finance, Peking University)的官方公众号。北京大学数字金融研究中心(原北京大学互联网金融研究中心)是由北京大学中国社会科学调查中心、上海新金融研究院和蚂蚁金服集团于2015年共同发起成立的学术研究机构。中心是北京大学的二级机构,挂靠北京大学国家发展研究院。中心致力于开展金融科技、普惠金融、金融改革等领域的学术研究,向社会提供权威的科研成果,为政府决策提供参考,服务于金融行业的发展和监管。

  

  

  

  

  公众号iif_pku

  关注并回复关键词

  “报告”或“指数”,

  获取精彩报告内容

  

  

  

business.sohu.com true 搜狐媒体平台 https://business.sohu.com/20170322/n484280148.shtml report 8696 《互联网金融十二讲》一书是2015年下半年北京大学数字金融研究中心(IDF,原互联网金融研究中心)在北大开设的互联网金融讲座课的整理稿。讲座课由黄益平、沈艳、黄
商业周刊/中文版

商业周刊/中文版

以洞见和趣味服务于以新商业领袖为主的全球化新经济时代读者

面包财经

面包财经

为价值而生 | 原创 | 深度

和讯网

和讯网

新媒体的实践者、研究者和批判者。

今日全球头条

今日全球头条

全球市场,深度解读,就在凤凰iMarkets

谁谁谁

谁谁谁

金融小故事,有趣又有料