1.2 数据科学

随着海量数据的不断产生,大数据给社会带来了新的挑战和机遇,随之出现了由新的理论、方法、模型、技术、平台、工具和应用组成的一整套知识体系。数据科学作为一门新兴的处于数理、统计及计算机编程之间的新型学科,可以帮助企业发现更多的商业机会,在商业洞察方面发挥着越来越重要的作用。

数据科学与大数据是相互关联又有区别的。本节重点介绍数据科学的出现及定义、大数据分析的基本原理,以及概述数据科学在不同行业中的应用。

1.2.1 大数据分析原理

大数据分析的原理是:输入一些样本数据特征(即特征变量),在众多的算法中找到一个适合该系列数据模式的算法。根据已经找到的算法,输入想要预测的样本数据的特征,此时算法就可以预测输出相应的结果(即目标变量),详细流程如图1-2所示。

图1-2 大数据分析原理

这里涉及几个新概念:

· 特征变量:就是输入特征,即输入想让模型进行学习的内容。

· 目标变量:也叫目标特征(或者输出特征)。特征变量进行训练,训练出模型后,再放入更多新的特征变量,模型经过计算并输出的值称为目标特征。模型输入输出原理如图1-3所示。

图1-3 模型输入输出原理

我们举一个例子来说明。电商平台要通过以往的销售额预测未来的销售额,其输入特征可能是:日访问量、访问频次、每天销售额的增长。目标特征是:未来几个月的销售额。通过训练模型,找到一个可以泛化拟合的函数,在函数中输入这些特征,就可以得出准确的目标特征(更多的原理、技术细节已经超出本书范围,这里就不展开讲解了)。

1.2.2 数据在不同行业中的应用

数据科学作为一门跨统计学、运筹学、计算机科学、商业管理等学科领域的学科,在各个行业中都有广泛的应用。下面罗列了数据科学在一些行业中的应用。

1.医疗领域

在医疗行业中沉淀了大量的纸质或电子版的个人病例数据、诊断数据、检查结果数据、体检数据等。将这些数据更好地整合、清洗及处理,提升医疗行业的信息化水平,帮助医生做辅助诊断,成为当前医疗领域中的一个创新机会。

在传统的医生诊断治疗中,医生根据自己的临床经验诊断并提供治疗方案。未来,医生是否可以利用通过传统医疗方法所积累的行业经验及数据,使用高级分析方法,对一些疾病进行早期的健康预测、预防?

全球知名的Kaggle网站(一个数据科学竞赛网站,网站上有很多企业提出业务痛点,并提供一定的样本数据。这里也有大量的国内外数据科学家,他们会根据企业提供的样本数据进行建模,并为企业提供自己优化的模型方案,以此获得奖励)曾有一道题:制订健康改进计划。该计划鼓励参赛者提出改善医疗保健的方法,可以赢得300万美元。该题的题目是:预测人们第二年是否要去看病(通过分析某些药品和某些人特质之间关系,以便更好地提升医疗水平)。类似于这样的一些商业场景,都预示着数据分析在医疗健康领域存在着大量的应用机会。

2.保险领域

保险科技近几年发展迅猛。某些保险公司结合企业内部及外部数据,尝试做一些保险用户画像、保险科技场景的创新应用,用于理赔、反欺诈等业务场景中。另外,针对新出现的用户保险共享平台,衍生出了新的互助创新险种、养老健康险种等。

利用人工智能、数据分析等相关技术,保险科技企业对B端及C端做了以下一些技术应用方向的规划,整体目标是提升保险领域中间环节的效率。

基于大数据应用,机器学习的保险行业针对B端及C端的方向如下:

(1)针对企业端(B端)的方向

场景欺诈检测,数据反哺,自动化理赔,损失预测,理赔管理,险种创新。

(2)针对用户端(C端)的方向

策划新险种,优化用户体验,为C端用户进行保险规划。另外,有一些新类型报销,如共享保险,也是互联网科技公司可以尝试的比较好的方向。

3.农业领域

在农业领域中,可以通过传感器采集大棚室温、土壤及周边环境的数据,实时提醒用户施肥和灌溉。还有一些企业会尝试利用各类整合的数据,将企业的整个生产过程进行数据分析,使其可视化。

4.用户研究领域

在电商企业及传统企业的用户研究中,数据科学也有比较广泛的应用场景。在电商领域中,用户登录电商平台之后,经常会看见带有“猜你喜欢”“给你推荐”“你可能平时购买或者浏览过”字样的推荐产品。在约会类网站中,经常出现这样的情况:根据用户设置的条件,帮助用户筛选出哪些异性可能会更适合你。

在更多用户和市场研究领域中,会有更高级的数据分析应用,如用户画像的研究、用户的分群研究、市场细分研究、用户未来生命价值贡献预测等。

数据技术不断渗透并进入更多企业的各个领域,在未来还会涉及金融、零售、快速消费品、汽车、航空等领域。对于企业而言,找到行业可能应用到数据的场景及方向是企业数据决策的第一步。

接下来我们会针对这些场景介绍数据分析流程、高级分析的原理及数据科学家所具备的能力,从而帮助读者理解场景、数据分析流程及核心技术能力,让更多数据应用场景能够在企业落地。