第 2 章 专业介绍

  数据科学导论是应用统计学、数据科学与大数据技术专业非常重要的一门专业必修课,力图帮助新生了解、认知专业,对涉及专业知识、专业技能,以及专业能力与素养等方面,进行比较全面的引导和指导性介绍,目的是为今后的大学和专业学习奠定最基本的基础。总而言之,本课程希望帮助刚刚进入大学,即将开始专业学习的学生:

启蒙大学,启迪专业!
跳出舒适区,摆脱迷茫,重塑自我,开启正确的大学生活和专业学习模式!

  数据科学导论采用模块化教学,设定如下六个内容模块:

  • [ ]课程概述
  • [x]专业介绍
  • [ ]数据科学的计算机生态系统
  • [ ]数据科学与统计学
  • [ ]数据科学的思维
  • [ ]数据科学与人工智能

构建自己的知识体系,全方位提升自己,用自己确定的能力,应对未来的不确定性!

  本部分内容为第二个模块,对即将开始学习的专业做一个简要介绍,初步了解和认知数据科学的两个核心专业——应用统计学、数据科学与大数据技术专业。

  首先,明确科学技术,学科专业这两个概念,对大学的学习具有重要意义.

  科学是由思想所构建的一套完整理论体系,而技术是实现科学思想和理论的具体方法集合。

  学科是科学知识体系的分类,一般用于高校教学、科研等人才培养功能的科学意义上的相对界定,而专业是指人类社会科学技术进步、生活生产实践中,基于技术层面的相对规范。

  学科和专业既不同,又密切相关,相辅相成。一般而言,专业以学科为依托、为后盾,学科的发展又以专业为基础;在一个学科内,可以构建若干专业,在不同学科之间也可以组成跨学科的专业。

2.1 第四范式

  随着计算机计算、存储和互联网技术的进步,类型各异数据的存储、传输能力,以及计算机数据处理能力得到了极大提升。面对海量的各类数据,各行各业对数据获取、整理、存储,以及数据分析等针对数据的研究和使用提出了新的和更高的需求和要求,也使得基于数据的人工智能得以实现并大规模应用。

  大数据与人工智能时代扑面而来,科学研究在经历了三个范式之后,已开启第四范式(the Forth Paradigm)。社会快速进入数字时代,应用场景日新月异,并且正在深刻影响着人类社会的方方面面。各行各业对掌握现代数据技术的专业人才的需求与日俱增。

2.2 专业背景

  为了培养具有数据思维、数据科学和数据应用技术的人才,具有鲜明学科交叉特色的数据科学与大数据技术类专业应运而生,截止到目前不完全统计,我国600余所高校开设了数据科学与大数据技术本科专业;在研究生教育领域,已经开始大规模构建交叉科学,基于交叉学科,全面启动复合型、创新型大数据与人工智能研究型人才的培养。

美国密歇根大学在2015年9月宣布了一个1亿美金的“数据科学项目(Data Science Initiative)”,计划在未来4年聘请35名教授,支持与数据相关的跨学科研究,该项目的网站上有如下对数据科学的描述:

数据科学是科学发现和实践的结合,其包括对大量类型各异的数据进行收集、管理、清洗、分析、可视化和结果解释,其应用遍及各种科学和交叉领域。

  相对新兴的数据科学与大数据技术专业而言,统计学本身就是一门关于数据分析的科学,其历史要长得多。顾名思义,应用统计学专业侧重统计学的应用,虽然专业名称一直延续至今,但是在大数据与人工智能时代,统计学内涵和外延早已发生了变化,统计学是数据科学的核心,已成为人们的共识,且越发凸显其重要性和不可或缺的地位。

在大英百科全书(Britannica)中,关于统计学的描述为:

statistics is the science of collecting, analyzing, presenting, and interpreting data.

还有一种描述比较受推崇:

Statistics is the science of learning from data.

  为了应对数据时代对科学研究的需求,除了传统的统计学和新兴的数据科学与大数据技术本科专业,设置将数据作为科学研究对象的“数据科学”本科专业,可望加快实现我国在基础原创成果和高端人才数量方面的超越发展。一方面,发展到现在的巨大“数据怪兽”已成为科学研究的一个主体,研究它的基础理论、逻辑推理方法、试验设计和假设验证、领域数据学和数据资源的开发利用方法与技术等研究,都需要精纯的科学基础理论和方法素养,而过早的理工交叉受制于本科四年教学时数、教师团队专业成分、教学方式和院系文化的限制,难以培养具有原创理念、系统掌握基础理论和方法的高水平研究人员和从业科学家。

  另一方面,由于名义上理科工科都可招生,但实名的工科专业和现实中统计学的小学科地位使得具有理科属性的统计学在“数据科学与大数据技术”本科专业培养中所发挥的作用大受影响,严重制约了高端人才接受系统的基础科学素养培养。因此,具有理科属性的“数据科学”本科专业应运而生。

1997 年,美国工程学院院士吴建福 (C. F. Jeff Wu) 在密歇根大学就任H. C. Carver 讲席教授时的公开演讲,题目就是
“Statistics = Data Science?”

2.3 专业设置

  自2011年国务院学位办和教育部设立理学类(代码:07)统计学一级学科(代码:12)以来,全国设立统计学类本科专业( 代码:0712)的院校数量、从业教师人数以及在校学生人数快速增长,为互联网、大数据、人工智能等领域的迅猛发展提供了大量高水平的科技人才,应用统计学专业(代码:071202)是统计学 类一级学科下设置的专业之一。

  2016年设立在工学(代码:08)计算机类(代码:09)下的“数据科学与大数据技术”本科专业(080910T),以理学和工学交叉形式培养本科生的模式,更是快速缓解了这些领域以及其他相关领域对于数据分析人员和数据工程师的需求。

  我国教育部公布了2022年度普通高等学校本科专业备案和审批结果,新增了数据科学等21种新专业,并正式纳入《普通高等学校本科专业目录》,将列入相关高校2023年本科招生计划,目前仅北京交通大学、福建师范大学两所院校开设了本专业。

  特别值得一提的是,新增的数据科学专业列入了统计学专业门类(代码:0712)下,专业代码为 071203T,同时增设了生物统计学(071204T),都授予理学学士学位。至此,理学统计学门类下,共有统计学、应用统计学、数据科学、生物统计学四个理学专业。

  应用统计学、数据科学、数据科学与大数据技术专业高度交叉,各有侧重。除非特别有必要,在本课程中,不再区分应用统计学、数据科学和数据科学与大数据技术,统一以数据科学称谓。

2.4 来自行业、领域的需求

  如上所述,数据科学是一门交叉学科,应用场景遍及各个领域,面对各行业领域的不同需求和复杂数据的不同问题,通常需要数学、统计学、计算机以及各行业领域的专业知识和技术的综合运用。因此,从行业领域的需求而言,对数据类岗位从业人员的专业知识与能力素养的要求:

  • 具有比较深厚的行业领域知识,能够准确理解和把握其实际需求,并具有前瞻性
  • 具有开阔的视野和高度,以及基于问题的数据技术的再学习和综合运用能力
  • 具有比较广阔的、跨学科的知识面和跨专业应用能力
  • 具有清晰的思维与表达能力,以及着眼于问题解决的强烈的创新意识和能力
  • 具有强烈的职业道德和操守

  2008 年 D.J.Patil 和 Jeff Hammerbacher 把它们在 Linkedin 和 Facebook 的工作职责定义为” 数据科学家”,自此,数据科学开始在业界流行。数据科学家是指综合使用一整套科学工具、技术(数学、统计、计算、视觉、分析、试验、艺术、问题界定、模型建立与检验等)和智慧,能从数据中获得新发现、最大限度洞见数据的价值的,懂系统架构、精数据分析、会领域知识的,熟悉第四研究范式的新型人才。

2.5 专业素养、能力要求

  对标行业领域对数据类人才的需求,应用统计学和数据科学与大数据技术专业设定如下专业能力指标,引导和指导学生,围绕专业学习,提升如下专业能力和素养。

  • 问题和研究: ——能够根据实际需求恰当地提出问题,并能将数学、统计学和数据技术等专业知识予以解决,并对结果进行正确、合理地解释和评价
  • 工具和开发: ——能够针对特定的问题设计解决方案和实施流程,选择与使用恰当的数据技术,并能够在过程中体现创新意识,综合考虑社会、健康、安全、法律、文化以及环境等因素
  • 职业和社会: ——具备人文社会科学素养、社会责任感,能够在实践中理解并遵守职业道德和规范,履行责任;能够评估解决方案对社会、健康、安全、法律、文化、环境、社会可持续发展的影响
  • 团队和沟通: ——能够在多学科背景下的团队中承担个体、团队成员以及负责人的角色,能够就问题与业界同行及社会公众进行有效沟通和交流,包括撰写报告和设计文稿、陈述发言、清晰表达或回应,并具备一定的国际视野,能够在跨文化背景下进行沟通和交流
  • 管理和学习: ——具有管理与决策的能力,具有终身学习的意识和适应发展需求的能力

2.6 人才培养方案

  本科专业人才培养方案是学校人才培养工作的总体设计、体现人才培养总体要求的纲领性文件;是组织开展教学活动、安排教学任务的规范性文件,是实施专业人才培养和开展质量评价的基本依据,是提高人才培养质量的重要保证。

随着社会和科技的发展,世界各国都在人才培养上进行改革,以期适应时代的发展对人才的需求。STEM教育体系和理念的诞生就成为了世界公认的杰出人才培养框架。所谓STEM素质教育指的是这四个英文单词的缩写:Science(科学),Technology(技术),Egineering(工程), Maths(数学)。

我国教育部在教育信息化“十三五”规划中,明确指出探索跨学科教育(STEAM教育,在 STEM 的基础上,增加了Arts(艺术))、创客教育等新教育模式。

  按照学校的总体要求,两个专业的人才培养方案框架如下,具体培养方案完整文本请见学院网站。

1.数据科学与大数据技术

2.应用统计学

3.数据科学

  数据科学专业为统计学类下的新增设专业,它是以统计学为核心、计算机科学为工具和数学为基础的一门新型的交叉学科。该专业以大数据分析为中心、多学科交叉融合为特色,依托统计学、数学、计算机科学与技术和人工智能等学科,重点培养学生的数据采集、挖掘、清析、处理、存储与分析等应用能力,具有扎实的统计学基础、缜密的逻辑推理和数据思维、系统的计算机科学技能,以及能够充分利用各种科学方法从海量数据中提取价值的信息和洞察力,并做出准确的决策。

  在数据科学专业的培养目标中,一方面,与统计学相比,对算法设计与分析、机器学习、数据可视化以及计算机的运算能力等方面有更高要求;另一方面,与人工智能相比,更加侧重“数据思维”的培养,对统计学和数学理论基础有更高要求。同时,面向社会实际应用需求,该专业注重引导培养学生在人工智能技术、物联网应用、医学诊断、数字经济和商业发展等方面的兴趣,将学生培养成为多学科领域交叉融合的高层次复合型应用人才。

2.7 如何进行专业学习

  许多初入数据科学领域的人,对于如何进行相关知识和专业技能学习,往往一筹莫展,犹如盲人摸象。例如

  • 数据科学要学什么?
  • 怎么才能掌握能解决实际问题的技术?
  • 我很想学好,但不知从哪儿下手?
  • ……

  值得庆幸的是,大家进入了目前最火热的应用统计学和数据科学与大数据技术专业,进行系统的学习,目前是打基础阶段,大量的专业知识将在四年时间里,陆续开始学习.但正如前面所述,这两个专业是最典型的跨学科专业,从一开始,最好能够把握并学好专业的基本理念、原则和方法,这样,才会越学越顺,越学越有收获。具体而言,在专业学习过程中,要注意把握:

  • 关键原则
    • 调整、转变、认知、高度、总结、概括、习惯
  • 核心要素
    • 注重学科交叉、夯实数学、统计学、计算机科学基础
    • 加强双语(英语、计算机编程语言)能力的训练
    • 突出数据思维、工程思维的意识和养成
    • 强调动手(计算机编程技术、基于问题解决方案的设计)能力的培养
    • 加强应用领域背景知识
  • 规避误区
    • 要问题驱动,不要技术驱动——专业的核心能力是解决问题;是问题决定技术,而不是根据技术来考虑问题
    • 要善用开源,不要重复造车——数据技术基因在于开源,到 Github 去冲浪,到 Internet 淘宝,到Blog 挖矿
    • 要以点带面,不要贪大求全——要把握好碎片化与系统性、泛化了解与深入精通
    • 要善于实践,不要纸上谈兵——在问题中学习、在实战中提高、在竞赛中磨练
    • 要自学拓展,不要局限课堂——要抓住关键的理论和技术,有效安排时间,有目的地深入研学
  • 实践锻炼
    • 参加竞赛,发表作品等。例如,Kaggle作为数据科学领域顶级的众包平台,企业和研究者可在Kaggle上发布数据,提出需求,任何人可在其上参与竞赛以产生最好的模型。这一众包模式本质就是集体智慧编程的体现,即有众多策略可以用于解决几乎所有预测建模问题,因为分析人员不可能一开始就能找到最佳方案,Kaggle的目标就是通过众包的形式来解决这一难题,进而使数据科学成为一场集体智慧运动。所以说严重推荐去Kaggle参与,去历练,也包括其它各类竞赛。

  综上所述,要学好专业,务必从一开始,就要树立并加强

知识——>能力——>智慧

的意识.

  通俗地讲,就是不能满足我会了什么,我会不会,而是应该在学习过程中,不断地问自己,用所学的知识,能干什么,会干什么;直至遇到问题,能够通过思考,找到解决问题的思路、办法,也即在问题面前知道怎么干!!!