数据科学导论
2023-11-16
前言
身处大数据与人工智能时代,作为应用统计学和数据科学与大数据技术专业的学生,在即将展开的专业知识学习之前,想必大家很兴奋,但也存在着诸多疑惑.
作为两个专业大一新生即将开始学习的专业导论课程,究竟应该让学生通过该课程的学习,初步了解和掌握哪些东西呢?
0.1 初衷与目的
本课程即为大家答疑解惑,为大家今后以专业为依托的大学学习给出有效的指引和指导,帮助大家迅速转换思维、方法和习惯,使得大家从一开始就能够有目的地高效率、高质量展开大学和专业学习.
首先应明确开设课程的初衷:
- 希望帮助学生了解基于数据的科学研究范式——数据科学的全貌
- 希望帮助学生对即将开始学习的专业,能有一个比较全面、系统,以及宏观的认知
- 希望帮助学生初步领会专业思维、知识结构和能力要求
鉴于以上初衷,本课程设定以下目的:
- 侧重数据科学基本概念、思维、方法的认知,而非很专业的,要有一定的基础,到高年级才能学习和掌握的知识和技术
- 初步了解查阅资料,独立思考,理清思路的重要性,以及初步建立其能力,并持续提升
- 了解并意识到具备较好的数学、统计学、计算机技术对专业学习的重要性
- 应该使学生意识到有一颗好奇的心和探索的精神,远比学会了”什么”重要
- 帮助初入江湖的人,从宏观层面知道今后如何在数据科学的海洋中学习游泳,直至顿悟“到中流击水,浪遏飞舟”的真谛!
0.2 教学资料的组织结构
本课程以模块化安排,设定如下六个内容模块:
- 课程须知
- 专业介绍
- 数据科学的计算机生态系统
- 数据科学与统计学
- 数据科学的思维
- 数据科学与人工智能
原则上,各个模块并没有严格意义上的先后顺序.
0.3 如何利用教学资料
由于课程内容的开放性,以及课程开设的初衷与目的,在学习过程中,没有像其它课程那样,指定一本纸质教材或参考书,制作资源的目的就是使得学生能够相对有一个比较完整、系统的学习资料.
因此,在组织、制作这一电子资料过程中,试图实现以下目的:
- 完整地呈现为达到课程目标所需内容框架,并尽量做到通俗易懂和详尽;
- 给学习的同学最直接、最贴切的课程学习参考;
- 为了拓展、丰富学习内容,或帮助学生更好地理解、消化和吸收所学内容,在每一个内容模块的最后,都安排了一个专题——拓展学习与思考,精心选择的这些资源全部来自互联网,帮助大家以节省时间,但并不局限于这些,以期开阔读者的视野,启发进一步的思考.
0.4 本资料制作所用技术
该资料的制作使用了当下最为流行的电子书制作工具 Bookdown,特别是与数据科学密切相关的电子图书的写作与发布;bookdown是著名数据分析软件R的扩展包,支持采用Rmarkdown (R代码可以运行)或普通markdown编写文档,然后编译成HTML、 WORD、 PDF、Epub等格式,感兴趣的读者在有一定计算机软件和相关语言基础的时候,可以去学习,也可参考我整理的 Bookdown 使用手册.
本资料在 Rstudio 集成环境下写作、编译, 主要使用了4个 R 包,分别是rmarkdown (Allaire et al. 2023) 、bookdown (Xie 2023a)、 knitr (Xie 2023b) 以及tinytex (Xie 2023c).
以下是写作、编译时 R的相关信息
## R version 4.3.1 (2023-06-16)
## Platform: x86_64-apple-darwin20 (64-bit)
## Running under: macOS Ventura 13.6.1
##
## Matrix products: default
## BLAS: /Library/Frameworks/R.framework/Versions/4.3-x86_64/Resources/lib/libRblas.0.dylib
## LAPACK: /Library/Frameworks/R.framework/Versions/4.3-x86_64/Resources/lib/libRlapack.dylib; LAPACK version 3.11.0
##
## locale:
## [1] en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8
##
## time zone: Asia/Shanghai
## tzcode source: internal
##
## attached base packages:
## [1] stats graphics grDevices utils datasets
## [6] methods base
##
## loaded via a namespace (and not attached):
## [1] digest_0.6.33 R6_2.5.1
## [3] bookdown_0.36 fastmap_1.1.1
## [5] xfun_0.41 cachem_1.0.8
## [7] knitr_1.45 htmltools_0.5.7
## [9] rmarkdown_2.25 cli_3.6.1
## [11] sass_0.4.7 jquerylib_0.1.4
## [13] compiler_4.3.1 highr_0.10
## [15] rstudioapi_0.15.0 tools_4.3.1
## [17] evaluate_0.23 bslib_0.5.1
## [19] yaml_2.3.7 jsonlite_1.8.7
## [21] rlang_1.1.2