前言

  身处大数据与人工智能时代,作为应用统计学和数据科学与大数据技术专业的学生,在即将展开的专业知识学习之前,想必大家很兴奋,但也存在着诸多疑惑.

  作为两个专业大一新生即将开始学习的专业导论课程,究竟应该让学生通过该课程的学习,初步了解和掌握哪些东西呢?

0.1 初衷与目的

  本课程即为大家答疑解惑,为大家今后以专业为依托的大学学习给出有效的指引和指导,帮助大家迅速转换思维、方法和习惯,使得大家从一开始就能够有目的地高效率、高质量展开大学和专业学习.

  首先应明确开设课程的初衷:

  • 希望帮助学生了解基于数据的科学研究范式——数据科学的全貌
  • 希望帮助学生对即将开始学习的专业,能有一个比较全面、系统,以及宏观的认知
  • 希望帮助学生初步领会专业思维、知识结构和能力要求

  鉴于以上初衷,本课程设定以下目的:

  • 侧重数据科学基本概念、思维、方法的认知,而非很专业的,要有一定的基础,到高年级才能学习和掌握的知识和技术
  • 初步了解查阅资料,独立思考,理清思路的重要性,以及初步建立其能力,并持续提升
  • 了解并意识到具备较好的数学、统计学、计算机技术对专业学习的重要性
  • 应该使学生意识到有一颗好奇的心和探索的精神,远比学会了”什么”重要
  • 帮助初入江湖的人,从宏观层面知道今后如何在数据科学的海洋中学习游泳,直至顿悟“到中流击水,浪遏飞舟”的真谛!

0.2 教学资料的组织结构

  本课程以模块化安排,设定如下六个内容模块:

  • 课程须知
  • 专业介绍
  • 数据科学的计算机生态系统
  • 数据科学与统计学
  • 数据科学的思维
  • 数据科学与人工智能

  原则上,各个模块并没有严格意义上的先后顺序.

0.3 如何利用教学资料

  由于课程内容的开放性,以及课程开设的初衷与目的,在学习过程中,没有像其它课程那样,指定一本纸质教材或参考书,制作资源的目的就是使得学生能够相对有一个比较完整、系统的学习资料.

  因此,在组织、制作这一电子资料过程中,试图实现以下目的:

  • 完整地呈现为达到课程目标所需内容框架,并尽量做到通俗易懂和详尽;
  • 给学习的同学最直接、最贴切的课程学习参考;
  • 为了拓展、丰富学习内容,或帮助学生更好地理解、消化和吸收所学内容,在每一个内容模块的最后,都安排了一个专题——拓展学习与思考,精心选择的这些资源全部来自互联网,帮助大家以节省时间,但并不局限于这些,以期开阔读者的视野,启发进一步的思考.

0.4 本资料制作所用技术

  该资料的制作使用了当下最为流行的电子书制作工具 Bookdown,特别是与数据科学密切相关的电子图书的写作与发布;bookdown是著名数据分析软件R的扩展包,支持采用Rmarkdown (R代码可以运行)或普通markdown编写文档,然后编译成HTML、 WORD、 PDF、Epub等格式,感兴趣的读者在有一定计算机软件和相关语言基础的时候,可以去学习,也可参考我整理的 Bookdown 使用手册.

  本资料在 Rstudio 集成环境下写作、编译, 主要使用了4个 R 包,分别是rmarkdown (Allaire et al. 2023)bookdown (Xie 2023a)knitr (Xie 2023b) 以及tinytex (Xie 2023c).

软件Logo软件Logo软件Logo软件Logo

图 0.1: 软件Logo

  以下是写作、编译时 R的相关信息

## R version 4.3.1 (2023-06-16)
## Platform: x86_64-apple-darwin20 (64-bit)
## Running under: macOS Ventura 13.6.1
## 
## Matrix products: default
## BLAS:   /Library/Frameworks/R.framework/Versions/4.3-x86_64/Resources/lib/libRblas.0.dylib 
## LAPACK: /Library/Frameworks/R.framework/Versions/4.3-x86_64/Resources/lib/libRlapack.dylib;  LAPACK version 3.11.0
## 
## locale:
## [1] en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8
## 
## time zone: Asia/Shanghai
## tzcode source: internal
## 
## attached base packages:
## [1] stats     graphics  grDevices utils     datasets 
## [6] methods   base     
## 
## loaded via a namespace (and not attached):
##  [1] digest_0.6.33     R6_2.5.1         
##  [3] bookdown_0.36     fastmap_1.1.1    
##  [5] xfun_0.41         cachem_1.0.8     
##  [7] knitr_1.45        htmltools_0.5.7  
##  [9] rmarkdown_2.25    cli_3.6.1        
## [11] sass_0.4.7        jquerylib_0.1.4  
## [13] compiler_4.3.1    highr_0.10       
## [15] rstudioapi_0.15.0 tools_4.3.1      
## [17] evaluate_0.23     bslib_0.5.1      
## [19] yaml_2.3.7        jsonlite_1.8.7   
## [21] rlang_1.1.2

0.5 内容完善与更新

  由于该领域知识和技术迭代、升级很快,故作者会进行经常性更新和完善,但不一一注明,敬请谅解.

致谢

  首先,感谢这些优秀的开源软件的开发者,特别是谢益辉的贡献!感谢这个互联网开源时代,可以站在巨人的肩膀上,使用和享受到这样高效、强大的工具,极大地提升了我的学习和工作的效率和质量!

  其次,网络上很多才华横溢的人的文章、留言和精彩评论,给笔者极大的启发,激发了很多灵感,得以丰富和完善本资料.

  最后,感谢部分同事和我的学生,从他们的角度,给了我很多很有建设性的意见和建议!

孙洪波
北京理工大学珠海学院大数据研究中心

参考文献

Allaire, JJ, Yihui Xie, Christophe Dervieux, Jonathan McPherson, Javier Luraschi, Kevin Ushey, Aron Atkins, et al. 2023. Rmarkdown: Dynamic Documents for r. https://github.com/rstudio/rmarkdown.
Xie, Yihui. 2023a. Bookdown: Authoring Books and Technical Documents with r Markdown. https://github.com/rstudio/bookdown.
———. 2023b. Knitr: A General-Purpose Package for Dynamic Report Generation in r. https://yihui.org/knitr/.
———. 2023c. Tinytex: Helper Functions to Install and Maintain TeX Live, and Compile LaTeX Documents. https://github.com/rstudio/tinytex.