D2RS-2026spring 数据分析

数据驱动的可重复性研究 - 课程教学项目

Published

April 3, 2026

欢迎来到 D2RS 课程

本项目是《数据驱动的可重复性研究》课程的教学实践平台,通过两个真实的数据分析案例,带您完整体验数据科学的 Whole Game——从原始数据获取到洞察生成的完整流程。


项目概览

什么是 Whole Game?

“Whole Game” 是数据科学教育中的重要概念,强调先让学生经历一个完整的数据科学项目,建立全局视野,再深入各个技术细节。这种方法比传统的分章教学更能帮助学生理解数据科学的全貌。

了解更多 →

两个核心案例

案例 数据来源 核心技能
Issue #1 - 学生申请分析 GitHub Issue 评论 API 调用、正则表达式、数据验证、描述性统计
Issue #2 - AI 模型投票分析 GitHub Issue 评论 排序数据分析、数据透视、多维度可视化

课程学习目标

完成本课程学习后,您将掌握以下核心能力:

技术技能

  1. GitHub 协作基础
    • Issue 的使用与 Markdown 格式
    • Git 版本控制基础
    • GitHub Flow 工作流
  2. API 数据获取
    • 理解 RESTful API 概念
    • 使用 gh 包访问 GitHub API
    • 处理分页和认证
  3. 数据清洗与处理
    • 正则表达式文本解析
    • dplyr 管道操作
    • 数据验证与质量控制
  4. 数据可视化
    • ggplot2 图形语法
    • 选择合适的图表类型
    • 解决中文显示问题
  5. 可复现报告
    • Quarto 文档编写
    • 整合代码与叙述
    • 自动化报告生成

思维方法

  • 数据驱动决策:用数据而非直觉做判断
  • 可复现研究:确保分析过程和结果可以被复现
  • 迭代式探索:通过可视化不断探索数据
  • 批判性思维:质疑数据来源、质量和潜在偏差

网站导航

📚 学习路径

  1. 课程导论 —— 理解数据科学的 Whole Game 概念,了解学习路径
  2. 技术工具详解 —— 深入了解本项目使用的 R 包和技术栈
  3. Issue #1 分析 —— 学习从非结构化文本中提取结构化数据
  4. Issue #2 分析 —— 学习排序数据的分析方法

📊 实时数据


技术栈

本项目采用现代化的数据科学工具链:

类别 工具/包 用途
文档系统 Quarto 可复现计算文档
编程语言 R 数据分析和可视化
数据处理 dplyr, tidyr 数据操作和整理
文本处理 stringr 正则表达式和字符串处理
可视化 ggplot2 统计图形
表格展示 DT 交互式数据表格
API 访问 gh GitHub API 封装
字体渲染 showtext 中文显示支持

查看详细工具说明 →


课程特色

🎯 实践导向

  • 真实数据:所有数据来自真实的 GitHub Issue 互动
  • 完整流程:覆盖数据获取、清洗、分析、可视化、报告的全流程
  • 即时反馈:代码修改后可立即看到结果

📖 循序渐进

  • 先见森林,再见树木:先理解整体流程,再深入技术细节
  • 知识点详解:每个技术点都有详细的概念解释和代码注释
  • 最佳实践:展示数据科学的专业规范

🔗 互联互通

  • GitHub 集成:与课程组织的 GitHub 仓库紧密集成
  • 自动化更新:数据每天自动从 GitHub API 获取
  • 可交互报告:生成的网站支持交互式表格和搜索

快速开始

对于学生

  1. Issue #1 中回复,提交您的学号和感兴趣方向
  2. Issue #2 中回复,投票选出您认为最优秀的 AI 模型
  3. 阅读 课程导论,了解数据科学的基本概念
  4. 跟随 Issue #1 分析,学习数据获取和清洗
  5. 探索 Issue #2 分析,了解排序数据的分析

对于开发者

# 克隆仓库
git clone https://github.com/D2RS-2026spring/members.git
cd members

# 本地预览
quarto preview

# 渲染网站
quarto render

延伸阅读


“数据科学不仅仅是关于数据,更是关于提出正确的问题,并用数据来回答它们。”

准备好了吗?让我们开始数据科学之旅! → 课程导论