D2RS-2026spring 数据分析
数据驱动的可重复性研究 - 课程教学项目
欢迎来到 D2RS 课程
本项目是《数据驱动的可重复性研究》课程的教学实践平台,通过两个真实的数据分析案例,带您完整体验数据科学的 Whole Game——从原始数据获取到洞察生成的完整流程。
项目概览
什么是 Whole Game?
“Whole Game” 是数据科学教育中的重要概念,强调先让学生经历一个完整的数据科学项目,建立全局视野,再深入各个技术细节。这种方法比传统的分章教学更能帮助学生理解数据科学的全貌。
两个核心案例
| 案例 | 数据来源 | 核心技能 |
|---|---|---|
| Issue #1 - 学生申请分析 | GitHub Issue 评论 | API 调用、正则表达式、数据验证、描述性统计 |
| Issue #2 - AI 模型投票分析 | GitHub Issue 评论 | 排序数据分析、数据透视、多维度可视化 |
课程学习目标
完成本课程学习后,您将掌握以下核心能力:
技术技能
- GitHub 协作基础
- Issue 的使用与 Markdown 格式
- Git 版本控制基础
- GitHub Flow 工作流
- API 数据获取
- 理解 RESTful API 概念
- 使用
gh包访问 GitHub API - 处理分页和认证
- 数据清洗与处理
- 正则表达式文本解析
dplyr管道操作- 数据验证与质量控制
- 数据可视化
ggplot2图形语法- 选择合适的图表类型
- 解决中文显示问题
- 可复现报告
- Quarto 文档编写
- 整合代码与叙述
- 自动化报告生成
思维方法
- 数据驱动决策:用数据而非直觉做判断
- 可复现研究:确保分析过程和结果可以被复现
- 迭代式探索:通过可视化不断探索数据
- 批判性思维:质疑数据来源、质量和潜在偏差
网站导航
📚 学习路径
- 课程导论 —— 理解数据科学的 Whole Game 概念,了解学习路径
- 技术工具详解 —— 深入了解本项目使用的 R 包和技术栈
- Issue #1 分析 —— 学习从非结构化文本中提取结构化数据
- Issue #2 分析 —— 学习排序数据的分析方法
📊 实时数据
- 成员名单 —— 实时更新的学生申请信息表
技术栈
本项目采用现代化的数据科学工具链:
| 类别 | 工具/包 | 用途 |
|---|---|---|
| 文档系统 | Quarto | 可复现计算文档 |
| 编程语言 | R | 数据分析和可视化 |
| 数据处理 | dplyr, tidyr | 数据操作和整理 |
| 文本处理 | stringr | 正则表达式和字符串处理 |
| 可视化 | ggplot2 | 统计图形 |
| 表格展示 | DT | 交互式数据表格 |
| API 访问 | gh | GitHub API 封装 |
| 字体渲染 | showtext | 中文显示支持 |
课程特色
🎯 实践导向
- 真实数据:所有数据来自真实的 GitHub Issue 互动
- 完整流程:覆盖数据获取、清洗、分析、可视化、报告的全流程
- 即时反馈:代码修改后可立即看到结果
📖 循序渐进
- 先见森林,再见树木:先理解整体流程,再深入技术细节
- 知识点详解:每个技术点都有详细的概念解释和代码注释
- 最佳实践:展示数据科学的专业规范
🔗 互联互通
- GitHub 集成:与课程组织的 GitHub 仓库紧密集成
- 自动化更新:数据每天自动从 GitHub API 获取
- 可交互报告:生成的网站支持交互式表格和搜索
快速开始
对于学生
- 在 Issue #1 中回复,提交您的学号和感兴趣方向
- 在 Issue #2 中回复,投票选出您认为最优秀的 AI 模型
- 阅读 课程导论,了解数据科学的基本概念
- 跟随 Issue #1 分析,学习数据获取和清洗
- 探索 Issue #2 分析,了解排序数据的分析
对于开发者
# 克隆仓库
git clone https://github.com/D2RS-2026spring/members.git
cd members
# 本地预览
quarto preview
# 渲染网站
quarto render延伸阅读
- R for Data Science —— 数据科学的完整指南
- Quarto 官方文档 —— 学习 Quarto 的全部功能
- GitHub API 文档 —— API 参考手册
- ggplot2: Elegant Graphics —— 可视化深度指南
“数据科学不仅仅是关于数据,更是关于提出正确的问题,并用数据来回答它们。”
准备好了吗?让我们开始数据科学之旅! → 课程导论