You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

24 lines
1.3 KiB

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# 背景介绍
开源项目的成功与否很大程度上有赖于贡献者的持续参与其中长期贡献者尤为重要。开发者流失可能导致项目进展缓慢缺乏新功能或改进以及安全漏洞的长时间悬而未决。同时开源项目的成功也吸引了很多公司的参与比如Linux内核已经有超过1400家公司参与贡献。公司的撤资或减少投入可能会影响项目长期可持续性。因此识别潜在的流失风险对开源项目的持续发展至关重要。本次赛题聚焦于预测开源软件项目中的贡献者流失包括个体志愿者与公司两种类型特别关注如Linux内核和Rust系统编程语言等基础开源软件项目以及国内兴起的开源项目。
## 数据集提供
数据集以.csv文件格式提供包括以下两个开源项目的commit数据
- **Linux内核**时间范围为2001年9月17日至2023年11月22日。
- **Rust**时间范围为2010年6月23日至2021年12月6日。
数据集涵盖以下字段(但不限于):
- `author_name`
- `author_email`
- `author_date`
- `subject`
- `message`
此外可以访问以下GitHub链接获取两个项目的最新数据自行构建和更新数据集
- [Linux内核](https://github.com/torvalds/linux)
- [Rust](https://github.com/rust-lang/rust)