# 背景介绍 开源项目的成功与否很大程度上有赖于贡献者的持续参与,其中长期贡献者尤为重要。开发者流失可能导致项目进展缓慢,缺乏新功能或改进,以及安全漏洞的长时间悬而未决。同时,开源项目的成功也吸引了很多公司的参与,比如Linux内核已经有超过1400家公司参与贡献。公司的撤资或减少投入可能会影响项目长期可持续性。因此,识别潜在的流失风险对开源项目的持续发展至关重要。本次赛题聚焦于预测开源软件项目中的贡献者流失(包括个体志愿者与公司两种类型),特别关注如Linux内核和Rust系统编程语言等基础开源软件项目以及国内兴起的开源项目。 ## 数据集提供 数据集以.csv文件格式提供,包括以下两个开源项目的commit数据: - **Linux内核**:时间范围为2001年9月17日至2023年11月22日。 - **Rust**:时间范围为2010年6月23日至2021年12月6日。 数据集涵盖以下字段(但不限于): - `author_name` - `author_email` - `author_date` - `subject` - `message` 此外,可以访问以下GitHub链接,获取两个项目的最新数据,自行构建和更新数据集: - [Linux内核](https://github.com/torvalds/linux) - [Rust](https://github.com/rust-lang/rust)