# 机器学习loveDP **Repository Path**: ecustworker123/machine-learning-love-dp ## Basic Information - **Project Name**: 机器学习loveDP - **Description**: 魔鬼的复现 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-02-27 - **Last Updated**: 2024-02-27 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 机器学习loveDP ## 介绍 本项目主要提供复现机器学习在缺陷预测领域的相关框架 ## 环境配置 1. conda ## 使用说明 1. 项目统一输入输出设置: 1. 训练模型统一输入basepath,自动获取该path下所有的数据集 2. 指标计算部分 2. xxxx 3. xxxx ## 文件说明 ### 数据集文件夹(datasets) > 数据集来源为文章题目 1. NASA数据集:有两类数据集 来源:Data quality: Some comments on the nasa software defect datasets 2. PROMISE数据集: 来源:The promise repository of empirical software engineering data 3. AEEEM: 来源:Evaluating defect prediction approaches: A benchmark and an extensive comparison 4. JIRA数据集: 来源:https://ieeexplore.ieee.org/document/8811982 标签情况:包含启发式标签和真实标签和缺陷数量标签 代码库情况:9个代码仓库,每个至少有3个版本 指标情况: * 54个代码指标(3个维度) * 复杂性complexity(例如,McCabe Cyclomatic) * 体积volume(例如,代码行LOC) * 面向对象object-oriented(例如,对象类之间的耦合) * 5个过程指标 * COMM * ADDED_LINES * DEL_LINES * ADDEV(活动开发人员数) * DDEV(非重复开发人员数) * 6个所有权指标 * 主要作者、次要作者、最高作者的提交数和代码行数 1. 使用开发人员所做的代码更改占总代码更改的比例来衡量每个开发人员的所有权 2. 考虑两种代码更改的粒度,即代码级别 (LINE) 和提交级别 (COMMIT) 的行数 3. 将开发人员分为两个模块所有权级别,主要作者和次要作者,贡献率阈值5% ### data_process: * data_description:描述数据基本属性 * data scenario: * WPDP:项目内预测 * CVDP:跨版本预测 * CPDP:跨项目预测 * class_imbalance: * 处理类不平衡的几种情况 ### Model: * classification model:二分类模型 * count_model:回归模型 * oneclass_classification:单分类模型 ### Evolution Measures:相关指标计算 * binary classification:二分类计算 * count model:计数模型 * effort-aware:工作量感知 ## 复现的文章汇总 ### TSE 1. GONG L, RAJBAHADUR G K, HASSAN A E, et al. Revisiting the Impact of Dependency Network Metrics on Software Defect Prediction[J]. IEEE Transactions on Software Engineering, 2022, 48(12): 5030-5049. 2. GONG L, ZHANG H, ZHANG J, et al. A Comprehensive Investigation of the Impact of Class Overlap on Software Defect Prediction[J]. IEEE Transactions on Software Engineering, 2023, 49(4): 2440-2458. ### ICSE 1. YATISH S, JIARPAKDEE J, THONGTANUNAM P, et al. Mining Software Defects: Should We Consider Affected Releases?[C]//2019 IEEE/ACM 41st International Conference on Software Engineering (ICSE). 2019: 654-665. ### ISSTA 1. MOUSSA R, SARRO F. On the use of evaluation measures for defect prediction studies[C]//Proceedings of the 31st ACM SIGSOFT International Symposium on Software Testing and Analysis. New York, NY, USA: Association for Computing Machinery, 2022: 101-113. ### ESEM 1. ÇARKA J, ESPOSITO M, FALESSI D. On effort-aware metrics for defect prediction[J]. Empirical Software Engineering, 2022, 27(6): 152. ### JSS ### ITS ## 将来可能实现的功能 1. CPDP数据集选择优化 2. 特征选择 ## 辅助与更多 0. markdown的语法说明文档https://markdown.com.cn/basic-syntax/headings.html 1. 使用 Readme\_XXX.md 来支持不同的语言,例如 Readme\_en.md, Readme\_zh.md 2. Gitee 官方博客 [blog.gitee.com](https://blog.gitee.com) 3. 你可以 [https://gitee.com/explore](https://gitee.com/explore) 这个地址来了解 Gitee 上的优秀开源项目 4. [GVP](https://gitee.com/gvp) 全称是 Gitee 最有价值开源项目,是综合评定出的优秀开源项目 5. Gitee 官方提供的使用手册 [https://gitee.com/help](https://gitee.com/help) 6. Gitee 封面人物是一档用来展示 Gitee 会员风采的栏目 [https://gitee.com/gitee-stars/](https://gitee.com/gitee-stars/)