# CodeFeatureExtract **Repository Path**: snow-feather/code-feature-extract ## Basic Information - **Project Name**: CodeFeatureExtract - **Description**: 用于提取代码的原始特征和进一步的指标计算 - **Primary Language**: Python - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2022-10-21 - **Last Updated**: 2022-12-05 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 说明 # 改动 对实验代码的架构进行了比较大的调整,加入了数据集摘要的生成,样例代码见run_model_gxw.py文件,不明白可以直接复制该代码然后运行。 对部分源代码文件做了归档,目前关于代码透视和代码归属任务的代码存在src/tasks中 除非出现没法运行的bug,否则不要修改metadata.py文件中的内容.如果有需要,该文件的内容在每周讨论的时候会更新。 test_data/c存放c代码的feature文件夹,里边存放的应该是json格式 其他文件夹类似 test_data/mix存放的是语言混杂的feature 例如,如果一个java数据集名字为default_dataset,那么它存放的位置应该在test_data/java/default_dataset # 目前要做的是: 1. 检查cpp格式的代码提取格式,参照run_model_gxw.py编写 # 注意: 1. 提交代码的时候麻烦在提交信息里边注明自己的名字,具体修改了什么可以不写。 2. data,raw_data文件夹中的内容不会上传,用于存放全部的数据集,test_data中的内容会上传。 3. 每隔一段时间会对代码做归档处理,届时项目的文件路径可能会发生变化,所以有问题的话记得说。 4. 如果你修改了src目录下的代码,记得及时和我联系。