# 司法裁判大数据信息抽取 **Repository Path**: ma_baosen/information_extration_big_data ## Basic Information - **Project Name**: 司法裁判大数据信息抽取 - **Description**: 以原始的裁判文书为输入,利用正则表达式、CRF 等构造文本解析模型,从被告人信息、犯罪事实信息、判决结果信息三个维度抽取出 40+相关字段并结构化到数据库中 - **Primary Language**: Unknown - **License**: MulanPSL-1.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 14 - **Forks**: 6 - **Created**: 2020-08-18 - **Last Updated**: 2025-08-10 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 裁判文书信息提取 #### 介绍 研究并建设了国内首个司法裁判文书大数据智能分析的开放平台,以当事人为中心构建了结构化的司法大数据知识库和知识图谱。首次较为精准地构建了中国重新犯罪的指标体系。研究并实现了智能检索、网络关联分析、罪名和刑期预测等。平台的后端数据库搭建以及信息抽取,以原始的裁判文书为输入,利用正则表达式、CRF 等构造文本解析模型,从被告人信息、犯罪事实信息、判决结果信息三个维度抽取出 40+相关字段并结构化到数据库中。目前后台数据库已有关键字段 40+,包括报告人姓名、性别、民族、出生日期、教育程度、户籍等被告人信息,犯罪时间、犯罪地点、作案工具、犯罪原因等犯罪事实信息,罪名、刑期、法律条文、剥政年限等判决结果信息。字段平均准确率 97.92%,平均召回率 96.88%,平均 F1 值 97.35%。