feat: 将数据集从国外员工缺勤数据替换为中国企业缺勤模拟数据
- 新增中国企业员工缺勤模拟数据集生成脚本(generate_dataset.py),覆盖7个行业、180家企业、2600名员工 - 重构 config.py,更新特征字段为中文名称,调整目标列、员工ID、行业类型等配置 - 重构 clustering.py,简化聚类逻辑,更新聚类特征和群体命名(高压通勤型、健康波动型等) - 重构 feature_mining.py,更新相关性分析和群体比较维度(按行业、班次、婚姻状态等) - 新增 model_features.py 定义模型训练特征 - 更新 preprocessing.py 和 train_model.py 适配新数据结构 - 更新各 API 路由默认参数(model: random_forest, dimension: industry) - 前端更新主题样式和各视图组件适配中文字段 - 更新系统名称为 China Enterprise Absence Analysis System
This commit is contained in:
227
中国企业缺勤模拟数据集说明.md
Normal file
227
中国企业缺勤模拟数据集说明.md
Normal file
@@ -0,0 +1,227 @@
|
||||
# 中国企业缺勤模拟数据集说明
|
||||
|
||||
## 1. 数据集概述
|
||||
|
||||
- 数据文件:`backend/data/raw/china_enterprise_absence_events.csv`
|
||||
- 数据定位:中国企业员工缺勤事件模拟数据集
|
||||
- 数据来源:项目内部独立模拟生成,与原 `UCI Absenteeism` 数据集无任何字段映射和业务关联
|
||||
- 样本粒度:每一行表示一次员工缺勤事件
|
||||
- 样本量:`12000` 条
|
||||
- 员工覆盖数:`2575`
|
||||
- 企业覆盖数:`180`
|
||||
- 行业覆盖数:`7`
|
||||
- 字段总数:`52`
|
||||
- 预测目标:`缺勤时长(小时)`
|
||||
|
||||
## 2. 目标变量分布
|
||||
|
||||
目标列为 `缺勤时长(小时)`,当前统计结果如下:
|
||||
|
||||
| 指标 | 数值 |
|
||||
|---|---:|
|
||||
| count | 12000.00 |
|
||||
| mean | 6.36 |
|
||||
| std | 2.26 |
|
||||
| min | 0.50 |
|
||||
| 25% | 4.70 |
|
||||
| 50% | 6.30 |
|
||||
| 75% | 7.80 |
|
||||
| max | 16.70 |
|
||||
|
||||
风险分层说明:
|
||||
|
||||
- 低风险:`0-4` 小时
|
||||
- 中风险:`4-8` 小时
|
||||
- 高风险:`8-12` 小时
|
||||
- 极高风险:`12+` 小时
|
||||
|
||||
当前目标分布:
|
||||
|
||||
- 低风险约 `15.66%`
|
||||
- 中风险约 `63.29%`
|
||||
- 高风险约 `19.10%`
|
||||
- 极高风险约 `1.95%`
|
||||
- 高风险及以上(`>8` 小时)占比约 `21.05%`
|
||||
|
||||
该分布特征为“中风险为主、少量高风险、极端长缺勤较少”,适合用于回归预测与风险分层分析。
|
||||
|
||||
## 3. 字段设计原则
|
||||
|
||||
- 字段语义贴合中国企业实际 HR、考勤、排班、请假管理场景
|
||||
- 不包含身份证号、手机号、详细住址等敏感信息
|
||||
- 类别字段以有限枚举为主,方便前端表单录入和模型编码
|
||||
- 数值字段控制在合理范围内,避免训练时出现大面积异常值
|
||||
- 通过规则驱动加扰动的方式生成数据,使关键特征与目标值之间存在稳定、可学习的关系
|
||||
|
||||
## 4. 字段清单
|
||||
|
||||
### 4.1 企业与组织字段
|
||||
|
||||
| 字段名 | 含义 |
|
||||
|---|---|
|
||||
| 企业编号 | 企业主体唯一标识 |
|
||||
| 所属行业 | 企业所属行业,如制造业、互联网、物流运输等 |
|
||||
| 企业规模 | 企业员工规模分层 |
|
||||
| 所在城市等级 | 企业所在城市层级 |
|
||||
| 用工类型 | 正式员工、派遣、外包、实习等 |
|
||||
| 部门条线 | 员工所属业务或职能条线 |
|
||||
| 岗位序列 | 岗位类别,如管理、专业技术、生产操作等 |
|
||||
| 岗位级别 | 岗位层级,如初级、中级、高级、主管等 |
|
||||
|
||||
### 4.2 员工基础字段
|
||||
|
||||
| 字段名 | 含义 |
|
||||
|---|---|
|
||||
| 员工编号 | 员工唯一标识 |
|
||||
| 性别 | 员工性别 |
|
||||
| 年龄 | 员工年龄 |
|
||||
| 司龄年数 | 员工在当前企业工作年限 |
|
||||
| 最高学历 | 员工最高学历层次 |
|
||||
| 婚姻状态 | 未婚、已婚、离异/其他 |
|
||||
| 是否本地户籍 | 是否为企业所在城市本地户籍 |
|
||||
| 子女数量 | 子女人数 |
|
||||
| 是否独生子女家庭负担 | 是否存在较高家庭抚养压力 |
|
||||
| 居住类型 | 自有住房、租房、宿舍 |
|
||||
|
||||
### 4.3 工作负荷与出勤环境字段
|
||||
|
||||
| 字段名 | 含义 |
|
||||
|---|---|
|
||||
| 班次类型 | 标准白班、两班倒、三班倒、弹性班 |
|
||||
| 是否夜班岗位 | 是否属于夜班场景 |
|
||||
| 月均加班时长 | 月均加班小时数 |
|
||||
| 近30天出勤天数 | 近30天实际出勤天数 |
|
||||
| 近90天缺勤次数 | 近90天缺勤事件次数 |
|
||||
| 近180天请假总时长 | 近180天累计请假时长 |
|
||||
| 通勤时长分钟 | 单程或综合通勤时长 |
|
||||
| 通勤距离公里 | 通勤距离 |
|
||||
| 是否跨城通勤 | 是否存在跨城通勤情况 |
|
||||
| 绩效等级 | A/B/C/D 绩效等级 |
|
||||
| 近12月违纪次数 | 最近一年违纪次数 |
|
||||
| 团队人数 | 员工所在团队人数 |
|
||||
| 直属上级管理跨度 | 上级管理人数范围 |
|
||||
|
||||
### 4.4 健康与生活方式字段
|
||||
|
||||
| 字段名 | 含义 |
|
||||
|---|---|
|
||||
| BMI | 身体质量指数 |
|
||||
| 是否慢性病史 | 是否存在慢性病史 |
|
||||
| 年度体检异常标记 | 年度体检是否存在异常 |
|
||||
| 近30天睡眠时长均值 | 近30天平均睡眠时长 |
|
||||
| 每周运动频次 | 每周运动次数 |
|
||||
| 是否吸烟 | 是否吸烟 |
|
||||
| 是否饮酒 | 是否饮酒 |
|
||||
| 心理压力等级 | 低、中、高 |
|
||||
| 是否长期久坐岗位 | 是否属于长期久坐岗位 |
|
||||
|
||||
### 4.5 缺勤事件字段
|
||||
|
||||
| 字段名 | 含义 |
|
||||
|---|---|
|
||||
| 缺勤月份 | 本次缺勤发生月份 |
|
||||
| 星期几 | 本次缺勤发生星期 |
|
||||
| 是否节假日前后 | 是否发生在节假日前后窗口期 |
|
||||
| 季节 | 冬季、春季、夏季、秋季 |
|
||||
| 请假申请渠道 | 系统申请、主管代提、临时电话报备 |
|
||||
| 请假类型 | 病假、事假、年假、调休、婚假、丧假、产检育儿假、工伤假、其他 |
|
||||
| 请假原因大类 | 身体不适、家庭事务、子女照护、交通受阻、突发事件、职业疲劳、就医复查 |
|
||||
| 是否提供医院证明 | 是否提供医院证明材料 |
|
||||
| 是否临时请假 | 是否为临时发起请假 |
|
||||
| 是否连续缺勤 | 是否存在连续缺勤现象 |
|
||||
| 前一工作日是否加班 | 缺勤前一个工作日是否加班 |
|
||||
| 缺勤时长(小时) | 本次缺勤事件持续时长,预测目标列 |
|
||||
|
||||
## 5. 数值字段范围概览
|
||||
|
||||
| 字段名 | 均值 | 最小值 | 最大值 |
|
||||
|---|---:|---:|---:|
|
||||
| 年龄 | 32.66 | 20.00 | 55.00 |
|
||||
| 司龄年数 | 11.74 | 0.20 | 32.00 |
|
||||
| 月均加班时长 | 34.84 | 4.10 | 66.10 |
|
||||
| 通勤时长分钟 | 41.38 | 8.00 | 109.70 |
|
||||
| 通勤距离公里 | 22.74 | 2.80 | 65.00 |
|
||||
| BMI | 24.30 | 17.50 | 36.50 |
|
||||
| 近30天睡眠时长均值 | 6.78 | 4.50 | 9.00 |
|
||||
| 每周运动频次 | 2.15 | 0.00 | 7.00 |
|
||||
| 近90天缺勤次数 | 1.33 | 0.00 | 7.00 |
|
||||
| 近180天请假总时长 | 22.92 | 0.00 | 65.90 |
|
||||
|
||||
## 6. 结构性分布信息
|
||||
|
||||
- 夜班岗位占比约 `30.86%`
|
||||
- 节假日前后事件占比约 `23.43%`
|
||||
- 提供医院证明占比约 `58.49%`
|
||||
- 慢性病史占比约 `7.92%`
|
||||
- 星期分布基本均衡
|
||||
- 季节分布基本均衡
|
||||
|
||||
## 7. 行业层面的平均缺勤时长
|
||||
|
||||
| 行业 | 样本数 | 平均缺勤时长 |
|
||||
|---|---:|---:|
|
||||
| 制造业 | 2366 | 6.671 |
|
||||
| 物流运输 | 1679 | 6.665 |
|
||||
| 互联网 | 1434 | 6.374 |
|
||||
| 建筑工程 | 1101 | 6.252 |
|
||||
| 医药健康 | 2274 | 6.208 |
|
||||
| 零售连锁 | 1820 | 6.197 |
|
||||
| 金融服务 | 1326 | 6.016 |
|
||||
|
||||
可见制造业、物流运输的缺勤时长整体偏高,金融服务相对较低,符合行业工作强度与排班特征差异。
|
||||
|
||||
## 8. 请假类型与目标变量关系
|
||||
|
||||
| 请假类型 | 样本数 | 平均缺勤时长 |
|
||||
|---|---:|---:|
|
||||
| 工伤假 | 258 | 11.092 |
|
||||
| 婚假 | 336 | 9.768 |
|
||||
| 丧假 | 238 | 9.437 |
|
||||
| 病假 | 3574 | 7.638 |
|
||||
| 产检育儿假 | 743 | 7.536 |
|
||||
| 事假 | 2612 | 5.998 |
|
||||
| 其他 | 1045 | 5.597 |
|
||||
| 调休 | 1708 | 4.252 |
|
||||
| 年假 | 1486 | 4.240 |
|
||||
|
||||
该分布说明请假类型对目标值具有明显区分度,是模型的重要信号源之一。
|
||||
|
||||
## 9. 请假原因大类与目标变量关系
|
||||
|
||||
| 请假原因大类 | 样本数 | 平均缺勤时长 |
|
||||
|---|---:|---:|
|
||||
| 就医复查 | 1503 | 7.073 |
|
||||
| 身体不适 | 3194 | 6.824 |
|
||||
| 子女照护 | 611 | 6.485 |
|
||||
| 突发事件 | 1223 | 6.109 |
|
||||
| 职业疲劳 | 2261 | 6.096 |
|
||||
| 家庭事务 | 2161 | 5.907 |
|
||||
| 交通受阻 | 1047 | 5.689 |
|
||||
|
||||
## 10. 数据集适用场景
|
||||
|
||||
本数据集适用于以下任务:
|
||||
|
||||
- 员工缺勤时长回归预测
|
||||
- 缺勤风险分层预警
|
||||
- 特征重要性分析
|
||||
- 行业/岗位/班次群体对比
|
||||
- 员工群体聚类画像
|
||||
- 前端数据可视化展示与业务汇报
|
||||
|
||||
## 11. 使用说明
|
||||
|
||||
- 生成脚本:`backend/core/generate_dataset.py`
|
||||
- 训练脚本:`backend/core/train_model.py`
|
||||
- 预处理入口:`backend/core/preprocessing.py`
|
||||
|
||||
如果需要重新生成全新数据集,可删除旧文件后重新执行:
|
||||
|
||||
```powershell
|
||||
cd backend
|
||||
python core/generate_dataset.py
|
||||
```
|
||||
|
||||
## 12. 说明
|
||||
|
||||
该数据集为模拟数据,不对应任何真实企业、真实员工或真实业务记录,仅用于毕业设计系统中的算法训练、接口联调与前端展示。
|
||||
Reference in New Issue
Block a user