Files
forsetsystem/中国企业缺勤模拟数据集说明.md
shenjianZ e63267cef6 feat: 将数据集从国外员工缺勤数据替换为中国企业缺勤模拟数据
- 新增中国企业员工缺勤模拟数据集生成脚本(generate_dataset.py),覆盖7个行业、180家企业、2600名员工
  - 重构 config.py,更新特征字段为中文名称,调整目标列、员工ID、行业类型等配置
  - 重构 clustering.py,简化聚类逻辑,更新聚类特征和群体命名(高压通勤型、健康波动型等)
  - 重构 feature_mining.py,更新相关性分析和群体比较维度(按行业、班次、婚姻状态等)
  - 新增 model_features.py 定义模型训练特征
  - 更新 preprocessing.py 和 train_model.py 适配新数据结构
  - 更新各 API 路由默认参数(model: random_forest, dimension: industry)
  - 前端更新主题样式和各视图组件适配中文字段
  - 更新系统名称为 China Enterprise Absence Analysis System
2026-03-11 10:46:58 +08:00

7.5 KiB

中国企业缺勤模拟数据集说明

1. 数据集概述

  • 数据文件:backend/data/raw/china_enterprise_absence_events.csv
  • 数据定位:中国企业员工缺勤事件模拟数据集
  • 数据来源:项目内部独立模拟生成,与原 UCI Absenteeism 数据集无任何字段映射和业务关联
  • 样本粒度:每一行表示一次员工缺勤事件
  • 样本量:12000
  • 员工覆盖数:2575
  • 企业覆盖数:180
  • 行业覆盖数:7
  • 字段总数:52
  • 预测目标:缺勤时长(小时)

2. 目标变量分布

目标列为 缺勤时长(小时),当前统计结果如下:

指标 数值
count 12000.00
mean 6.36
std 2.26
min 0.50
25% 4.70
50% 6.30
75% 7.80
max 16.70

风险分层说明:

  • 低风险:0-4 小时
  • 中风险:4-8 小时
  • 高风险:8-12 小时
  • 极高风险:12+ 小时

当前目标分布:

  • 低风险约 15.66%
  • 中风险约 63.29%
  • 高风险约 19.10%
  • 极高风险约 1.95%
  • 高风险及以上(>8 小时)占比约 21.05%

该分布特征为“中风险为主、少量高风险、极端长缺勤较少”,适合用于回归预测与风险分层分析。

3. 字段设计原则

  • 字段语义贴合中国企业实际 HR、考勤、排班、请假管理场景
  • 不包含身份证号、手机号、详细住址等敏感信息
  • 类别字段以有限枚举为主,方便前端表单录入和模型编码
  • 数值字段控制在合理范围内,避免训练时出现大面积异常值
  • 通过规则驱动加扰动的方式生成数据,使关键特征与目标值之间存在稳定、可学习的关系

4. 字段清单

4.1 企业与组织字段

字段名 含义
企业编号 企业主体唯一标识
所属行业 企业所属行业,如制造业、互联网、物流运输等
企业规模 企业员工规模分层
所在城市等级 企业所在城市层级
用工类型 正式员工、派遣、外包、实习等
部门条线 员工所属业务或职能条线
岗位序列 岗位类别,如管理、专业技术、生产操作等
岗位级别 岗位层级,如初级、中级、高级、主管等

4.2 员工基础字段

字段名 含义
员工编号 员工唯一标识
性别 员工性别
年龄 员工年龄
司龄年数 员工在当前企业工作年限
最高学历 员工最高学历层次
婚姻状态 未婚、已婚、离异/其他
是否本地户籍 是否为企业所在城市本地户籍
子女数量 子女人数
是否独生子女家庭负担 是否存在较高家庭抚养压力
居住类型 自有住房、租房、宿舍

4.3 工作负荷与出勤环境字段

字段名 含义
班次类型 标准白班、两班倒、三班倒、弹性班
是否夜班岗位 是否属于夜班场景
月均加班时长 月均加班小时数
近30天出勤天数 近30天实际出勤天数
近90天缺勤次数 近90天缺勤事件次数
近180天请假总时长 近180天累计请假时长
通勤时长分钟 单程或综合通勤时长
通勤距离公里 通勤距离
是否跨城通勤 是否存在跨城通勤情况
绩效等级 A/B/C/D 绩效等级
近12月违纪次数 最近一年违纪次数
团队人数 员工所在团队人数
直属上级管理跨度 上级管理人数范围

4.4 健康与生活方式字段

字段名 含义
BMI 身体质量指数
是否慢性病史 是否存在慢性病史
年度体检异常标记 年度体检是否存在异常
近30天睡眠时长均值 近30天平均睡眠时长
每周运动频次 每周运动次数
是否吸烟 是否吸烟
是否饮酒 是否饮酒
心理压力等级 低、中、高
是否长期久坐岗位 是否属于长期久坐岗位

4.5 缺勤事件字段

字段名 含义
缺勤月份 本次缺勤发生月份
星期几 本次缺勤发生星期
是否节假日前后 是否发生在节假日前后窗口期
季节 冬季、春季、夏季、秋季
请假申请渠道 系统申请、主管代提、临时电话报备
请假类型 病假、事假、年假、调休、婚假、丧假、产检育儿假、工伤假、其他
请假原因大类 身体不适、家庭事务、子女照护、交通受阻、突发事件、职业疲劳、就医复查
是否提供医院证明 是否提供医院证明材料
是否临时请假 是否为临时发起请假
是否连续缺勤 是否存在连续缺勤现象
前一工作日是否加班 缺勤前一个工作日是否加班
缺勤时长(小时) 本次缺勤事件持续时长,预测目标列

5. 数值字段范围概览

字段名 均值 最小值 最大值
年龄 32.66 20.00 55.00
司龄年数 11.74 0.20 32.00
月均加班时长 34.84 4.10 66.10
通勤时长分钟 41.38 8.00 109.70
通勤距离公里 22.74 2.80 65.00
BMI 24.30 17.50 36.50
近30天睡眠时长均值 6.78 4.50 9.00
每周运动频次 2.15 0.00 7.00
近90天缺勤次数 1.33 0.00 7.00
近180天请假总时长 22.92 0.00 65.90

6. 结构性分布信息

  • 夜班岗位占比约 30.86%
  • 节假日前后事件占比约 23.43%
  • 提供医院证明占比约 58.49%
  • 慢性病史占比约 7.92%
  • 星期分布基本均衡
  • 季节分布基本均衡

7. 行业层面的平均缺勤时长

行业 样本数 平均缺勤时长
制造业 2366 6.671
物流运输 1679 6.665
互联网 1434 6.374
建筑工程 1101 6.252
医药健康 2274 6.208
零售连锁 1820 6.197
金融服务 1326 6.016

可见制造业、物流运输的缺勤时长整体偏高,金融服务相对较低,符合行业工作强度与排班特征差异。

8. 请假类型与目标变量关系

请假类型 样本数 平均缺勤时长
工伤假 258 11.092
婚假 336 9.768
丧假 238 9.437
病假 3574 7.638
产检育儿假 743 7.536
事假 2612 5.998
其他 1045 5.597
调休 1708 4.252
年假 1486 4.240

该分布说明请假类型对目标值具有明显区分度,是模型的重要信号源之一。

9. 请假原因大类与目标变量关系

请假原因大类 样本数 平均缺勤时长
就医复查 1503 7.073
身体不适 3194 6.824
子女照护 611 6.485
突发事件 1223 6.109
职业疲劳 2261 6.096
家庭事务 2161 5.907
交通受阻 1047 5.689

10. 数据集适用场景

本数据集适用于以下任务:

  • 员工缺勤时长回归预测
  • 缺勤风险分层预警
  • 特征重要性分析
  • 行业/岗位/班次群体对比
  • 员工群体聚类画像
  • 前端数据可视化展示与业务汇报

11. 使用说明

  • 生成脚本:backend/core/generate_dataset.py
  • 训练脚本:backend/core/train_model.py
  • 预处理入口:backend/core/preprocessing.py

如果需要重新生成全新数据集,可删除旧文件后重新执行:

cd backend
python core/generate_dataset.py

12. 说明

该数据集为模拟数据,不对应任何真实企业、真实员工或真实业务记录,仅用于毕业设计系统中的算法训练、接口联调与前端展示。