中国企业缺勤模拟数据集说明
1. 数据集概述
- 数据文件:
backend/data/raw/china_enterprise_absence_events.csv
- 数据定位:中国企业员工缺勤事件模拟数据集
- 数据来源:项目内部独立模拟生成,并补充
JD-R 理论相关字段,不与原 UCI Absenteeism 数据集做字段映射
- 样本粒度:每一行表示一次员工缺勤事件
- 样本量:
12000 条
- 员工覆盖数:
2575
- 企业覆盖数:
180
- 行业覆盖数:
7
- 字段总数:
73
- 预测目标:
缺勤时长(小时)
2. 目标变量分布
目标列为 缺勤时长(小时),当前统计结果如下:
| 指标 |
数值 |
| count |
12000.00 |
| mean |
6.36 |
| std |
2.26 |
| min |
0.50 |
| 25% |
4.70 |
| 50% |
6.30 |
| 75% |
7.80 |
| max |
16.70 |
风险分层说明:
- 低风险:
0-4 小时
- 中风险:
4-8 小时
- 高风险:
8-12 小时
- 极高风险:
12+ 小时
当前目标分布:
- 低风险约
15.66%
- 中风险约
63.29%
- 高风险约
19.10%
- 极高风险约
1.95%
- 高风险及以上(
>8 小时)占比约 21.05%
该分布特征为“中风险为主、少量高风险、极端长缺勤较少”,适合用于回归预测、风险分层分析和可解释建模。
3. 字段设计原则
- 字段语义贴合中国企业实际 HR、考勤、排班、请假管理场景
- 不包含身份证号、手机号、详细住址等敏感信息
- 类别字段以有限枚举为主,方便前端表单录入和模型编码
- 数值字段控制在合理范围内,避免训练时出现大面积异常值
- 通过规则驱动加扰动的方式生成数据,使关键特征与目标值之间存在稳定、可学习的关系
- 通过
JD-R 理论变量补充“为什么员工会缺勤”的解释维度
4. 字段清单
4.1 企业与组织字段
| 字段名 |
含义 |
| 企业编号 |
企业主体唯一标识 |
| 所属行业 |
企业所属行业,如制造业、互联网、物流运输等 |
| 企业规模 |
企业员工规模分层 |
| 所在城市等级 |
企业所在城市层级 |
| 用工类型 |
正式员工、派遣、外包、实习等 |
| 部门条线 |
员工所属业务或职能条线 |
| 岗位序列 |
岗位类别,如管理、专业技术、生产操作等 |
| 岗位级别 |
岗位层级,如初级、中级、高级、主管等 |
4.2 员工基础字段
| 字段名 |
含义 |
| 员工编号 |
员工唯一标识 |
| 性别 |
员工性别 |
| 年龄 |
员工年龄 |
| 司龄年数 |
员工在当前企业工作年限 |
| 最高学历 |
员工最高学历层次 |
| 婚姻状态 |
未婚、已婚、离异/其他 |
| 是否本地户籍 |
是否为企业所在城市本地户籍 |
| 子女数量 |
子女人数 |
| 是否独生子女家庭负担 |
是否存在较高家庭抚养压力 |
| 居住类型 |
自有住房、租房、宿舍 |
4.3 工作负荷与出勤环境字段
| 字段名 |
含义 |
| 班次类型 |
标准白班、两班倒、三班倒、弹性班 |
| 是否夜班岗位 |
是否属于夜班场景 |
| 月均加班时长 |
月均加班小时数 |
| 近30天出勤天数 |
近30天实际出勤天数 |
| 近90天缺勤次数 |
近90天缺勤事件次数 |
| 近180天请假总时长 |
近180天累计请假时长 |
| 通勤时长分钟 |
单程或综合通勤时长 |
| 通勤距离公里 |
通勤距离 |
| 是否跨城通勤 |
是否存在跨城通勤情况 |
| 绩效等级 |
A/B/C/D 绩效等级 |
| 近12月违纪次数 |
最近一年违纪次数 |
| 团队人数 |
员工所在团队人数 |
| 直属上级管理跨度 |
上级管理人数范围 |
4.4 健康与生活方式字段
| 字段名 |
含义 |
| BMI |
身体质量指数 |
| 是否慢性病史 |
是否存在慢性病史 |
| 年度体检异常标记 |
年度体检是否存在异常 |
| 近30天睡眠时长均值 |
近30天平均睡眠时长 |
| 每周运动频次 |
每周运动次数 |
| 是否吸烟 |
是否吸烟 |
| 是否饮酒 |
是否饮酒 |
| 心理压力等级 |
低、中、高 |
| 是否长期久坐岗位 |
是否属于长期久坐岗位 |
4.5 缺勤事件字段
| 字段名 |
含义 |
| 缺勤月份 |
本次缺勤发生月份 |
| 星期几 |
本次缺勤发生星期 |
| 是否节假日前后 |
是否发生在节假日前后窗口期 |
| 季节 |
冬季、春季、夏季、秋季 |
| 请假申请渠道 |
系统申请、主管代提、临时电话报备 |
| 请假类型 |
病假、事假、年假、调休、婚假、丧假、产检育儿假、工伤假、其他 |
| 请假原因大类 |
身体不适、家庭事务、子女照护、交通受阻、突发事件、职业疲劳、就医复查 |
| 是否提供医院证明 |
是否提供医院证明材料 |
| 是否临时请假 |
是否为临时发起请假 |
| 是否连续缺勤 |
是否存在连续缺勤现象 |
| 前一工作日是否加班 |
缺勤前一个工作日是否加班 |
| 缺勤时长(小时) |
本次缺勤事件持续时长,预测目标列 |
| 事件日期 |
缺勤事件发生日期 |
| 事件日期索引 |
便于排序和构造时间窗口的数值索引 |
| 事件序号 |
员工历史事件顺序 |
| 员工历史事件数 |
员工在样本中的事件累计数 |
4.6 JD-R 理论字段
| 字段名 |
含义 |
| 工作自主性 |
员工对工作节奏与方式的控制程度 |
| 情绪劳动强度 |
岗位中的情绪管理与情绪付出要求 |
| 时间压力感知 |
员工主观感受到的时间紧迫程度 |
| 角色模糊度 |
岗位职责边界不清晰程度 |
| 工作家庭冲突 |
工作要求对家庭角色造成的冲突程度 |
| 上级支持 |
员工感知到的管理支持程度 |
| 同事支持 |
员工感知到的同伴支持程度 |
| 技能多样性 |
工作内容和技能运用的丰富程度 |
| 职业发展机会 |
员工感知到的发展与晋升空间 |
| 参与决策 |
员工参与工作决策的程度 |
| 组织公平感 |
员工对组织规则与分配公平的感知 |
| 自我效能感 |
员工对自身胜任任务能力的信心 |
| 心理韧性 |
员工面对压力和变化时的恢复能力 |
| 乐观程度 |
员工对工作与未来的积极预期 |
| 工作倦怠 |
高要求、低资源情境下的耗竭状态 |
| 工作投入 |
高资源情境下的积极投入状态 |
_jdr_version |
JD-R 字段版本标记 |
5. 数值字段范围概览
| 字段名 |
均值 |
最小值 |
最大值 |
| 年龄 |
32.66 |
20.00 |
55.00 |
| 司龄年数 |
11.74 |
0.20 |
32.00 |
| 月均加班时长 |
34.84 |
4.10 |
66.10 |
| 通勤时长分钟 |
41.38 |
8.00 |
109.70 |
| 通勤距离公里 |
22.74 |
2.80 |
65.00 |
| BMI |
24.30 |
17.50 |
36.50 |
| 近30天睡眠时长均值 |
6.78 |
4.50 |
9.00 |
| 每周运动频次 |
2.15 |
0.00 |
7.00 |
| 近90天缺勤次数 |
1.33 |
0.00 |
7.00 |
| 近180天请假总时长 |
22.92 |
0.00 |
65.90 |
6. 结构性分布信息
- 夜班岗位占比约
30.86%
- 节假日前后事件占比约
23.43%
- 提供医院证明占比约
58.49%
- 慢性病史占比约
7.92%
- 星期分布基本均衡
- 季节分布基本均衡
7. 行业层面的平均缺勤时长
| 行业 |
样本数 |
平均缺勤时长 |
| 制造业 |
2366 |
6.671 |
| 物流运输 |
1679 |
6.665 |
| 互联网 |
1434 |
6.374 |
| 建筑工程 |
1101 |
6.252 |
| 医药健康 |
2274 |
6.208 |
| 零售连锁 |
1820 |
6.197 |
| 金融服务 |
1326 |
6.016 |
可见制造业、物流运输的缺勤时长整体偏高,金融服务相对较低,符合行业工作强度与排班特征差异。
8. 请假类型与目标变量关系
| 请假类型 |
样本数 |
平均缺勤时长 |
| 工伤假 |
258 |
11.092 |
| 婚假 |
336 |
9.768 |
| 丧假 |
238 |
9.437 |
| 病假 |
3574 |
7.638 |
| 产检育儿假 |
743 |
7.536 |
| 事假 |
2612 |
5.998 |
| 其他 |
1045 |
5.597 |
| 调休 |
1708 |
4.252 |
| 年假 |
1486 |
4.240 |
该分布说明请假类型对目标值具有明显区分度,是模型的重要信号源之一。
9. 请假原因大类与目标变量关系
| 请假原因大类 |
样本数 |
平均缺勤时长 |
| 就医复查 |
1503 |
7.073 |
| 身体不适 |
3194 |
6.824 |
| 子女照护 |
611 |
6.485 |
| 突发事件 |
1223 |
6.109 |
| 职业疲劳 |
2261 |
6.096 |
| 家庭事务 |
2161 |
5.907 |
| 交通受阻 |
1047 |
5.689 |
10. 数据集适用场景
本数据集适用于以下任务:
- 员工缺勤时长回归预测
- 缺勤风险分层预警
JD-R 理论指标构建与解释分析
- 特征重要性与
SHAP 解释
- 行业/岗位/班次群体对比
- 员工群体聚类画像
- 前端数据可视化展示与业务汇报
11. 使用说明
- 生成脚本:
backend/core/generate_dataset.py
- 训练脚本:
backend/core/train_model.py
- 预处理入口:
backend/core/preprocessing.py
JD-R 指标构建:backend/core/model_features.py
如果需要重新生成全新数据集,可删除旧文件后重新执行:
12. 说明
该数据集为模拟数据,不对应任何真实企业、真实员工或真实业务记录,仅用于毕业设计系统中的算法训练、接口联调、理论分析与前端展示。