7.5 KiB
7.5 KiB
中国企业缺勤模拟数据集说明
1. 数据集概述
- 数据文件:
backend/data/raw/china_enterprise_absence_events.csv - 数据定位:中国企业员工缺勤事件模拟数据集
- 数据来源:项目内部独立模拟生成,与原
UCI Absenteeism数据集无任何字段映射和业务关联 - 样本粒度:每一行表示一次员工缺勤事件
- 样本量:
12000条 - 员工覆盖数:
2575 - 企业覆盖数:
180 - 行业覆盖数:
7 - 字段总数:
52 - 预测目标:
缺勤时长(小时)
2. 目标变量分布
目标列为 缺勤时长(小时),当前统计结果如下:
| 指标 | 数值 |
|---|---|
| count | 12000.00 |
| mean | 6.36 |
| std | 2.26 |
| min | 0.50 |
| 25% | 4.70 |
| 50% | 6.30 |
| 75% | 7.80 |
| max | 16.70 |
风险分层说明:
- 低风险:
0-4小时 - 中风险:
4-8小时 - 高风险:
8-12小时 - 极高风险:
12+小时
当前目标分布:
- 低风险约
15.66% - 中风险约
63.29% - 高风险约
19.10% - 极高风险约
1.95% - 高风险及以上(
>8小时)占比约21.05%
该分布特征为“中风险为主、少量高风险、极端长缺勤较少”,适合用于回归预测与风险分层分析。
3. 字段设计原则
- 字段语义贴合中国企业实际 HR、考勤、排班、请假管理场景
- 不包含身份证号、手机号、详细住址等敏感信息
- 类别字段以有限枚举为主,方便前端表单录入和模型编码
- 数值字段控制在合理范围内,避免训练时出现大面积异常值
- 通过规则驱动加扰动的方式生成数据,使关键特征与目标值之间存在稳定、可学习的关系
4. 字段清单
4.1 企业与组织字段
| 字段名 | 含义 |
|---|---|
| 企业编号 | 企业主体唯一标识 |
| 所属行业 | 企业所属行业,如制造业、互联网、物流运输等 |
| 企业规模 | 企业员工规模分层 |
| 所在城市等级 | 企业所在城市层级 |
| 用工类型 | 正式员工、派遣、外包、实习等 |
| 部门条线 | 员工所属业务或职能条线 |
| 岗位序列 | 岗位类别,如管理、专业技术、生产操作等 |
| 岗位级别 | 岗位层级,如初级、中级、高级、主管等 |
4.2 员工基础字段
| 字段名 | 含义 |
|---|---|
| 员工编号 | 员工唯一标识 |
| 性别 | 员工性别 |
| 年龄 | 员工年龄 |
| 司龄年数 | 员工在当前企业工作年限 |
| 最高学历 | 员工最高学历层次 |
| 婚姻状态 | 未婚、已婚、离异/其他 |
| 是否本地户籍 | 是否为企业所在城市本地户籍 |
| 子女数量 | 子女人数 |
| 是否独生子女家庭负担 | 是否存在较高家庭抚养压力 |
| 居住类型 | 自有住房、租房、宿舍 |
4.3 工作负荷与出勤环境字段
| 字段名 | 含义 |
|---|---|
| 班次类型 | 标准白班、两班倒、三班倒、弹性班 |
| 是否夜班岗位 | 是否属于夜班场景 |
| 月均加班时长 | 月均加班小时数 |
| 近30天出勤天数 | 近30天实际出勤天数 |
| 近90天缺勤次数 | 近90天缺勤事件次数 |
| 近180天请假总时长 | 近180天累计请假时长 |
| 通勤时长分钟 | 单程或综合通勤时长 |
| 通勤距离公里 | 通勤距离 |
| 是否跨城通勤 | 是否存在跨城通勤情况 |
| 绩效等级 | A/B/C/D 绩效等级 |
| 近12月违纪次数 | 最近一年违纪次数 |
| 团队人数 | 员工所在团队人数 |
| 直属上级管理跨度 | 上级管理人数范围 |
4.4 健康与生活方式字段
| 字段名 | 含义 |
|---|---|
| BMI | 身体质量指数 |
| 是否慢性病史 | 是否存在慢性病史 |
| 年度体检异常标记 | 年度体检是否存在异常 |
| 近30天睡眠时长均值 | 近30天平均睡眠时长 |
| 每周运动频次 | 每周运动次数 |
| 是否吸烟 | 是否吸烟 |
| 是否饮酒 | 是否饮酒 |
| 心理压力等级 | 低、中、高 |
| 是否长期久坐岗位 | 是否属于长期久坐岗位 |
4.5 缺勤事件字段
| 字段名 | 含义 |
|---|---|
| 缺勤月份 | 本次缺勤发生月份 |
| 星期几 | 本次缺勤发生星期 |
| 是否节假日前后 | 是否发生在节假日前后窗口期 |
| 季节 | 冬季、春季、夏季、秋季 |
| 请假申请渠道 | 系统申请、主管代提、临时电话报备 |
| 请假类型 | 病假、事假、年假、调休、婚假、丧假、产检育儿假、工伤假、其他 |
| 请假原因大类 | 身体不适、家庭事务、子女照护、交通受阻、突发事件、职业疲劳、就医复查 |
| 是否提供医院证明 | 是否提供医院证明材料 |
| 是否临时请假 | 是否为临时发起请假 |
| 是否连续缺勤 | 是否存在连续缺勤现象 |
| 前一工作日是否加班 | 缺勤前一个工作日是否加班 |
| 缺勤时长(小时) | 本次缺勤事件持续时长,预测目标列 |
5. 数值字段范围概览
| 字段名 | 均值 | 最小值 | 最大值 |
|---|---|---|---|
| 年龄 | 32.66 | 20.00 | 55.00 |
| 司龄年数 | 11.74 | 0.20 | 32.00 |
| 月均加班时长 | 34.84 | 4.10 | 66.10 |
| 通勤时长分钟 | 41.38 | 8.00 | 109.70 |
| 通勤距离公里 | 22.74 | 2.80 | 65.00 |
| BMI | 24.30 | 17.50 | 36.50 |
| 近30天睡眠时长均值 | 6.78 | 4.50 | 9.00 |
| 每周运动频次 | 2.15 | 0.00 | 7.00 |
| 近90天缺勤次数 | 1.33 | 0.00 | 7.00 |
| 近180天请假总时长 | 22.92 | 0.00 | 65.90 |
6. 结构性分布信息
- 夜班岗位占比约
30.86% - 节假日前后事件占比约
23.43% - 提供医院证明占比约
58.49% - 慢性病史占比约
7.92% - 星期分布基本均衡
- 季节分布基本均衡
7. 行业层面的平均缺勤时长
| 行业 | 样本数 | 平均缺勤时长 |
|---|---|---|
| 制造业 | 2366 | 6.671 |
| 物流运输 | 1679 | 6.665 |
| 互联网 | 1434 | 6.374 |
| 建筑工程 | 1101 | 6.252 |
| 医药健康 | 2274 | 6.208 |
| 零售连锁 | 1820 | 6.197 |
| 金融服务 | 1326 | 6.016 |
可见制造业、物流运输的缺勤时长整体偏高,金融服务相对较低,符合行业工作强度与排班特征差异。
8. 请假类型与目标变量关系
| 请假类型 | 样本数 | 平均缺勤时长 |
|---|---|---|
| 工伤假 | 258 | 11.092 |
| 婚假 | 336 | 9.768 |
| 丧假 | 238 | 9.437 |
| 病假 | 3574 | 7.638 |
| 产检育儿假 | 743 | 7.536 |
| 事假 | 2612 | 5.998 |
| 其他 | 1045 | 5.597 |
| 调休 | 1708 | 4.252 |
| 年假 | 1486 | 4.240 |
该分布说明请假类型对目标值具有明显区分度,是模型的重要信号源之一。
9. 请假原因大类与目标变量关系
| 请假原因大类 | 样本数 | 平均缺勤时长 |
|---|---|---|
| 就医复查 | 1503 | 7.073 |
| 身体不适 | 3194 | 6.824 |
| 子女照护 | 611 | 6.485 |
| 突发事件 | 1223 | 6.109 |
| 职业疲劳 | 2261 | 6.096 |
| 家庭事务 | 2161 | 5.907 |
| 交通受阻 | 1047 | 5.689 |
10. 数据集适用场景
本数据集适用于以下任务:
- 员工缺勤时长回归预测
- 缺勤风险分层预警
- 特征重要性分析
- 行业/岗位/班次群体对比
- 员工群体聚类画像
- 前端数据可视化展示与业务汇报
11. 使用说明
- 生成脚本:
backend/core/generate_dataset.py - 训练脚本:
backend/core/train_model.py - 预处理入口:
backend/core/preprocessing.py
如果需要重新生成全新数据集,可删除旧文件后重新执行:
cd backend
python core/generate_dataset.py
12. 说明
该数据集为模拟数据,不对应任何真实企业、真实员工或真实业务记录,仅用于毕业设计系统中的算法训练、接口联调与前端展示。