# 中国企业缺勤模拟数据集说明 ## 1. 数据集概述 - 数据文件:`backend/data/raw/china_enterprise_absence_events.csv` - 数据定位:中国企业员工缺勤事件模拟数据集 - 数据来源:项目内部独立模拟生成,与原 `UCI Absenteeism` 数据集无任何字段映射和业务关联 - 样本粒度:每一行表示一次员工缺勤事件 - 样本量:`12000` 条 - 员工覆盖数:`2575` - 企业覆盖数:`180` - 行业覆盖数:`7` - 字段总数:`52` - 预测目标:`缺勤时长(小时)` ## 2. 目标变量分布 目标列为 `缺勤时长(小时)`,当前统计结果如下: | 指标 | 数值 | |---|---:| | count | 12000.00 | | mean | 6.36 | | std | 2.26 | | min | 0.50 | | 25% | 4.70 | | 50% | 6.30 | | 75% | 7.80 | | max | 16.70 | 风险分层说明: - 低风险:`0-4` 小时 - 中风险:`4-8` 小时 - 高风险:`8-12` 小时 - 极高风险:`12+` 小时 当前目标分布: - 低风险约 `15.66%` - 中风险约 `63.29%` - 高风险约 `19.10%` - 极高风险约 `1.95%` - 高风险及以上(`>8` 小时)占比约 `21.05%` 该分布特征为“中风险为主、少量高风险、极端长缺勤较少”,适合用于回归预测与风险分层分析。 ## 3. 字段设计原则 - 字段语义贴合中国企业实际 HR、考勤、排班、请假管理场景 - 不包含身份证号、手机号、详细住址等敏感信息 - 类别字段以有限枚举为主,方便前端表单录入和模型编码 - 数值字段控制在合理范围内,避免训练时出现大面积异常值 - 通过规则驱动加扰动的方式生成数据,使关键特征与目标值之间存在稳定、可学习的关系 ## 4. 字段清单 ### 4.1 企业与组织字段 | 字段名 | 含义 | |---|---| | 企业编号 | 企业主体唯一标识 | | 所属行业 | 企业所属行业,如制造业、互联网、物流运输等 | | 企业规模 | 企业员工规模分层 | | 所在城市等级 | 企业所在城市层级 | | 用工类型 | 正式员工、派遣、外包、实习等 | | 部门条线 | 员工所属业务或职能条线 | | 岗位序列 | 岗位类别,如管理、专业技术、生产操作等 | | 岗位级别 | 岗位层级,如初级、中级、高级、主管等 | ### 4.2 员工基础字段 | 字段名 | 含义 | |---|---| | 员工编号 | 员工唯一标识 | | 性别 | 员工性别 | | 年龄 | 员工年龄 | | 司龄年数 | 员工在当前企业工作年限 | | 最高学历 | 员工最高学历层次 | | 婚姻状态 | 未婚、已婚、离异/其他 | | 是否本地户籍 | 是否为企业所在城市本地户籍 | | 子女数量 | 子女人数 | | 是否独生子女家庭负担 | 是否存在较高家庭抚养压力 | | 居住类型 | 自有住房、租房、宿舍 | ### 4.3 工作负荷与出勤环境字段 | 字段名 | 含义 | |---|---| | 班次类型 | 标准白班、两班倒、三班倒、弹性班 | | 是否夜班岗位 | 是否属于夜班场景 | | 月均加班时长 | 月均加班小时数 | | 近30天出勤天数 | 近30天实际出勤天数 | | 近90天缺勤次数 | 近90天缺勤事件次数 | | 近180天请假总时长 | 近180天累计请假时长 | | 通勤时长分钟 | 单程或综合通勤时长 | | 通勤距离公里 | 通勤距离 | | 是否跨城通勤 | 是否存在跨城通勤情况 | | 绩效等级 | A/B/C/D 绩效等级 | | 近12月违纪次数 | 最近一年违纪次数 | | 团队人数 | 员工所在团队人数 | | 直属上级管理跨度 | 上级管理人数范围 | ### 4.4 健康与生活方式字段 | 字段名 | 含义 | |---|---| | BMI | 身体质量指数 | | 是否慢性病史 | 是否存在慢性病史 | | 年度体检异常标记 | 年度体检是否存在异常 | | 近30天睡眠时长均值 | 近30天平均睡眠时长 | | 每周运动频次 | 每周运动次数 | | 是否吸烟 | 是否吸烟 | | 是否饮酒 | 是否饮酒 | | 心理压力等级 | 低、中、高 | | 是否长期久坐岗位 | 是否属于长期久坐岗位 | ### 4.5 缺勤事件字段 | 字段名 | 含义 | |---|---| | 缺勤月份 | 本次缺勤发生月份 | | 星期几 | 本次缺勤发生星期 | | 是否节假日前后 | 是否发生在节假日前后窗口期 | | 季节 | 冬季、春季、夏季、秋季 | | 请假申请渠道 | 系统申请、主管代提、临时电话报备 | | 请假类型 | 病假、事假、年假、调休、婚假、丧假、产检育儿假、工伤假、其他 | | 请假原因大类 | 身体不适、家庭事务、子女照护、交通受阻、突发事件、职业疲劳、就医复查 | | 是否提供医院证明 | 是否提供医院证明材料 | | 是否临时请假 | 是否为临时发起请假 | | 是否连续缺勤 | 是否存在连续缺勤现象 | | 前一工作日是否加班 | 缺勤前一个工作日是否加班 | | 缺勤时长(小时) | 本次缺勤事件持续时长,预测目标列 | ## 5. 数值字段范围概览 | 字段名 | 均值 | 最小值 | 最大值 | |---|---:|---:|---:| | 年龄 | 32.66 | 20.00 | 55.00 | | 司龄年数 | 11.74 | 0.20 | 32.00 | | 月均加班时长 | 34.84 | 4.10 | 66.10 | | 通勤时长分钟 | 41.38 | 8.00 | 109.70 | | 通勤距离公里 | 22.74 | 2.80 | 65.00 | | BMI | 24.30 | 17.50 | 36.50 | | 近30天睡眠时长均值 | 6.78 | 4.50 | 9.00 | | 每周运动频次 | 2.15 | 0.00 | 7.00 | | 近90天缺勤次数 | 1.33 | 0.00 | 7.00 | | 近180天请假总时长 | 22.92 | 0.00 | 65.90 | ## 6. 结构性分布信息 - 夜班岗位占比约 `30.86%` - 节假日前后事件占比约 `23.43%` - 提供医院证明占比约 `58.49%` - 慢性病史占比约 `7.92%` - 星期分布基本均衡 - 季节分布基本均衡 ## 7. 行业层面的平均缺勤时长 | 行业 | 样本数 | 平均缺勤时长 | |---|---:|---:| | 制造业 | 2366 | 6.671 | | 物流运输 | 1679 | 6.665 | | 互联网 | 1434 | 6.374 | | 建筑工程 | 1101 | 6.252 | | 医药健康 | 2274 | 6.208 | | 零售连锁 | 1820 | 6.197 | | 金融服务 | 1326 | 6.016 | 可见制造业、物流运输的缺勤时长整体偏高,金融服务相对较低,符合行业工作强度与排班特征差异。 ## 8. 请假类型与目标变量关系 | 请假类型 | 样本数 | 平均缺勤时长 | |---|---:|---:| | 工伤假 | 258 | 11.092 | | 婚假 | 336 | 9.768 | | 丧假 | 238 | 9.437 | | 病假 | 3574 | 7.638 | | 产检育儿假 | 743 | 7.536 | | 事假 | 2612 | 5.998 | | 其他 | 1045 | 5.597 | | 调休 | 1708 | 4.252 | | 年假 | 1486 | 4.240 | 该分布说明请假类型对目标值具有明显区分度,是模型的重要信号源之一。 ## 9. 请假原因大类与目标变量关系 | 请假原因大类 | 样本数 | 平均缺勤时长 | |---|---:|---:| | 就医复查 | 1503 | 7.073 | | 身体不适 | 3194 | 6.824 | | 子女照护 | 611 | 6.485 | | 突发事件 | 1223 | 6.109 | | 职业疲劳 | 2261 | 6.096 | | 家庭事务 | 2161 | 5.907 | | 交通受阻 | 1047 | 5.689 | ## 10. 数据集适用场景 本数据集适用于以下任务: - 员工缺勤时长回归预测 - 缺勤风险分层预警 - 特征重要性分析 - 行业/岗位/班次群体对比 - 员工群体聚类画像 - 前端数据可视化展示与业务汇报 ## 11. 使用说明 - 生成脚本:`backend/core/generate_dataset.py` - 训练脚本:`backend/core/train_model.py` - 预处理入口:`backend/core/preprocessing.py` 如果需要重新生成全新数据集,可删除旧文件后重新执行: ```powershell cd backend python core/generate_dataset.py ``` ## 12. 说明 该数据集为模拟数据,不对应任何真实企业、真实员工或真实业务记录,仅用于毕业设计系统中的算法训练、接口联调与前端展示。