# 中国企业缺勤模拟数据集说明

## 1. 数据集概述

- 数据文件：`backend/data/raw/china_enterprise_absence_events.csv`
- 数据定位：中国企业员工缺勤事件模拟数据集
- 数据来源：项目内部独立模拟生成，与原 `UCI Absenteeism` 数据集无任何字段映射和业务关联
- 样本粒度：每一行表示一次员工缺勤事件
- 样本量：`12000` 条
- 员工覆盖数：`2575`
- 企业覆盖数：`180`
- 行业覆盖数：`7`
- 字段总数：`52`
- 预测目标：`缺勤时长（小时）`

## 2. 目标变量分布

目标列为 `缺勤时长（小时）`，当前统计结果如下：

| 指标 | 数值 |
|---|---:|
| count | 12000.00 |
| mean | 6.36 |
| std | 2.26 |
| min | 0.50 |
| 25% | 4.70 |
| 50% | 6.30 |
| 75% | 7.80 |
| max | 16.70 |

风险分层说明：

- 低风险：`0-4` 小时
- 中风险：`4-8` 小时
- 高风险：`8-12` 小时
- 极高风险：`12+` 小时

当前目标分布：

- 低风险约 `15.66%`
- 中风险约 `63.29%`
- 高风险约 `19.10%`
- 极高风险约 `1.95%`
- 高风险及以上（`>8` 小时）占比约 `21.05%`

该分布特征为“中风险为主、少量高风险、极端长缺勤较少”，适合用于回归预测与风险分层分析。

## 3. 字段设计原则

- 字段语义贴合中国企业实际 HR、考勤、排班、请假管理场景
- 不包含身份证号、手机号、详细住址等敏感信息
- 类别字段以有限枚举为主，方便前端表单录入和模型编码
- 数值字段控制在合理范围内，避免训练时出现大面积异常值
- 通过规则驱动加扰动的方式生成数据，使关键特征与目标值之间存在稳定、可学习的关系

## 4. 字段清单

### 4.1 企业与组织字段

| 字段名 | 含义 |
|---|---|
| 企业编号 | 企业主体唯一标识 |
| 所属行业 | 企业所属行业，如制造业、互联网、物流运输等 |
| 企业规模 | 企业员工规模分层 |
| 所在城市等级 | 企业所在城市层级 |
| 用工类型 | 正式员工、派遣、外包、实习等 |
| 部门条线 | 员工所属业务或职能条线 |
| 岗位序列 | 岗位类别，如管理、专业技术、生产操作等 |
| 岗位级别 | 岗位层级，如初级、中级、高级、主管等 |

### 4.2 员工基础字段

| 字段名 | 含义 |
|---|---|
| 员工编号 | 员工唯一标识 |
| 性别 | 员工性别 |
| 年龄 | 员工年龄 |
| 司龄年数 | 员工在当前企业工作年限 |
| 最高学历 | 员工最高学历层次 |
| 婚姻状态 | 未婚、已婚、离异/其他 |
| 是否本地户籍 | 是否为企业所在城市本地户籍 |
| 子女数量 | 子女人数 |
| 是否独生子女家庭负担 | 是否存在较高家庭抚养压力 |
| 居住类型 | 自有住房、租房、宿舍 |

### 4.3 工作负荷与出勤环境字段

| 字段名 | 含义 |
|---|---|
| 班次类型 | 标准白班、两班倒、三班倒、弹性班 |
| 是否夜班岗位 | 是否属于夜班场景 |
| 月均加班时长 | 月均加班小时数 |
| 近30天出勤天数 | 近30天实际出勤天数 |
| 近90天缺勤次数 | 近90天缺勤事件次数 |
| 近180天请假总时长 | 近180天累计请假时长 |
| 通勤时长分钟 | 单程或综合通勤时长 |
| 通勤距离公里 | 通勤距离 |
| 是否跨城通勤 | 是否存在跨城通勤情况 |
| 绩效等级 | A/B/C/D 绩效等级 |
| 近12月违纪次数 | 最近一年违纪次数 |
| 团队人数 | 员工所在团队人数 |
| 直属上级管理跨度 | 上级管理人数范围 |

### 4.4 健康与生活方式字段

| 字段名 | 含义 |
|---|---|
| BMI | 身体质量指数 |
| 是否慢性病史 | 是否存在慢性病史 |
| 年度体检异常标记 | 年度体检是否存在异常 |
| 近30天睡眠时长均值 | 近30天平均睡眠时长 |
| 每周运动频次 | 每周运动次数 |
| 是否吸烟 | 是否吸烟 |
| 是否饮酒 | 是否饮酒 |
| 心理压力等级 | 低、中、高 |
| 是否长期久坐岗位 | 是否属于长期久坐岗位 |

### 4.5 缺勤事件字段

| 字段名 | 含义 |
|---|---|
| 缺勤月份 | 本次缺勤发生月份 |
| 星期几 | 本次缺勤发生星期 |
| 是否节假日前后 | 是否发生在节假日前后窗口期 |
| 季节 | 冬季、春季、夏季、秋季 |
| 请假申请渠道 | 系统申请、主管代提、临时电话报备 |
| 请假类型 | 病假、事假、年假、调休、婚假、丧假、产检育儿假、工伤假、其他 |
| 请假原因大类 | 身体不适、家庭事务、子女照护、交通受阻、突发事件、职业疲劳、就医复查 |
| 是否提供医院证明 | 是否提供医院证明材料 |
| 是否临时请假 | 是否为临时发起请假 |
| 是否连续缺勤 | 是否存在连续缺勤现象 |
| 前一工作日是否加班 | 缺勤前一个工作日是否加班 |
| 缺勤时长（小时） | 本次缺勤事件持续时长，预测目标列 |

## 5. 数值字段范围概览

| 字段名 | 均值 | 最小值 | 最大值 |
|---|---:|---:|---:|
| 年龄 | 32.66 | 20.00 | 55.00 |
| 司龄年数 | 11.74 | 0.20 | 32.00 |
| 月均加班时长 | 34.84 | 4.10 | 66.10 |
| 通勤时长分钟 | 41.38 | 8.00 | 109.70 |
| 通勤距离公里 | 22.74 | 2.80 | 65.00 |
| BMI | 24.30 | 17.50 | 36.50 |
| 近30天睡眠时长均值 | 6.78 | 4.50 | 9.00 |
| 每周运动频次 | 2.15 | 0.00 | 7.00 |
| 近90天缺勤次数 | 1.33 | 0.00 | 7.00 |
| 近180天请假总时长 | 22.92 | 0.00 | 65.90 |

## 6. 结构性分布信息

- 夜班岗位占比约 `30.86%`
- 节假日前后事件占比约 `23.43%`
- 提供医院证明占比约 `58.49%`
- 慢性病史占比约 `7.92%`
- 星期分布基本均衡
- 季节分布基本均衡

## 7. 行业层面的平均缺勤时长

| 行业 | 样本数 | 平均缺勤时长 |
|---|---:|---:|
| 制造业 | 2366 | 6.671 |
| 物流运输 | 1679 | 6.665 |
| 互联网 | 1434 | 6.374 |
| 建筑工程 | 1101 | 6.252 |
| 医药健康 | 2274 | 6.208 |
| 零售连锁 | 1820 | 6.197 |
| 金融服务 | 1326 | 6.016 |

可见制造业、物流运输的缺勤时长整体偏高，金融服务相对较低，符合行业工作强度与排班特征差异。

## 8. 请假类型与目标变量关系

| 请假类型 | 样本数 | 平均缺勤时长 |
|---|---:|---:|
| 工伤假 | 258 | 11.092 |
| 婚假 | 336 | 9.768 |
| 丧假 | 238 | 9.437 |
| 病假 | 3574 | 7.638 |
| 产检育儿假 | 743 | 7.536 |
| 事假 | 2612 | 5.998 |
| 其他 | 1045 | 5.597 |
| 调休 | 1708 | 4.252 |
| 年假 | 1486 | 4.240 |

该分布说明请假类型对目标值具有明显区分度，是模型的重要信号源之一。

## 9. 请假原因大类与目标变量关系

| 请假原因大类 | 样本数 | 平均缺勤时长 |
|---|---:|---:|
| 就医复查 | 1503 | 7.073 |
| 身体不适 | 3194 | 6.824 |
| 子女照护 | 611 | 6.485 |
| 突发事件 | 1223 | 6.109 |
| 职业疲劳 | 2261 | 6.096 |
| 家庭事务 | 2161 | 5.907 |
| 交通受阻 | 1047 | 5.689 |

## 10. 数据集适用场景

本数据集适用于以下任务：

- 员工缺勤时长回归预测
- 缺勤风险分层预警
- 特征重要性分析
- 行业/岗位/班次群体对比
- 员工群体聚类画像
- 前端数据可视化展示与业务汇报

## 11. 使用说明

- 生成脚本：`backend/core/generate_dataset.py`
- 训练脚本：`backend/core/train_model.py`
- 预处理入口：`backend/core/preprocessing.py`

如果需要重新生成全新数据集，可删除旧文件后重新执行：

```powershell
cd backend
python core/generate_dataset.py
```

## 12. 说明

该数据集为模拟数据，不对应任何真实企业、真实员工或真实业务记录，仅用于毕业设计系统中的算法训练、接口联调与前端展示。