forsetsystem/docs/03_数据设计文档.md

# 数据设计文档

## 1. 数据集说明

本系统数据集为中国企业员工缺勤事件模拟数据集。每条记录表示一次员工缺勤事件，预测目标为缺勤时长（小时）。数据在中国企业管理场景假设下生成，并补充了 `JD-R` 理论相关字段。

数据文件：

- `backend/data/raw/china_enterprise_absence_events.csv`

## 2. 数据粒度

- 记录粒度：单次缺勤事件
- 员工粒度：同一员工可对应多条缺勤记录
- 企业粒度：多个企业组成整体样本池

## 3. 字段分类

### 3.1 企业与组织字段

- 企业编号
- 所属行业
- 企业规模
- 所在城市等级
- 用工类型
- 部门条线
- 岗位序列
- 岗位级别

### 3.2 员工基础字段

- 员工编号
- 性别
- 年龄
- 司龄年数
- 最高学历
- 婚姻状态
- 是否本地户籍
- 子女数量
- 是否独生子女家庭负担
- 居住类型

### 3.3 工作负荷字段

- 班次类型
- 是否夜班岗位
- 月均加班时长
- 近30天出勤天数
- 近90天缺勤次数
- 近180天请假总时长
- 通勤时长分钟
- 通勤距离公里
- 是否跨城通勤
- 绩效等级
- 近12月违纪次数
- 团队人数
- 直属上级管理跨度

### 3.4 健康与生活方式字段

- BMI
- 是否慢性病史
- 年度体检异常标记
- 近30天睡眠时长均值
- 每周运动频次
- 是否吸烟
- 是否饮酒
- 心理压力等级
- 是否长期久坐岗位

### 3.5 缺勤事件字段

- 缺勤月份
- 星期几
- 是否节假日前后
- 季节
- 事件日期
- 事件日期索引
- 事件序号
- 员工历史事件数
- 请假申请渠道
- 请假类型
- 请假原因大类
- 是否提供医院证明
- 是否临时请假
- 是否连续缺勤
- 前一工作日是否加班
- 缺勤时长（小时）

### 3.6 `JD-R` 理论字段

- 工作自主性
- 情绪劳动强度
- 时间压力感知
- 角色模糊度
- 工作家庭冲突
- 上级支持
- 同事支持
- 技能多样性
- 职业发展机会
- 参与决策
- 组织公平感
- 自我效能感
- 心理韧性
- 乐观程度
- 工作倦怠
- 工作投入
- `_jdr_version`

## 4. 目标变量设计

目标变量：

- `缺勤时长（小时）`

系统展示层风险等级映射：

- 小于 4 小时：低风险
- 4 至 8 小时：中风险
- 大于 8 小时：高风险

## 5. 特征工程设计

系统在原始字段基础上构建以下衍生特征：

- 加班通勤压力指数
- 家庭负担指数
- 健康风险指数
- 岗位稳定性指数
- 节假日风险标记
- 排班压力标记
- 缺勤历史强度
- 生活规律指数
- 管理负荷指数
- 工龄分层
- 年龄分层
- 通勤分层
- 加班分层

## 6. `JD-R` 复合指标设计

在 `model_features.py` 中，系统进一步构建以下理论复合指标：

- 工作要求指数
- 工作资源指数
- 个人资源指数
- `JD-R` 平衡度
- 倦怠风险指数
- 工作投入指数

这些指标用于 `JD-R` 页面分析、解释路径分析和预测解释维度聚合。

## 7. 数据生成逻辑

### 7.1 生成原则

- 结合中国企业实际管理场景设计字段
- 保证类别分布与数值范围具有合理性
- 让关键特征和目标变量之间保持稳定、可学习关系
- 让理论变量与业务变量之间具备可解释映射关系

### 7.2 影响关系示例

- 请假类型对缺勤时长有显著影响
- 医院证明通常对应更高缺勤时长
- 夜班、长通勤和高加班会提升缺勤风险
- 慢性病史和健康异常会提升缺勤时长
- 年假和调休通常对应较短缺勤时长

### 7.3 `JD-R` 变量生成逻辑

- 工作要求侧重由加班、通勤、夜班、家庭冲突和角色模糊等因素驱动
- 工作资源侧重由上级支持、同事支持、技能多样性、职业发展和组织公平感构成
- 个人资源侧重由自我效能感、心理韧性和乐观程度构成
- 工作倦怠由高要求与低资源共同推动
- 工作投入由高资源、高个人资源与较低倦怠共同促进

## 8. 时序样本构造

为支持深度学习时序模型，数据集在事件层面额外补充了时序字段：

- `事件日期`：缺勤事件发生日期
- `事件日期索引`：便于排序和窗口切片的数值型时间索引
- `事件序号`：同一员工内部的事件顺序
- `员工历史事件数`：该员工在数据集中对应的事件总数

深度学习样本构造规则如下：

- 以员工为单位按 `事件日期索引` 和 `事件序号` 排序
- 取最近 `8` 次缺勤事件作为时间窗口输入
- 序列不足时使用前向零填充
- 当前事件作为窗口最后一个时间步
- 静态特征单独输入静态分支，与时序编码结果融合后进行回归预测

## 9. 数据质量要求

- 无大量缺失值
- 类别字段取值可控
- 数值字段范围合理
- 高风险比例处于可接受范围
- 关键变量与目标方向关系合理
- `JD-R` 变量与业务变量关系具有可解释性

## 10. 当前数据集统计

- 样本量：12000
- 员工覆盖数：2575
- 企业覆盖数：180
- 行业数：7
- 字段总数：73

详细统计可参考：

- [中国企业缺勤模拟数据集说明.md](D:/forsetsystem/docs/中国企业缺勤模拟数据集说明.md)