Files
forsetsystem/docs/03_数据设计文档.md

215 lines
5.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 数据设计文档
## 1. 数据集说明
本系统数据集为中国企业员工缺勤事件模拟数据集。每条记录表示一次员工缺勤事件,预测目标为缺勤时长(小时)。数据在中国企业管理场景假设下生成,并补充了 `JD-R` 理论相关字段。
数据文件:
- `backend/data/raw/china_enterprise_absence_events.csv`
## 2. 数据粒度
- 记录粒度:单次缺勤事件
- 员工粒度:同一员工可对应多条缺勤记录
- 企业粒度:多个企业组成整体样本池
## 3. 字段分类
### 3.1 企业与组织字段
- 企业编号
- 所属行业
- 企业规模
- 所在城市等级
- 用工类型
- 部门条线
- 岗位序列
- 岗位级别
### 3.2 员工基础字段
- 员工编号
- 性别
- 年龄
- 司龄年数
- 最高学历
- 婚姻状态
- 是否本地户籍
- 子女数量
- 是否独生子女家庭负担
- 居住类型
### 3.3 工作负荷字段
- 班次类型
- 是否夜班岗位
- 月均加班时长
- 近30天出勤天数
- 近90天缺勤次数
- 近180天请假总时长
- 通勤时长分钟
- 通勤距离公里
- 是否跨城通勤
- 绩效等级
- 近12月违纪次数
- 团队人数
- 直属上级管理跨度
### 3.4 健康与生活方式字段
- BMI
- 是否慢性病史
- 年度体检异常标记
- 近30天睡眠时长均值
- 每周运动频次
- 是否吸烟
- 是否饮酒
- 心理压力等级
- 是否长期久坐岗位
### 3.5 缺勤事件字段
- 缺勤月份
- 星期几
- 是否节假日前后
- 季节
- 事件日期
- 事件日期索引
- 事件序号
- 员工历史事件数
- 请假申请渠道
- 请假类型
- 请假原因大类
- 是否提供医院证明
- 是否临时请假
- 是否连续缺勤
- 前一工作日是否加班
- 缺勤时长(小时)
### 3.6 `JD-R` 理论字段
- 工作自主性
- 情绪劳动强度
- 时间压力感知
- 角色模糊度
- 工作家庭冲突
- 上级支持
- 同事支持
- 技能多样性
- 职业发展机会
- 参与决策
- 组织公平感
- 自我效能感
- 心理韧性
- 乐观程度
- 工作倦怠
- 工作投入
- `_jdr_version`
## 4. 目标变量设计
目标变量:
- `缺勤时长(小时)`
系统展示层风险等级映射:
- 小于 4 小时:低风险
- 4 至 8 小时:中风险
- 大于 8 小时:高风险
## 5. 特征工程设计
系统在原始字段基础上构建以下衍生特征:
- 加班通勤压力指数
- 家庭负担指数
- 健康风险指数
- 岗位稳定性指数
- 节假日风险标记
- 排班压力标记
- 缺勤历史强度
- 生活规律指数
- 管理负荷指数
- 工龄分层
- 年龄分层
- 通勤分层
- 加班分层
## 6. `JD-R` 复合指标设计
`model_features.py` 中,系统进一步构建以下理论复合指标:
- 工作要求指数
- 工作资源指数
- 个人资源指数
- `JD-R` 平衡度
- 倦怠风险指数
- 工作投入指数
这些指标用于 `JD-R` 页面分析、解释路径分析和预测解释维度聚合。
## 7. 数据生成逻辑
### 7.1 生成原则
- 结合中国企业实际管理场景设计字段
- 保证类别分布与数值范围具有合理性
- 让关键特征和目标变量之间保持稳定、可学习关系
- 让理论变量与业务变量之间具备可解释映射关系
### 7.2 影响关系示例
- 请假类型对缺勤时长有显著影响
- 医院证明通常对应更高缺勤时长
- 夜班、长通勤和高加班会提升缺勤风险
- 慢性病史和健康异常会提升缺勤时长
- 年假和调休通常对应较短缺勤时长
### 7.3 `JD-R` 变量生成逻辑
- 工作要求侧重由加班、通勤、夜班、家庭冲突和角色模糊等因素驱动
- 工作资源侧重由上级支持、同事支持、技能多样性、职业发展和组织公平感构成
- 个人资源侧重由自我效能感、心理韧性和乐观程度构成
- 工作倦怠由高要求与低资源共同推动
- 工作投入由高资源、高个人资源与较低倦怠共同促进
## 8. 时序样本构造
为支持深度学习时序模型,数据集在事件层面额外补充了时序字段:
- `事件日期`:缺勤事件发生日期
- `事件日期索引`:便于排序和窗口切片的数值型时间索引
- `事件序号`:同一员工内部的事件顺序
- `员工历史事件数`:该员工在数据集中对应的事件总数
深度学习样本构造规则如下:
- 以员工为单位按 `事件日期索引``事件序号` 排序
- 取最近 `8` 次缺勤事件作为时间窗口输入
- 序列不足时使用前向零填充
- 当前事件作为窗口最后一个时间步
- 静态特征单独输入静态分支,与时序编码结果融合后进行回归预测
## 9. 数据质量要求
- 无大量缺失值
- 类别字段取值可控
- 数值字段范围合理
- 高风险比例处于可接受范围
- 关键变量与目标方向关系合理
- `JD-R` 变量与业务变量关系具有可解释性
## 10. 当前数据集统计
- 样本量12000
- 员工覆盖数2575
- 企业覆盖数180
- 行业数7
- 字段总数73
详细统计可参考:
- [中国企业缺勤模拟数据集说明.md](D:/forsetsystem/docs/中国企业缺勤模拟数据集说明.md)