feat: update clustering implementation and docs

2026-04-21 11:13:11 +08:00
parent 5655eb0cda
commit 27c394fd8c
17 changed files with 540 additions and 215 deletions
--- a/docs/03_数据设计文档.md
+++ b/docs/03_数据设计文档.md
@@ -2,7 +2,7 @@

 ## 1. 数据集说明

-本系统数据集为中国企业员工缺勤事件数据集。每条记录表示一次员工缺勤事件，预测目标为缺勤时长（小时）。
+本系统数据集为中国企业员工缺勤事件模拟数据集。每条记录表示一次员工缺勤事件，预测目标为缺勤时长（小时）。数据在中国企业管理场景假设下生成，并补充了 `JD-R` 理论相关字段。

 数据文件：

@@ -87,13 +87,33 @@
 - 前一工作日是否加班
 - 缺勤时长（小时）

+### 3.6 `JD-R` 理论字段
+
+- 工作自主性
+- 情绪劳动强度
+- 时间压力感知
+- 角色模糊度
+- 工作家庭冲突
+- 上级支持
+- 同事支持
+- 技能多样性
+- 职业发展机会
+- 参与决策
+- 组织公平感
+- 自我效能感
+- 心理韧性
+- 乐观程度
+- 工作倦怠
+- 工作投入
+- `_jdr_version`
+
 ## 4. 目标变量设计

 目标变量：

 - `缺勤时长（小时）`

-风险等级映射：
+系统展示层风险等级映射：

 - 小于 4 小时：低风险
 - 4 至 8 小时：中风险
@@ -117,15 +137,29 @@
 - 通勤分层
 - 加班分层

-## 6. 数据生成逻辑
+## 6. `JD-R` 复合指标设计

-### 6.1 生成原则
+在 `model_features.py` 中，系统进一步构建以下理论复合指标：
+
+- 工作要求指数
+- 工作资源指数
+- 个人资源指数
+- `JD-R` 平衡度
+- 倦怠风险指数
+- 工作投入指数
+
+这些指标用于 `JD-R` 页面分析、解释路径分析和预测解释维度聚合。
+
+## 7. 数据生成逻辑
+
+### 7.1 生成原则

 - 结合中国企业实际管理场景设计字段
 - 保证类别分布与数值范围具有合理性
 - 让关键特征和目标变量之间保持稳定、可学习关系
+- 让理论变量与业务变量之间具备可解释映射关系

-### 6.2 影响关系示例
+### 7.2 影响关系示例

 - 请假类型对缺勤时长有显著影响
 - 医院证明通常对应更高缺勤时长
@@ -133,9 +167,17 @@
 - 慢性病史和健康异常会提升缺勤时长
 - 年假和调休通常对应较短缺勤时长

-### 6.3 时序样本构造
+### 7.3 `JD-R` 变量生成逻辑

-为支持 LSTM+MLP 深度学习模型，数据集在事件层面额外补充了时序字段：
+- 工作要求侧重由加班、通勤、夜班、家庭冲突和角色模糊等因素驱动
+- 工作资源侧重由上级支持、同事支持、技能多样性、职业发展和组织公平感构成
+- 个人资源侧重由自我效能感、心理韧性和乐观程度构成
+- 工作倦怠由高要求与低资源共同推动
+- 工作投入由高资源、高个人资源与较低倦怠共同促进
+
+## 8. 时序样本构造
+
+为支持深度学习时序模型，数据集在事件层面额外补充了时序字段：

 - `事件日期`：缺勤事件发生日期
 - `事件日期索引`：便于排序和窗口切片的数值型时间索引
@@ -145,27 +187,28 @@
 深度学习样本构造规则如下：

 - 以员工为单位按 `事件日期索引` 和 `事件序号` 排序
- 取最近 `5` 次缺勤事件作为时间窗口输入
+- 取最近 `8` 次缺勤事件作为时间窗口输入
 - 序列不足时使用前向零填充
 - 当前事件作为窗口最后一个时间步
- 静态特征单独输入 MLP 分支，与 LSTM 输出融合后进行回归预测
+- 静态特征单独输入静态分支，与时序编码结果融合后进行回归预测

-## 7. 数据质量要求
+## 9. 数据质量要求

 - 无大量缺失值
 - 类别字段取值可控
 - 数值字段范围合理
 - 高风险比例处于可接受范围
 - 关键变量与目标方向关系合理
+- `JD-R` 变量与业务变量关系具有可解释性

-## 8. 当前数据集统计
+## 10. 当前数据集统计

 - 样本量：12000
 - 员工覆盖数：2575
 - 企业覆盖数：180
 - 行业数：7
- 字段总数：52
+- 字段总数：73

 详细统计可参考：

- [中国企业缺勤模拟数据集说明.md](D:/VScodeProject/forsetsystem/中国企业缺勤模拟数据集说明.md)
+- [中国企业缺勤模拟数据集说明.md](D:/forsetsystem/docs/中国企业缺勤模拟数据集说明.md)