# 数据设计文档 ## 1. 数据集说明 本系统数据集为中国企业员工缺勤事件模拟数据集。每条记录表示一次员工缺勤事件,预测目标为缺勤时长(小时)。数据在中国企业管理场景假设下生成,并补充了 `JD-R` 理论相关字段。 数据文件: - `backend/data/raw/china_enterprise_absence_events.csv` ## 2. 数据粒度 - 记录粒度:单次缺勤事件 - 员工粒度:同一员工可对应多条缺勤记录 - 企业粒度:多个企业组成整体样本池 ## 3. 字段分类 ### 3.1 企业与组织字段 - 企业编号 - 所属行业 - 企业规模 - 所在城市等级 - 用工类型 - 部门条线 - 岗位序列 - 岗位级别 ### 3.2 员工基础字段 - 员工编号 - 性别 - 年龄 - 司龄年数 - 最高学历 - 婚姻状态 - 是否本地户籍 - 子女数量 - 是否独生子女家庭负担 - 居住类型 ### 3.3 工作负荷字段 - 班次类型 - 是否夜班岗位 - 月均加班时长 - 近30天出勤天数 - 近90天缺勤次数 - 近180天请假总时长 - 通勤时长分钟 - 通勤距离公里 - 是否跨城通勤 - 绩效等级 - 近12月违纪次数 - 团队人数 - 直属上级管理跨度 ### 3.4 健康与生活方式字段 - BMI - 是否慢性病史 - 年度体检异常标记 - 近30天睡眠时长均值 - 每周运动频次 - 是否吸烟 - 是否饮酒 - 心理压力等级 - 是否长期久坐岗位 ### 3.5 缺勤事件字段 - 缺勤月份 - 星期几 - 是否节假日前后 - 季节 - 事件日期 - 事件日期索引 - 事件序号 - 员工历史事件数 - 请假申请渠道 - 请假类型 - 请假原因大类 - 是否提供医院证明 - 是否临时请假 - 是否连续缺勤 - 前一工作日是否加班 - 缺勤时长(小时) ### 3.6 `JD-R` 理论字段 - 工作自主性 - 情绪劳动强度 - 时间压力感知 - 角色模糊度 - 工作家庭冲突 - 上级支持 - 同事支持 - 技能多样性 - 职业发展机会 - 参与决策 - 组织公平感 - 自我效能感 - 心理韧性 - 乐观程度 - 工作倦怠 - 工作投入 - `_jdr_version` ## 4. 目标变量设计 目标变量: - `缺勤时长(小时)` 系统展示层风险等级映射: - 小于 4 小时:低风险 - 4 至 8 小时:中风险 - 大于 8 小时:高风险 ## 5. 特征工程设计 系统在原始字段基础上构建以下衍生特征: - 加班通勤压力指数 - 家庭负担指数 - 健康风险指数 - 岗位稳定性指数 - 节假日风险标记 - 排班压力标记 - 缺勤历史强度 - 生活规律指数 - 管理负荷指数 - 工龄分层 - 年龄分层 - 通勤分层 - 加班分层 ## 6. `JD-R` 复合指标设计 在 `model_features.py` 中,系统进一步构建以下理论复合指标: - 工作要求指数 - 工作资源指数 - 个人资源指数 - `JD-R` 平衡度 - 倦怠风险指数 - 工作投入指数 这些指标用于 `JD-R` 页面分析、解释路径分析和预测解释维度聚合。 ## 7. 数据生成逻辑 ### 7.1 生成原则 - 结合中国企业实际管理场景设计字段 - 保证类别分布与数值范围具有合理性 - 让关键特征和目标变量之间保持稳定、可学习关系 - 让理论变量与业务变量之间具备可解释映射关系 ### 7.2 影响关系示例 - 请假类型对缺勤时长有显著影响 - 医院证明通常对应更高缺勤时长 - 夜班、长通勤和高加班会提升缺勤风险 - 慢性病史和健康异常会提升缺勤时长 - 年假和调休通常对应较短缺勤时长 ### 7.3 `JD-R` 变量生成逻辑 - 工作要求侧重由加班、通勤、夜班、家庭冲突和角色模糊等因素驱动 - 工作资源侧重由上级支持、同事支持、技能多样性、职业发展和组织公平感构成 - 个人资源侧重由自我效能感、心理韧性和乐观程度构成 - 工作倦怠由高要求与低资源共同推动 - 工作投入由高资源、高个人资源与较低倦怠共同促进 ## 8. 时序样本构造 为支持深度学习时序模型,数据集在事件层面额外补充了时序字段: - `事件日期`:缺勤事件发生日期 - `事件日期索引`:便于排序和窗口切片的数值型时间索引 - `事件序号`:同一员工内部的事件顺序 - `员工历史事件数`:该员工在数据集中对应的事件总数 深度学习样本构造规则如下: - 以员工为单位按 `事件日期索引` 和 `事件序号` 排序 - 取最近 `8` 次缺勤事件作为时间窗口输入 - 序列不足时使用前向零填充 - 当前事件作为窗口最后一个时间步 - 静态特征单独输入静态分支,与时序编码结果融合后进行回归预测 ## 9. 数据质量要求 - 无大量缺失值 - 类别字段取值可控 - 数值字段范围合理 - 高风险比例处于可接受范围 - 关键变量与目标方向关系合理 - `JD-R` 变量与业务变量关系具有可解释性 ## 10. 当前数据集统计 - 样本量:12000 - 员工覆盖数:2575 - 企业覆盖数:180 - 行业数:7 - 字段总数:73 详细统计可参考: - [中国企业缺勤模拟数据集说明.md](D:/forsetsystem/docs/中国企业缺勤模拟数据集说明.md)