# 数据设计文档 ## 1. 数据集说明 本系统数据集为中国企业员工缺勤事件数据集。每条记录表示一次员工缺勤事件,预测目标为缺勤时长(小时)。 数据文件: - `backend/data/raw/china_enterprise_absence_events.csv` ## 2. 数据粒度 - 记录粒度:单次缺勤事件 - 员工粒度:同一员工可对应多条缺勤记录 - 企业粒度:多个企业组成整体样本池 ## 3. 字段分类 ### 3.1 企业与组织字段 - 企业编号 - 所属行业 - 企业规模 - 所在城市等级 - 用工类型 - 部门条线 - 岗位序列 - 岗位级别 ### 3.2 员工基础字段 - 员工编号 - 性别 - 年龄 - 司龄年数 - 最高学历 - 婚姻状态 - 是否本地户籍 - 子女数量 - 是否独生子女家庭负担 - 居住类型 ### 3.3 工作负荷字段 - 班次类型 - 是否夜班岗位 - 月均加班时长 - 近30天出勤天数 - 近90天缺勤次数 - 近180天请假总时长 - 通勤时长分钟 - 通勤距离公里 - 是否跨城通勤 - 绩效等级 - 近12月违纪次数 - 团队人数 - 直属上级管理跨度 ### 3.4 健康与生活方式字段 - BMI - 是否慢性病史 - 年度体检异常标记 - 近30天睡眠时长均值 - 每周运动频次 - 是否吸烟 - 是否饮酒 - 心理压力等级 - 是否长期久坐岗位 ### 3.5 缺勤事件字段 - 缺勤月份 - 星期几 - 是否节假日前后 - 季节 - 事件日期 - 事件日期索引 - 事件序号 - 员工历史事件数 - 请假申请渠道 - 请假类型 - 请假原因大类 - 是否提供医院证明 - 是否临时请假 - 是否连续缺勤 - 前一工作日是否加班 - 缺勤时长(小时) ## 4. 目标变量设计 目标变量: - `缺勤时长(小时)` 风险等级映射: - 小于 4 小时:低风险 - 4 至 8 小时:中风险 - 大于 8 小时:高风险 ## 5. 特征工程设计 系统在原始字段基础上构建以下衍生特征: - 加班通勤压力指数 - 家庭负担指数 - 健康风险指数 - 岗位稳定性指数 - 节假日风险标记 - 排班压力标记 - 缺勤历史强度 - 生活规律指数 - 管理负荷指数 - 工龄分层 - 年龄分层 - 通勤分层 - 加班分层 ## 6. 数据生成逻辑 ### 6.1 生成原则 - 结合中国企业实际管理场景设计字段 - 保证类别分布与数值范围具有合理性 - 让关键特征和目标变量之间保持稳定、可学习关系 ### 6.2 影响关系示例 - 请假类型对缺勤时长有显著影响 - 医院证明通常对应更高缺勤时长 - 夜班、长通勤和高加班会提升缺勤风险 - 慢性病史和健康异常会提升缺勤时长 - 年假和调休通常对应较短缺勤时长 ### 6.3 时序样本构造 为支持 LSTM+MLP 深度学习模型,数据集在事件层面额外补充了时序字段: - `事件日期`:缺勤事件发生日期 - `事件日期索引`:便于排序和窗口切片的数值型时间索引 - `事件序号`:同一员工内部的事件顺序 - `员工历史事件数`:该员工在数据集中对应的事件总数 深度学习样本构造规则如下: - 以员工为单位按 `事件日期索引` 和 `事件序号` 排序 - 取最近 `5` 次缺勤事件作为时间窗口输入 - 序列不足时使用前向零填充 - 当前事件作为窗口最后一个时间步 - 静态特征单独输入 MLP 分支,与 LSTM 输出融合后进行回归预测 ## 7. 数据质量要求 - 无大量缺失值 - 类别字段取值可控 - 数值字段范围合理 - 高风险比例处于可接受范围 - 关键变量与目标方向关系合理 ## 8. 当前数据集统计 - 样本量:12000 - 员工覆盖数:2575 - 企业覆盖数:180 - 行业数:7 - 字段总数:52 详细统计可参考: - [中国企业缺勤模拟数据集说明.md](D:/VScodeProject/forsetsystem/中国企业缺勤模拟数据集说明.md)