aisi-tech/forsetsystem

Files

shenjianZ d70bd54c41 fix(training): patch lightgbm sklearn compatibility

2026-03-12 18:15:09 +08:00

3.8 KiB

Raw Permalink Blame History

数据设计文档

1. 数据集说明

本系统数据集为中国企业员工缺勤事件数据集。每条记录表示一次员工缺勤事件，预测目标为缺勤时长（小时）。

数据文件：

backend/data/raw/china_enterprise_absence_events.csv

2. 数据粒度

记录粒度：单次缺勤事件
员工粒度：同一员工可对应多条缺勤记录
企业粒度：多个企业组成整体样本池

3. 字段分类

3.1 企业与组织字段

企业编号
所属行业
企业规模
所在城市等级
用工类型
部门条线
岗位序列
岗位级别

3.2 员工基础字段

员工编号
性别
年龄
司龄年数
最高学历
婚姻状态
是否本地户籍
子女数量
是否独生子女家庭负担
居住类型

3.3 工作负荷字段

班次类型
是否夜班岗位
月均加班时长
近30天出勤天数
近90天缺勤次数
近180天请假总时长
通勤时长分钟
通勤距离公里
是否跨城通勤
绩效等级
近12月违纪次数
团队人数
直属上级管理跨度

3.4 健康与生活方式字段

BMI
是否慢性病史
年度体检异常标记
近30天睡眠时长均值
每周运动频次
是否吸烟
是否饮酒
心理压力等级
是否长期久坐岗位

3.5 缺勤事件字段

缺勤月份
星期几
是否节假日前后
季节
事件日期
事件日期索引
事件序号
员工历史事件数
请假申请渠道
请假类型
请假原因大类
是否提供医院证明
是否临时请假
是否连续缺勤
前一工作日是否加班
缺勤时长（小时）

4. 目标变量设计

目标变量：

缺勤时长（小时）

风险等级映射：

小于 4 小时：低风险
4 至 8 小时：中风险
大于 8 小时：高风险

5. 特征工程设计

系统在原始字段基础上构建以下衍生特征：

加班通勤压力指数
家庭负担指数
健康风险指数
岗位稳定性指数
节假日风险标记
排班压力标记
缺勤历史强度
生活规律指数
管理负荷指数
工龄分层
年龄分层
通勤分层
加班分层

6. 数据生成逻辑

6.1 生成原则

结合中国企业实际管理场景设计字段
保证类别分布与数值范围具有合理性
让关键特征和目标变量之间保持稳定、可学习关系

6.2 影响关系示例

请假类型对缺勤时长有显著影响
医院证明通常对应更高缺勤时长
夜班、长通勤和高加班会提升缺勤风险
慢性病史和健康异常会提升缺勤时长
年假和调休通常对应较短缺勤时长

6.3 时序样本构造

为支持 LSTM+MLP 深度学习模型，数据集在事件层面额外补充了时序字段：

事件日期：缺勤事件发生日期
事件日期索引：便于排序和窗口切片的数值型时间索引
事件序号：同一员工内部的事件顺序
员工历史事件数：该员工在数据集中对应的事件总数

深度学习样本构造规则如下：

以员工为单位按 事件日期索引 和 事件序号 排序
取最近 5 次缺勤事件作为时间窗口输入
序列不足时使用前向零填充
当前事件作为窗口最后一个时间步
静态特征单独输入 MLP 分支，与 LSTM 输出融合后进行回归预测

7. 数据质量要求

无大量缺失值
类别字段取值可控
数值字段范围合理
高风险比例处于可接受范围
关键变量与目标方向关系合理

8. 当前数据集统计

样本量：12000
员工覆盖数：2575
企业覆盖数：180
行业数：7
字段总数：52

详细统计可参考：

中国企业缺勤模拟数据集说明.md