- 新增中国企业员工缺勤模拟数据集生成脚本(generate_dataset.py),覆盖7个行业、180家企业、2600名员工 - 重构 config.py,更新特征字段为中文名称,调整目标列、员工ID、行业类型等配置 - 重构 clustering.py,简化聚类逻辑,更新聚类特征和群体命名(高压通勤型、健康波动型等) - 重构 feature_mining.py,更新相关性分析和群体比较维度(按行业、班次、婚姻状态等) - 新增 model_features.py 定义模型训练特征 - 更新 preprocessing.py 和 train_model.py 适配新数据结构 - 更新各 API 路由默认参数(model: random_forest, dimension: industry) - 前端更新主题样式和各视图组件适配中文字段 - 更新系统名称为 China Enterprise Absence Analysis System
151 lines
3.0 KiB
Markdown
151 lines
3.0 KiB
Markdown
# 数据设计文档
|
||
|
||
## 1. 数据集说明
|
||
|
||
本系统数据集为中国企业员工缺勤事件数据集。每条记录表示一次员工缺勤事件,预测目标为缺勤时长(小时)。
|
||
|
||
数据文件:
|
||
|
||
- `backend/data/raw/china_enterprise_absence_events.csv`
|
||
|
||
## 2. 数据粒度
|
||
|
||
- 记录粒度:单次缺勤事件
|
||
- 员工粒度:同一员工可对应多条缺勤记录
|
||
- 企业粒度:多个企业组成整体样本池
|
||
|
||
## 3. 字段分类
|
||
|
||
### 3.1 企业与组织字段
|
||
|
||
- 企业编号
|
||
- 所属行业
|
||
- 企业规模
|
||
- 所在城市等级
|
||
- 用工类型
|
||
- 部门条线
|
||
- 岗位序列
|
||
- 岗位级别
|
||
|
||
### 3.2 员工基础字段
|
||
|
||
- 员工编号
|
||
- 性别
|
||
- 年龄
|
||
- 司龄年数
|
||
- 最高学历
|
||
- 婚姻状态
|
||
- 是否本地户籍
|
||
- 子女数量
|
||
- 是否独生子女家庭负担
|
||
- 居住类型
|
||
|
||
### 3.3 工作负荷字段
|
||
|
||
- 班次类型
|
||
- 是否夜班岗位
|
||
- 月均加班时长
|
||
- 近30天出勤天数
|
||
- 近90天缺勤次数
|
||
- 近180天请假总时长
|
||
- 通勤时长分钟
|
||
- 通勤距离公里
|
||
- 是否跨城通勤
|
||
- 绩效等级
|
||
- 近12月违纪次数
|
||
- 团队人数
|
||
- 直属上级管理跨度
|
||
|
||
### 3.4 健康与生活方式字段
|
||
|
||
- BMI
|
||
- 是否慢性病史
|
||
- 年度体检异常标记
|
||
- 近30天睡眠时长均值
|
||
- 每周运动频次
|
||
- 是否吸烟
|
||
- 是否饮酒
|
||
- 心理压力等级
|
||
- 是否长期久坐岗位
|
||
|
||
### 3.5 缺勤事件字段
|
||
|
||
- 缺勤月份
|
||
- 星期几
|
||
- 是否节假日前后
|
||
- 季节
|
||
- 请假申请渠道
|
||
- 请假类型
|
||
- 请假原因大类
|
||
- 是否提供医院证明
|
||
- 是否临时请假
|
||
- 是否连续缺勤
|
||
- 前一工作日是否加班
|
||
- 缺勤时长(小时)
|
||
|
||
## 4. 目标变量设计
|
||
|
||
目标变量:
|
||
|
||
- `缺勤时长(小时)`
|
||
|
||
风险等级映射:
|
||
|
||
- 小于 4 小时:低风险
|
||
- 4 至 8 小时:中风险
|
||
- 大于 8 小时:高风险
|
||
|
||
## 5. 特征工程设计
|
||
|
||
系统在原始字段基础上构建以下衍生特征:
|
||
|
||
- 加班通勤压力指数
|
||
- 家庭负担指数
|
||
- 健康风险指数
|
||
- 岗位稳定性指数
|
||
- 节假日风险标记
|
||
- 排班压力标记
|
||
- 缺勤历史强度
|
||
- 生活规律指数
|
||
- 管理负荷指数
|
||
- 工龄分层
|
||
- 年龄分层
|
||
- 通勤分层
|
||
- 加班分层
|
||
|
||
## 6. 数据生成逻辑
|
||
|
||
### 6.1 生成原则
|
||
|
||
- 结合中国企业实际管理场景设计字段
|
||
- 保证类别分布与数值范围具有合理性
|
||
- 让关键特征和目标变量之间保持稳定、可学习关系
|
||
|
||
### 6.2 影响关系示例
|
||
|
||
- 请假类型对缺勤时长有显著影响
|
||
- 医院证明通常对应更高缺勤时长
|
||
- 夜班、长通勤和高加班会提升缺勤风险
|
||
- 慢性病史和健康异常会提升缺勤时长
|
||
- 年假和调休通常对应较短缺勤时长
|
||
|
||
## 7. 数据质量要求
|
||
|
||
- 无大量缺失值
|
||
- 类别字段取值可控
|
||
- 数值字段范围合理
|
||
- 高风险比例处于可接受范围
|
||
- 关键变量与目标方向关系合理
|
||
|
||
## 8. 当前数据集统计
|
||
|
||
- 样本量:12000
|
||
- 员工覆盖数:2575
|
||
- 企业覆盖数:180
|
||
- 行业数:7
|
||
- 字段总数:52
|
||
|
||
详细统计可参考:
|
||
|
||
- [中国企业缺勤模拟数据集说明.md](D:/VScodeProject/forsetsystem/中国企业缺勤模拟数据集说明.md)
|