Files
forsetsystem/docs/03_数据设计文档.md
shenjianZ e63267cef6 feat: 将数据集从国外员工缺勤数据替换为中国企业缺勤模拟数据
- 新增中国企业员工缺勤模拟数据集生成脚本(generate_dataset.py),覆盖7个行业、180家企业、2600名员工
  - 重构 config.py,更新特征字段为中文名称,调整目标列、员工ID、行业类型等配置
  - 重构 clustering.py,简化聚类逻辑,更新聚类特征和群体命名(高压通勤型、健康波动型等)
  - 重构 feature_mining.py,更新相关性分析和群体比较维度(按行业、班次、婚姻状态等)
  - 新增 model_features.py 定义模型训练特征
  - 更新 preprocessing.py 和 train_model.py 适配新数据结构
  - 更新各 API 路由默认参数(model: random_forest, dimension: industry)
  - 前端更新主题样式和各视图组件适配中文字段
  - 更新系统名称为 China Enterprise Absence Analysis System
2026-03-11 10:46:58 +08:00

151 lines
3.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 数据设计文档
## 1. 数据集说明
本系统数据集为中国企业员工缺勤事件数据集。每条记录表示一次员工缺勤事件,预测目标为缺勤时长(小时)。
数据文件:
- `backend/data/raw/china_enterprise_absence_events.csv`
## 2. 数据粒度
- 记录粒度:单次缺勤事件
- 员工粒度:同一员工可对应多条缺勤记录
- 企业粒度:多个企业组成整体样本池
## 3. 字段分类
### 3.1 企业与组织字段
- 企业编号
- 所属行业
- 企业规模
- 所在城市等级
- 用工类型
- 部门条线
- 岗位序列
- 岗位级别
### 3.2 员工基础字段
- 员工编号
- 性别
- 年龄
- 司龄年数
- 最高学历
- 婚姻状态
- 是否本地户籍
- 子女数量
- 是否独生子女家庭负担
- 居住类型
### 3.3 工作负荷字段
- 班次类型
- 是否夜班岗位
- 月均加班时长
- 近30天出勤天数
- 近90天缺勤次数
- 近180天请假总时长
- 通勤时长分钟
- 通勤距离公里
- 是否跨城通勤
- 绩效等级
- 近12月违纪次数
- 团队人数
- 直属上级管理跨度
### 3.4 健康与生活方式字段
- BMI
- 是否慢性病史
- 年度体检异常标记
- 近30天睡眠时长均值
- 每周运动频次
- 是否吸烟
- 是否饮酒
- 心理压力等级
- 是否长期久坐岗位
### 3.5 缺勤事件字段
- 缺勤月份
- 星期几
- 是否节假日前后
- 季节
- 请假申请渠道
- 请假类型
- 请假原因大类
- 是否提供医院证明
- 是否临时请假
- 是否连续缺勤
- 前一工作日是否加班
- 缺勤时长(小时)
## 4. 目标变量设计
目标变量:
- `缺勤时长(小时)`
风险等级映射:
- 小于 4 小时:低风险
- 4 至 8 小时:中风险
- 大于 8 小时:高风险
## 5. 特征工程设计
系统在原始字段基础上构建以下衍生特征:
- 加班通勤压力指数
- 家庭负担指数
- 健康风险指数
- 岗位稳定性指数
- 节假日风险标记
- 排班压力标记
- 缺勤历史强度
- 生活规律指数
- 管理负荷指数
- 工龄分层
- 年龄分层
- 通勤分层
- 加班分层
## 6. 数据生成逻辑
### 6.1 生成原则
- 结合中国企业实际管理场景设计字段
- 保证类别分布与数值范围具有合理性
- 让关键特征和目标变量之间保持稳定、可学习关系
### 6.2 影响关系示例
- 请假类型对缺勤时长有显著影响
- 医院证明通常对应更高缺勤时长
- 夜班、长通勤和高加班会提升缺勤风险
- 慢性病史和健康异常会提升缺勤时长
- 年假和调休通常对应较短缺勤时长
## 7. 数据质量要求
- 无大量缺失值
- 类别字段取值可控
- 数值字段范围合理
- 高风险比例处于可接受范围
- 关键变量与目标方向关系合理
## 8. 当前数据集统计
- 样本量12000
- 员工覆盖数2575
- 企业覆盖数180
- 行业数7
- 字段总数52
详细统计可参考:
- [中国企业缺勤模拟数据集说明.md](D:/VScodeProject/forsetsystem/中国企业缺勤模拟数据集说明.md)