Files
forsetsystem/docs/03_数据设计文档.md
shenjianZ e63267cef6 feat: 将数据集从国外员工缺勤数据替换为中国企业缺勤模拟数据
- 新增中国企业员工缺勤模拟数据集生成脚本(generate_dataset.py),覆盖7个行业、180家企业、2600名员工
  - 重构 config.py,更新特征字段为中文名称,调整目标列、员工ID、行业类型等配置
  - 重构 clustering.py,简化聚类逻辑,更新聚类特征和群体命名(高压通勤型、健康波动型等)
  - 重构 feature_mining.py,更新相关性分析和群体比较维度(按行业、班次、婚姻状态等)
  - 新增 model_features.py 定义模型训练特征
  - 更新 preprocessing.py 和 train_model.py 适配新数据结构
  - 更新各 API 路由默认参数(model: random_forest, dimension: industry)
  - 前端更新主题样式和各视图组件适配中文字段
  - 更新系统名称为 China Enterprise Absence Analysis System
2026-03-11 10:46:58 +08:00

3.0 KiB
Raw Blame History

数据设计文档

1. 数据集说明

本系统数据集为中国企业员工缺勤事件数据集。每条记录表示一次员工缺勤事件,预测目标为缺勤时长(小时)。

数据文件:

  • backend/data/raw/china_enterprise_absence_events.csv

2. 数据粒度

  • 记录粒度:单次缺勤事件
  • 员工粒度:同一员工可对应多条缺勤记录
  • 企业粒度:多个企业组成整体样本池

3. 字段分类

3.1 企业与组织字段

  • 企业编号
  • 所属行业
  • 企业规模
  • 所在城市等级
  • 用工类型
  • 部门条线
  • 岗位序列
  • 岗位级别

3.2 员工基础字段

  • 员工编号
  • 性别
  • 年龄
  • 司龄年数
  • 最高学历
  • 婚姻状态
  • 是否本地户籍
  • 子女数量
  • 是否独生子女家庭负担
  • 居住类型

3.3 工作负荷字段

  • 班次类型
  • 是否夜班岗位
  • 月均加班时长
  • 近30天出勤天数
  • 近90天缺勤次数
  • 近180天请假总时长
  • 通勤时长分钟
  • 通勤距离公里
  • 是否跨城通勤
  • 绩效等级
  • 近12月违纪次数
  • 团队人数
  • 直属上级管理跨度

3.4 健康与生活方式字段

  • BMI
  • 是否慢性病史
  • 年度体检异常标记
  • 近30天睡眠时长均值
  • 每周运动频次
  • 是否吸烟
  • 是否饮酒
  • 心理压力等级
  • 是否长期久坐岗位

3.5 缺勤事件字段

  • 缺勤月份
  • 星期几
  • 是否节假日前后
  • 季节
  • 请假申请渠道
  • 请假类型
  • 请假原因大类
  • 是否提供医院证明
  • 是否临时请假
  • 是否连续缺勤
  • 前一工作日是否加班
  • 缺勤时长(小时)

4. 目标变量设计

目标变量:

  • 缺勤时长(小时)

风险等级映射:

  • 小于 4 小时:低风险
  • 4 至 8 小时:中风险
  • 大于 8 小时:高风险

5. 特征工程设计

系统在原始字段基础上构建以下衍生特征:

  • 加班通勤压力指数
  • 家庭负担指数
  • 健康风险指数
  • 岗位稳定性指数
  • 节假日风险标记
  • 排班压力标记
  • 缺勤历史强度
  • 生活规律指数
  • 管理负荷指数
  • 工龄分层
  • 年龄分层
  • 通勤分层
  • 加班分层

6. 数据生成逻辑

6.1 生成原则

  • 结合中国企业实际管理场景设计字段
  • 保证类别分布与数值范围具有合理性
  • 让关键特征和目标变量之间保持稳定、可学习关系

6.2 影响关系示例

  • 请假类型对缺勤时长有显著影响
  • 医院证明通常对应更高缺勤时长
  • 夜班、长通勤和高加班会提升缺勤风险
  • 慢性病史和健康异常会提升缺勤时长
  • 年假和调休通常对应较短缺勤时长

7. 数据质量要求

  • 无大量缺失值
  • 类别字段取值可控
  • 数值字段范围合理
  • 高风险比例处于可接受范围
  • 关键变量与目标方向关系合理

8. 当前数据集统计

  • 样本量12000
  • 员工覆盖数2575
  • 企业覆盖数180
  • 行业数7
  • 字段总数52

详细统计可参考: