feat: 将数据集从国外员工缺勤数据替换为中国企业缺勤模拟数据

- 新增中国企业员工缺勤模拟数据集生成脚本(generate_dataset.py)，覆盖7个行业、180家企业、2600名员工 - 重构 config.py，更新特征字段为中文名称，调整目标列、员工ID、行业类型等配置 - 重构 clustering.py，简化聚类逻辑，更新聚类特征和群体命名（高压通勤型、健康波动型等） - 重构 feature_mining.py，更新相关性分析和群体比较维度（按行业、班次、婚姻状态等） - 新增 model_features.py 定义模型训练特征 - 更新 preprocessing.py 和 train_model.py 适配新数据结构 - 更新各 API 路由默认参数（model: random_forest, dimension: industry） - 前端更新主题样式和各视图组件适配中文字段 - 更新系统名称为 China Enterprise Absence Analysis System
2026-03-11 10:46:58 +08:00
parent a39d8b2fd2
commit e63267cef6
39 changed files with 15731 additions and 5648 deletions
--- a/docs/08_答辩汇报提纲.md
+++ b/docs/08_答辩汇报提纲.md
@@ -0,0 +1,61 @@
+# 答辩汇报提纲
+
+## 1. 课题背景
+
+- 企业缺勤管理存在统计分散、分析不及时、预测能力不足的问题
+- 本课题旨在构建一个可视化、可分析、可预测的缺勤管理辅助系统
+
+## 2. 课题目标
+
+- 展示缺勤数据整体分布
+- 分析关键影响因素
+- 实现缺勤风险预测
+- 构建员工群体画像
+
+## 3. 系统总体设计
+
+- 前后端分离架构
+- 前端负责界面与图表
+- 后端负责数据处理、模型预测与聚类分析
+
+## 4. 核心功能展示顺序
+
+### 4.1 数据概览
+
+- 展示总量指标
+- 展示月度趋势、星期分布、原因分布、季节分布
+
+### 4.2 影响因素分析
+
+- 展示特征重要性排序
+- 解释为什么请假类型、医院证明、加班通勤压力等因素更重要
+
+### 4.3 缺勤预测
+
+- 输入关键字段
+- 展示预测时长与风险等级
+- 展示模型对比结果
+
+### 4.4 员工画像
+
+- 展示群体雷达图
+- 展示聚类结果与散点图
+
+## 5. 技术实现亮点
+
+- 前后端分离结构清晰
+- 采用多模型训练与比较
+- 融合特征工程与聚类分析
+- 前端页面采用卡片式可视化布局，适合展示
+
+## 6. 项目成果
+
+- 系统可完成统计、分析、预测、画像四类任务
+- 页面可视化效果完整
+- 项目文档和论文材料配套齐全
+
+## 7. 不足与改进方向
+
+- 可进一步引入真实企业数据
+- 可加入更复杂的深度学习模型
+- 可引入权限管理、报表导出和数据库存储