feat: 初始化员工缺勤分析系统项目

搭建完整的前后端分离架构,实现数据概览、预测分析、聚类分析等核心功能模块

  详细版:
  feat: 初始化员工缺勤分析系统项目

  - 后端:基于 Flask 搭建 RESTful API,包含数据概览、特征分析、预测模型、聚类分析四大模块
  - 前端:基于 Vue.js 构建单页应用,实现 Dashboard、预测、聚类、因子分析等页面
  - 模型:集成随机森林、XGBoost、LightGBM、Stacking 等多种机器学习模型
  - 文档:完成需求规格说明、系统架构设计、接口设计、数据设计、UI原型设计等文档
This commit is contained in:
2026-03-08 14:48:26 +08:00
commit a39d8b2fd2
48 changed files with 9546 additions and 0 deletions

83
docs/0.md Normal file
View File

@@ -0,0 +1,83 @@
既然你的题目是**《基于多维特征挖掘的员工缺勤影响因素分析与预测研究》**,你的前端就不应该是一个“考勤录入系统”(比如点击“打卡”按钮),而应该是一个**“数据分析与可视化大屏”**。
你的前端核心任务是:**把算法跑出来的结果,用图表漂亮地展示出来,并提供一个交互式的“预测窗口”。**
以下是为你规划的**前端功能模块4-5个页面**,每个页面都直接对应你的题目和算法:
---
### 页面一:数据概览与全局统计
**目的:** 让人一眼看懂数据集的整体情况。
* **关键指标卡片KPI**
* 总样本数例如740
* 平均缺勤时长
* 高风险员工占比
* 最常见的缺勤原因(例如:牙科咨询)
* **可视化图表:**
* **缺勤原因分布饼图:** 展示各种 ICD 疾病代码(或医疗咨询、献血等)的比例。
* **每月缺勤趋势折线图:** 横轴是1-12月纵轴是缺勤总时长看看哪个月大家最爱请假是不是夏天
* **星期几缺勤热力图:** 周一到周五,哪天颜色最深(缺勤最多)。
---
### 页面二:影响因素分析 —— **对应题目的“影响因素分析”**
**目的:** 展示你的核心算法成果(特征重要性、相关性),回答“为什么缺勤”。
* **核心图表 1特征重要性排序条形图**
* **内容:** 横轴是特征距离、BMI、饮酒、工龄...),纵轴是重要性得分。
* **设计:** 降序排列,最高的那个(比如 Reason for absence 或 Service time在最上面或最左边。
* **交互:** 鼠标悬停显示具体分数。
* **核心图表 2相关性热力图**
* **内容:** 展示各个字段之间的相关系数矩阵。
* **亮点:** 高亮显示“饮酒”与“缺勤时长”的交点,或者“通勤距离”与“缺勤时长”的交点,颜色越深代表关联越强。
* **群体对比分析:**
* **柱状图:** 饮酒者 vs 不饮酒者的平均缺勤时长对比。
* **柱状图:** 高学历 vs 低学历的缺勤时长对比。
---
### 页面三:缺勤预测模型 —— **对应题目的“预测研究”**
**目的:** 提供一个交互窗口,演示你的 XGBoost/随机森林模型是如何工作的。
* **左侧:参数输入表单**
* 设计一个表单,列出数据集中的关键字段(供用户填写):
* *ID*:随意填(如 36
* *Reason for absence*下拉菜单1-28 或 归类后的“疾病/个人事务”)
* *Month*下拉菜单1-12
* *Day of week*:下拉菜单(周一-周五)
* *Transportation expense*滑动条或输入框例如200
* *Distance from Residence to Work*输入框例如15
* *Service time*输入框例如10年
* *Age*输入框例如35
* *Work load Average/day*输入框例如250000
* *Hit target*输入框例如90%
* *Disciplinary failure*:单选框(是/否)
* *Education*:下拉菜单(高中/本科/硕士...
* *Son*数字输入0, 1, 2...
* *Social drinker*:单选框(是/否)
* *Social smoker*:单选框(是/否)
* *Pet*:数字输入
* *Body mass index*输入框例如25
* **底部按钮:** **“开始预测”**
* **右侧:预测结果展示**
* **结果数字:** 预测的缺勤时长(例如:预测结果 8 小时)。
* **风险等级:**
* < 4小时绿色标签低风险
* 4-8小时黄色标签中风险
* > 8小时红色标签高风险警钟图标
* **模型可信度:** 显示当前模型的准确率例如85% Accuracy
---
### 页面四:员工画像与聚类 —— **对应“多维特征挖掘”的进阶**
**目的:** 展示 K-Means 聚类算法挖掘出的群体特征。
* **雷达图:**
* 画 3-4 个多边形,代表 3-4 类员工(如:模范型、压力型、生活习惯型)。
* 轴向维度:[年龄, 工龄, 负荷, BMI, 缺勤倾向]。
* 让人一眼看出不同群体的差异(例如:压力型的“负荷”轴特别长)。
* **散点图:**
* 横轴:年龄,纵轴:缺勤时长。点按聚类结果着色(红点、蓝点、绿点)。
---
### 推荐技术栈(实现难度低,效果好)
为了在短时间内做出漂亮的图表,推荐以下组合:
1. **前端框架:** **Vue.js** (Vue 3) 或 **React**。推荐 Vue国内毕设用得极多文档好查。
2. **UI 组件库:** **Element Plus** (配合 Vue) 或 **Ant Design**
* 这里面的表单组件、卡片、按钮可以直接拖过来用,不用自己写 CSS。
3. **图表库:** **ECharts** (百度开源的)。
* **必杀技:** 它的柱状图、饼图、雷达图、热力图效果非常炫酷,支持动画,非常适合答辩演示。
4. **后端接口:** Python **Flask****FastAPI**
* 写几个简单的 API 接口(`/api/predict`, `/api/feature_importance`),前端调这些接口拿数据。
### 答辩时的演示脚本
1. **打开页面一:** “大家请看,这是 700 多条数据的概览,我们发现周五的缺勤率最高...”
2. **打开页面二:** “通过随机森林算法,我们计算了各因素的影响权重,发现‘通勤距离’和‘工作负荷’是导致缺勤的两大主因...”
3. **打开页面三:** “为了验证模型实用性,我构建了这个预测模块。假设我们有一个 35 岁、住得很远、爱喝酒的员工,系统预测他可能会缺勤 8 小时,属于高风险...”
4. **打开页面四:** “最后通过聚类分析我们将员工分为了三类红色群体是高压高负荷群体建议HR重点关注...”
这样一套下来,你的前端不仅漂亮,而且逻辑紧扣题目,绝对是加分项!

View File

@@ -0,0 +1,609 @@
# 需求规格说明书
## 基于多维特征挖掘的员工缺勤分析与预测系统
**文档版本**V1.0
**编写日期**2026年3月
**编写人**:张硕
---
## 1. 引言
### 1.1 编写目的
本文档旨在详细说明"基于多维特征挖掘的员工缺勤分析与预测系统"的功能需求和非功能需求,为系统的设计、开发、测试和验收提供依据。本文档的预期读者包括:
- 项目指导教师
- 系统开发人员
- 测试人员
- 项目评审专家
### 1.2 项目背景
#### 1.2.1 课题来源
本课题为河南农业大学软件学院本科毕业设计项目。
#### 1.2.2 项目背景
随着企业数字化转型的深入推进,人力资源管理正从经验驱动向数据驱动转变。员工缺勤作为影响企业运营效率的重要因素,其背后蕴含着丰富的多维度信息。传统的缺勤管理方式主要依赖人工统计和经验判断,缺乏对多维度特征之间复杂关系的深入挖掘。
本系统基于UCI Absenteeism数据集利用机器学习算法对员工考勤数据进行深度分析挖掘影响缺勤的多维度特征构建缺勤预测模型为企业人力资源管理提供科学、客观的决策支持。
#### 1.2.3 术语定义
| 术语 | 定义 |
|------|------|
| UCI | University of California Irvine加州大学欧文分校著名的机器学习数据集仓库 |
| ICD | International Classification of Diseases国际疾病分类代码 |
| 缺勤 | 员工在应该工作的时间内未出勤的情况 |
| 特征挖掘 | 从原始数据中提取有价值的特征信息的过程 |
| K-Means | 一种经典的无监督聚类算法 |
| 随机森林 | 一种基于决策树的集成学习算法 |
| XGBoost | 一种高效的梯度提升算法 |
---
## 2. 项目概述
### 2.1 项目目标
本项目的核心目标是设计并实现一个完整的员工缺勤分析与预测系统,具体目标如下:
1. **数据概览**:提供直观的数据统计和可视化展示,帮助企业快速了解整体考勤状况
2. **因素分析**:挖掘影响缺勤的关键因素,回答"为什么缺勤"的问题
3. **风险预测**:构建预测模型,实现对员工缺勤风险的精准识别和预警
4. **员工画像**:利用聚类算法对员工进行分群,实现精细化管理
### 2.2 功能概述
系统包含四大核心功能模块:
| 模块编号 | 模块名称 | 功能概述 |
|----------|----------|----------|
| F01 | 数据概览与全局统计 | 展示基础统计指标、时间维度趋势、缺勤原因分布 |
| F02 | 多维特征挖掘与影响因素分析 | 特征重要性排序、相关性分析、群体对比 |
| F03 | 员工缺勤风险预测 | 单次预测、风险等级评估、模型性能展示 |
| F04 | 员工画像与群体聚类 | K-Means聚类、群体雷达图、散点图展示 |
### 2.3 用户特征
系统的目标用户主要包括:
| 用户类型 | 描述 | 主要使用场景 |
|----------|------|--------------|
| HR管理人员 | 企业人力资源部门工作人员 | 查看考勤统计、识别高风险员工、制定管理策略 |
| 部门主管 | 各业务部门负责人 | 了解本部门员工考勤情况、优化工作安排 |
| 数据分析师 | 企业数据分析人员 | 深入分析考勤数据、挖掘潜在规律 |
### 2.4 运行环境
#### 2.4.1 硬件环境
| 项目 | 最低配置 | 推荐配置 |
|------|----------|----------|
| CPU | 双核 2.0GHz | 四核 2.5GHz及以上 |
| 内存 | 4GB | 8GB及以上 |
| 硬盘 | 10GB可用空间 | 20GB及以上 |
| 网络 | 10Mbps | 100Mbps及以上 |
#### 2.4.2 软件环境
| 项目 | 要求 |
|------|------|
| 操作系统 | Windows 10/11、Linux、macOS |
| 浏览器 | Chrome 90+、Firefox 88+、Edge 90+ |
| Python版本 | 3.8及以上 |
| Node.js版本 | 16.0及以上 |
---
## 3. 功能需求
### 3.1 F01 数据概览与全局统计
#### 3.1.1 F01-01 基础统计指标展示
**功能描述**:系统自动加载数据集,计算并展示关键统计指标。
**输入**:无(自动加载)
**输出**
| 指标名称 | 说明 |
|----------|------|
| 样本总数 | 数据集中的记录总数 |
| 员工总数 | 去重后的员工人数 |
| 缺勤总时长 | 所有记录的缺勤小时数总和 |
| 平均缺勤时长 | 每条记录的平均缺勤小时数 |
| 最大缺勤时长 | 单次最大缺勤小时数 |
| 最小缺勤时长 | 单次最小缺勤小时数 |
| 高风险员工占比 | 缺勤时长超过8小时的员工比例 |
**业务规则**
- 高风险定义:单次缺勤时长 > 8小时
- 统计数据实时计算,不缓存
**界面展示**以KPI卡片形式展示每个指标一张卡片。
---
#### 3.1.2 F01-02 月度缺勤趋势分析
**功能描述**以折线图形式展示全年1-12月的缺勤变化趋势。
**输入**:无
**输出**
| 字段 | 说明 |
|------|------|
| month | 月份1-12 |
| total_hours | 该月缺勤总时长 |
| avg_hours | 该月平均缺勤时长 |
| record_count | 该月记录数 |
**界面展示**
- 图表类型:折线图
- 横轴月份1-12月
- 纵轴:缺勤时长(小时)
- 支持鼠标悬停显示具体数值
---
#### 3.1.3 F01-03 星期分布分析
**功能描述**:分析周一至周五的缺勤分布情况。
**输入**:无
**输出**
| 字段 | 说明 |
|------|------|
| weekday | 星期(周一至周五) |
| total_hours | 该星期缺勤总时长 |
| avg_hours | 该星期平均缺勤时长 |
| record_count | 该星期记录数 |
**界面展示**
- 图表类型:柱状图或热力图
- 横轴:星期(周一至周五)
- 纵轴:缺勤时长或记录数
---
#### 3.1.4 F01-04 缺勤原因分布分析
**功能描述**:展示各类缺勤原因的占比分布。
**输入**:无
**输出**
| 字段 | 说明 |
|------|------|
| reason_code | 缺勤原因代码0-28 |
| reason_name | 缺勤原因名称 |
| count | 该原因出现次数 |
| percentage | 占比百分比 |
**缺勤原因分类**
| 代码范围 | 类别 | 说明 |
|----------|------|------|
| 1-21 | ICD疾病 | 国际疾病分类代码 |
| 22 | 医疗随访 | 患者随访 |
| 23 | 医疗咨询 | 门诊咨询 |
| 24 | 献血 | 无偿献血 |
| 25 | 实验室检查 | 医学检查 |
| 26 | 无故缺勤 | 未经批准的缺勤 |
| 27 | 理疗 | 物理治疗 |
| 28 | 牙科咨询 | 口腔科就诊 |
| 0 | 未知 | 原因未记录 |
**界面展示**
- 图表类型:饼图
- 显示各类原因的占比
- 支持点击查看详情
---
### 3.2 F02 多维特征挖掘与影响因素分析
#### 3.2.1 F02-01 特征重要性排序
**功能描述**:利用训练好的随机森林模型,计算各维度特征对缺勤的影响权重。
**输入**:无
**输出**
| 字段 | 说明 |
|------|------|
| feature_name | 特征名称 |
| importance_score | 重要性得分0-1 |
| rank | 排名 |
**分析的特征包括**
| 特征名称 | 中文名称 | 特征类型 |
|----------|----------|----------|
| Reason for absence | 缺勤原因 | 类别型 |
| Month of absence | 缺勤月份 | 类别型 |
| Day of the week | 星期几 | 类别型 |
| Seasons | 季节 | 类别型 |
| Transportation expense | 交通费用 | 数值型 |
| Distance from Residence to Work | 通勤距离 | 数值型 |
| Service time | 工龄 | 数值型 |
| Age | 年龄 | 数值型 |
| Work load Average/day | 日均工作负荷 | 数值型 |
| Hit target | 达标率 | 数值型 |
| Disciplinary failure | 违纪记录 | 二分类 |
| Education | 学历 | 类别型 |
| Son | 子女数量 | 数值型 |
| Social drinker | 饮酒习惯 | 二分类 |
| Social smoker | 吸烟习惯 | 二分类 |
| Pet | 宠物数量 | 数值型 |
| Body mass index | BMI指数 | 数值型 |
**界面展示**
- 图表类型:水平柱状图
- 按重要性得分降序排列
- 鼠标悬停显示具体分数
---
#### 3.2.2 F02-02 相关性热力图分析
**功能描述**:计算特征之间的皮尔逊相关系数,以热力图形式展示。
**输入**:无
**输出**相关系数矩阵n×n
**重点关注的关联**
- 生活习惯(饮酒、吸烟)与缺勤时长的相关性
- 通勤距离与缺勤时长的相关性
- 工作负荷与缺勤时长的相关性
**界面展示**
- 图表类型:热力图
- 颜色范围:-1负相关蓝色到 +1正相关红色
- 支持鼠标悬停显示具体相关系数
---
#### 3.2.3 F02-03 群体对比分析
**功能描述**:按不同维度分组,对比各组的平均缺勤时长。
**支持的对比维度**
| 维度 | 分组 |
|------|------|
| 饮酒习惯 | 饮酒者 vs 不饮酒者 |
| 吸烟习惯 | 吸烟者 vs 不吸烟者 |
| 学历 | 高中 vs 本科 vs 研究生及以上 |
| 是否有子女 | 有子女 vs 无子女 |
| 是否有宠物 | 有宠物 vs 无宠物 |
**输出**
| 字段 | 说明 |
|------|------|
| group_name | 分组名称 |
| avg_hours | 平均缺勤时长 |
| count | 记录数 |
**界面展示**
- 图表类型:分组柱状图
- 支持切换不同的对比维度
- 显示差异百分比
---
### 3.3 F03 员工缺勤风险预测
#### 3.3.1 F03-01 单次缺勤预测
**功能描述**:接收用户输入的员工属性,调用预测模型返回预测的缺勤时长。
**输入参数**
| 参数名 | 类型 | 取值范围 | 必填 |
|--------|------|----------|------|
| reason_for_absence | int | 0-28 | 是 |
| month_of_absence | int | 1-12 | 是 |
| day_of_week | int | 2-6 | 是 |
| seasons | int | 1-4 | 是 |
| transportation_expense | int | 100-400 | 是 |
| distance | int | 1-60 | 是 |
| service_time | int | 1-30 | 是 |
| age | int | 18-60 | 是 |
| work_load | float | 200-350 | 是 |
| hit_target | int | 80-100 | 是 |
| disciplinary_failure | int | 0-1 | 是 |
| education | int | 1-4 | 是 |
| son | int | 0-5 | 是 |
| social_drinker | int | 0-1 | 是 |
| social_smoker | int | 0-1 | 是 |
| pet | int | 0-10 | 是 |
| bmi | float | 18-40 | 是 |
**输出**
| 字段 | 说明 |
|------|------|
| predicted_hours | 预测的缺勤时长(小时) |
| risk_level | 风险等级low/medium/high |
| confidence | 模型置信度 |
**风险等级判定规则**
| 预测时长 | 风险等级 | 颜色标识 |
|----------|----------|----------|
| < 4小时 | 低风险low | 绿色 |
| 4-8小时 | 中风险medium | 黄色 |
| > 8小时 | 高风险high | 红色 |
**界面展示**
- 左侧:参数输入表单
- 右侧:预测结果展示
- 底部:开始预测按钮
---
#### 3.3.2 F03-02 风险等级评估
**功能描述**:根据预测结果,自动评估并展示风险等级。
**业务规则**
- 风险等级根据预测时长自动计算
- 高风险员工需要特别关注标识
- 支持风险等级的筛选和统计
---
#### 3.3.3 F03-03 模型性能展示
**功能描述**:展示当前预测模型的性能指标。
**输出指标**
| 指标名称 | 说明 | 目标值 |
|----------|------|--------|
| R² | 决定系数 | ≥ 0.80 |
| MSE | 均方误差 | - |
| RMSE | 均方根误差 | - |
| MAE | 平均绝对误差 | - |
| 训练样本数 | 模型训练使用的样本量 | - |
**界面展示**
- 以卡片形式展示各指标
- 包含模型类型说明(随机森林/XGBoost
---
### 3.4 F04 员工画像与群体聚类
#### 3.4.1 F04-01 K-Means聚类结果展示
**功能描述**利用K-Means算法对员工进行聚类分析。
**输入参数**(可选):
| 参数名 | 类型 | 默认值 | 说明 |
|--------|------|--------|------|
| n_clusters | int | 3 | 聚类数量 |
**输出**
| 字段 | 说明 |
|------|------|
| cluster_id | 聚类编号 |
| cluster_name | 聚类名称(自动生成或人工标注) |
| member_count | 该聚类包含的员工数 |
| center_point | 聚类中心点坐标 |
**聚类特征维度**
- 年龄
- 工龄
- 工作负荷
- BMI指数
- 缺勤倾向
---
#### 3.4.2 F04-02 员工群体雷达图
**功能描述**:以雷达图形式展示各聚类群体的特征分布。
**输出**
- 各聚类在多个维度上的特征值(归一化后)
**界面展示**
- 图表类型:雷达图
- 每个聚类用不同颜色表示
- 维度年龄、工龄、工作负荷、BMI、缺勤倾向
---
#### 3.4.3 F04-03 聚类散点图
**功能描述**:以散点图形式展示员工在聚类空间的分布。
**输出**
| 字段 | 说明 |
|------|------|
| employee_id | 员工ID |
| x | 横坐标年龄或PCA降维后的第一主成分 |
| y | 纵坐标缺勤时长或PCA降维后的第二主成分 |
| cluster_id | 所属聚类编号 |
**界面展示**
- 图表类型:散点图
- 不同聚类用不同颜色区分
- 支持鼠标悬停查看员工详情
---
## 4. 非功能需求
### 4.1 性能需求
| 指标 | 要求 |
|------|------|
| 页面加载时间 | 首屏加载时间 ≤ 3秒 |
| 接口响应时间 | 普通查询接口 ≤ 500ms |
| 预测接口响应时间 | ≤ 1秒 |
| 并发用户数 | 支持10个并发用户 |
| 数据处理能力 | 支持10000条以上记录处理 |
### 4.2 安全需求
| 需求项 | 说明 |
|--------|------|
| 数据安全 | 数据文件存储安全,防止未授权访问 |
| 接口安全 | API接口具备基本的访问控制 |
| 输入验证 | 前后端均需对用户输入进行校验 |
| 错误处理 | 不向前端暴露敏感的错误信息 |
### 4.3 可用性需求
| 需求项 | 说明 |
|--------|------|
| 界面友好 | 界面简洁明了,操作直观 |
| 响应式设计 | 支持不同屏幕尺寸访问 |
| 错误提示 | 提供清晰的错误提示和操作引导 |
| 帮助信息 | 关键功能提供操作提示 |
| 可访问性 | 支持主流浏览器访问 |
### 4.4 兼容性需求
| 类型 | 要求 |
|------|------|
| 浏览器兼容 | Chrome 90+、Firefox 88+、Edge 90+、Safari 14+ |
| 操作系统 | Windows 10/11、macOS 10.15+、主流Linux发行版 |
| 屏幕分辨率 | 支持1366×768及以上分辨率 |
### 4.5 可维护性需求
| 需求项 | 说明 |
|--------|------|
| 代码规范 | 遵循Python PEP8和Vue风格指南 |
| 注释文档 | 关键代码提供注释说明 |
| 模块化设计 | 高内聚低耦合,便于维护扩展 |
| 版本控制 | 使用Git进行版本管理 |
---
## 5. 用例图与用例描述
### 5.1 用例图
```
+------------------------------------------+
| 员工缺勤分析与预测系统 |
| |
| +------------------+ |
| | F01 数据概览 | |
| +------------------+ |
| | - 基础统计 | |
| | - 月度趋势 | |
| | - 星期分布 | |
| | - 原因分布 | |
| +------------------+ |
| |
| +------------------+ |
| | F02 影响因素分析 | |
| +------------------+ |
+--------+ | | - 特征重要性 | +--------+ |
| |------>| | - 相关性分析 |<------| | |
| 用户 | | | - 群体对比 | | 用户 | |
| |<------| +------------------+ | | |
+--------+ | +--------+ |
| +------------------+ | | |
| | F03 缺勤预测 |<----| 用户 | |
| +------------------+ | | |
| | - 单次预测 | +--------+ |
| | - 风险评估 | |
| | - 模型性能 | |
| +------------------+ |
| |
| +------------------+ |
| | F04 员工画像 | |
| +------------------+ |
| | - 聚类结果 | |
| | - 群体雷达图 | |
| | - 散点图 | |
| +------------------+ |
| |
+------------------------------------------+
```
### 5.2 用例详细描述
#### UC01 查看数据概览
| 项目 | 描述 |
|------|------|
| 用例名称 | 查看数据概览 |
| 参与者 | 用户 |
| 前置条件 | 用户已打开系统 |
| 主要流程 | 1. 系统加载数据集<br>2. 计算基础统计指标<br>3. 展示KPI卡片<br>4. 渲染月度趋势图<br>5. 渲染星期分布图<br>6. 渲染原因分布饼图 |
| 后置条件 | 数据概览页面展示完成 |
| 异常流程 | 数据加载失败时显示错误提示 |
#### UC02 分析影响因素
| 项目 | 描述 |
|------|------|
| 用例名称 | 分析影响因素 |
| 参与者 | 用户 |
| 前置条件 | 预测模型已训练完成 |
| 主要流程 | 1. 加载训练好的模型<br>2. 提取特征重要性<br>3. 计算相关系数矩阵<br>4. 展示特征重要性柱状图<br>5. 展示相关性热力图<br>6. 支持切换群体对比维度 |
| 后置条件 | 影响因素分析结果展示完成 |
#### UC03 进行缺勤预测
| 项目 | 描述 |
|------|------|
| 用例名称 | 进行缺勤预测 |
| 参与者 | 用户 |
| 前置条件 | 预测模型已训练完成 |
| 主要流程 | 1. 用户填写员工属性表单<br>2. 点击"开始预测"按钮<br>3. 系统调用预测模型<br>4. 返回预测结果<br>5. 展示风险等级 |
| 后置条件 | 预测结果展示完成 |
| 异常流程 | 输入参数不合法时提示错误 |
#### UC04 查看员工画像
| 项目 | 描述 |
|------|------|
| 用例名称 | 查看员工画像 |
| 参与者 | 用户 |
| 前置条件 | 聚类模型已训练完成 |
| 主要流程 | 1. 执行K-Means聚类<br>2. 计算聚类中心<br>3. 展示聚类结果<br>4. 渲染群体雷达图<br>5. 渲染散点分布图 |
| 后置条件 | 员工画像展示完成 |
---
## 6. 附录
### 6.1 参考文档
1. UCI Machine Learning Repository. Absenteeism at work Data Set
2. 开题报告文档
3. 项目架构设计文档
### 6.2 文档修改历史
| 版本 | 日期 | 修改人 | 修改内容 |
|------|------|--------|----------|
| V1.0 | 2026-03 | 张硕 | 初始版本 |
---
**文档结束**

View File

@@ -0,0 +1,613 @@
# 系统架构设计文档
## 基于多维特征挖掘的员工缺勤分析与预测系统
**文档版本**V1.0
**编写日期**2026年3月
**编写人**:张硕
---
## 1. 概述
### 1.1 设计目标
本系统架构设计旨在实现以下目标:
1. **高可用性**:系统稳定可靠,能够持续提供服务
2. **可扩展性**:便于后续功能扩展和算法升级
3. **可维护性**:代码结构清晰,便于理解和维护
4. **高性能**:快速响应前端请求,提供流畅的用户体验
### 1.2 设计原则
| 原则 | 说明 |
|------|------|
| 分层设计 | 前后端分离,后端采用三层架构 |
| 模块化 | 功能模块独立,高内聚低耦合 |
| 单一职责 | 每个模块只负责一个特定功能 |
| 开闭原则 | 对扩展开放,对修改关闭 |
| 接口隔离 | 接口设计精简,避免冗余 |
---
## 2. 系统架构
### 2.1 整体架构图
```
┌─────────────────────────────────────────────────────────────────────┐
│ 用户层 (User Layer) │
│ 浏览器 (Chrome/Firefox/Edge) │
└─────────────────────────────────────────────────────────────────────┘
┌─────────────────────────────────────────────────────────────────────┐
│ 前端层 (Frontend Layer) │
│ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ ┌─────────────┐ │
│ │ Dashboard │ │ FactorAnalysis│ │ Prediction │ │ Clustering │ │
│ │ 数据概览 │ │ 影响因素 │ │ 缺勤预测 │ │ 员工画像 │ │
│ └─────────────┘ └─────────────┘ └─────────────┘ └─────────────┘ │
│ ┌─────────────────────────────────────────────────────────────┐ │
│ │ 公共组件 (ChartComponent, ResultCard) │ │
│ └─────────────────────────────────────────────────────────────┘ │
│ ┌─────────────────────────────────────────────────────────────┐ │
│ │ Vue 3 + Element Plus + ECharts + Axios + Vue Router │ │
│ └─────────────────────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────────────────┘
│ HTTP/REST API
┌─────────────────────────────────────────────────────────────────────┐
│ 后端层 (Backend Layer) │
│ ┌─────────────────────────────────────────────────────────────┐ │
│ │ API Layer (api/) │ │
│ │ overview_routes │ analysis_routes │ predict_routes │ │
│ │ cluster_routes │ │
│ └─────────────────────────────────────────────────────────────┘ │
│ │ │
│ ┌─────────────────────────────────────────────────────────────┐ │
│ │ Service Layer (services/) │ │
│ │ data_service │ analysis_service │ predict_service │ │
│ │ cluster_service │ │
│ └─────────────────────────────────────────────────────────────┘ │
│ │ │
│ ┌─────────────────────────────────────────────────────────────┐ │
│ │ Core Layer (core/) │ │
│ │ preprocessing │ feature_mining │ train_model │ │
│ │ clustering │ │
│ └─────────────────────────────────────────────────────────────┘ │
│ ┌─────────────────────────────────────────────────────────────┐ │
│ │ Flask + scikit-learn + XGBoost + pandas │ │
│ └─────────────────────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────────────────┘
┌─────────────────────────────────────────────────────────────────────┐
│ 数据层 (Data Layer) │
│ ┌──────────────────┐ ┌──────────────────┐ ┌──────────────────┐ │
│ │ data/raw/ │ │ data/processed/ │ │ models/ │ │
│ │ 原始CSV数据 │ │ 处理后数据 │ │ 模型文件.pkl │ │
│ └──────────────────┘ └──────────────────┘ └──────────────────┘ │
└─────────────────────────────────────────────────────────────────────┘
```
### 2.2 技术架构
```
┌────────────────────────────────────────────────────────────────┐
│ 技术栈总览 │
├────────────────────────────────────────────────────────────────┤
│ │
│ 前端技术栈 后端技术栈 │
│ ┌──────────────────┐ ┌──────────────────┐ │
│ │ Vue 3 │ │ Python 3.8+ │ │
│ │ Element Plus │ │ Flask │ │
│ │ ECharts 5 │ ◄─────► │ scikit-learn │ │
│ │ Axios │ HTTP │ XGBoost │ │
│ │ Vue Router │ REST │ pandas │ │
│ │ Vite │ │ numpy │ │
│ └──────────────────┘ │ joblib │ │
│ └──────────────────┘ │
│ │
│ 算法技术 数据存储 │
│ ┌──────────────────┐ ┌──────────────────┐ │
│ │ 随机森林 (RF) │ │ CSV文件 │ │
│ │ XGBoost │ │ PKL模型文件 │ │
│ │ K-Means │ │ JSON响应 │ │
│ │ StandardScaler │ │ │ │
│ │ OneHotEncoder │ │ │ │
│ └──────────────────┘ └──────────────────┘ │
│ │
└────────────────────────────────────────────────────────────────┘
```
### 2.3 部署架构
```
┌─────────────────────────────────────────────────────────────────┐
│ 单机部署架构 │
│ │
│ ┌─────────────────────────────────────────────────────────┐ │
│ │ 服务器 │ │
│ │ │ │
│ │ ┌─────────────────┐ ┌─────────────────┐ │ │
│ │ │ Flask Server │ │ Vite Dev │ │ │
│ │ │ Port: 5000 │ │ Port: 5173 │ │ │
│ │ │ │ │ │ │ │
│ │ │ - REST API │ │ - Vue App │ │ │
│ │ │ - ML Models │ │ - Static │ │ │
│ │ │ - Data Files │ │ │ │ │
│ │ └─────────────────┘ └─────────────────┘ │ │
│ │ │ │
│ │ ┌─────────────────────────────────────────────────┐ │ │
│ │ │ 文件系统 │ │ │
│ │ │ /backend/data/ - 数据文件 │ │ │
│ │ │ /backend/models/ - 模型文件 │ │ │
│ │ │ /frontend/dist/ - 前端构建产物 │ │ │
│ │ └─────────────────────────────────────────────────┘ │ │
│ │ │ │
│ └─────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────┘
```
---
## 3. 后端架构设计
### 3.1 分层设计
后端采用经典的三层架构,各层职责明确:
| 层级 | 目录 | 职责 | 依赖关系 |
|------|------|------|----------|
| API层 | api/ | 接收HTTP请求参数校验调用服务层返回响应 | 依赖Service层 |
| Service层 | services/ | 业务逻辑处理协调Core层和Data层 | 依赖Core层 |
| Core层 | core/ | 核心算法实现,数据处理,模型训练 | 无依赖 |
### 3.2 模块划分
```
backend/
├── app.py # 应用入口Flask实例配置
├── config.py # 配置文件(路径、参数等)
├── requirements.txt # Python依赖清单
├── api/ # API接口层
│ ├── __init__.py
│ ├── overview_routes.py # 数据概览接口
│ ├── analysis_routes.py # 影响因素分析接口
│ ├── predict_routes.py # 预测接口
│ └── cluster_routes.py # 聚类接口
├── services/ # 业务逻辑层
│ ├── __init__.py
│ ├── data_service.py # 数据服务
│ ├── analysis_service.py # 分析服务
│ ├── predict_service.py # 预测服务
│ └── cluster_service.py # 聚类服务
├── core/ # 核心算法层
│ ├── __init__.py
│ ├── preprocessing.py # 数据预处理
│ ├── feature_mining.py # 特征挖掘
│ ├── train_model.py # 模型训练
│ └── clustering.py # 聚类分析
├── data/ # 数据存储
│ ├── raw/ # 原始数据
│ │ └── Absenteeism_at_work.csv
│ └── processed/ # 处理后数据
│ └── clean_data.csv
├── models/ # 模型存储
│ ├── rf_model.pkl # 随机森林模型
│ ├── xgb_model.pkl # XGBoost模型
│ ├── kmeans_model.pkl # K-Means模型
│ ├── scaler.pkl # 标准化器
│ └── encoder.pkl # 编码器
└── utils/ # 工具函数
├── __init__.py
└── common.py # 通用工具函数
```
### 3.3 各模块职责详解
#### 3.3.1 API层 (api/)
| 文件 | 职责 | 主要接口 |
|------|------|----------|
| overview_routes.py | 数据概览相关接口 | /api/overview/stats, /api/overview/trend |
| analysis_routes.py | 影响因素分析接口 | /api/analysis/importance, /api/analysis/correlation |
| predict_routes.py | 缺勤预测接口 | /api/predict/single, /api/predict/model-info |
| cluster_routes.py | 聚类分析接口 | /api/cluster/result, /api/cluster/profile |
#### 3.3.2 Service层 (services/)
| 文件 | 职责 | 核心方法 |
|------|------|----------|
| data_service.py | 数据读取与基础统计 | get_raw_data(), get_statistics() |
| analysis_service.py | 特征分析业务逻辑 | get_importance(), get_correlation() |
| predict_service.py | 预测业务逻辑 | predict_single(), load_model() |
| cluster_service.py | 聚类业务逻辑 | get_clusters(), get_profile() |
#### 3.3.3 Core层 (core/)
| 文件 | 职责 | 核心类/方法 |
|------|------|-------------|
| preprocessing.py | 数据预处理 | DataPreprocessor类 |
| feature_mining.py | 特征挖掘 | calculate_importance(), calculate_correlation() |
| train_model.py | 模型训练 | train_rf(), train_xgboost() |
| clustering.py | 聚类分析 | KMeansAnalyzer类 |
---
## 4. 前端架构设计
### 4.1 组件化设计
```
frontend/src/
├── components/ # 公共组件
│ ├── ChartComponent.vue # ECharts图表封装组件
│ ├── ResultCard.vue # 预测结果展示卡片
│ ├── KPICard.vue # KPI指标卡片
│ └── LoadingSpinner.vue # 加载动画组件
├── views/ # 页面组件
│ ├── Dashboard.vue # 数据概览页
│ ├── FactorAnalysis.vue # 影响因素分析页
│ ├── Prediction.vue # 缺勤预测页
│ └── Clustering.vue # 员工画像页
├── api/ # API调用
│ ├── request.js # Axios封装
│ ├── overview.js # 概览API
│ ├── analysis.js # 分析API
│ ├── predict.js # 预测API
│ └── cluster.js # 聚类API
├── router/ # 路由配置
│ └── index.js
├── assets/ # 静态资源
│ └── styles/
│ └── main.css
├── App.vue # 根组件
└── main.js # 入口文件
```
### 4.2 状态管理
由于本项目状态较为简单不引入Vuex/Pinia使用以下方式管理状态
- **组件内部状态**使用Vue 3的ref/reactive
- **跨组件通信**使用props和emit
- **API状态**在API层统一管理
### 4.3 路由设计
```javascript
const routes = [
{
path: '/',
redirect: '/dashboard'
},
{
path: '/dashboard',
name: 'Dashboard',
component: () => import('@/views/Dashboard.vue'),
meta: { title: '数据概览' }
},
{
path: '/analysis',
name: 'FactorAnalysis',
component: () => import('@/views/FactorAnalysis.vue'),
meta: { title: '影响因素分析' }
},
{
path: '/prediction',
name: 'Prediction',
component: () => import('@/views/Prediction.vue'),
meta: { title: '缺勤预测' }
},
{
path: '/clustering',
name: 'Clustering',
component: () => import('@/views/Clustering.vue'),
meta: { title: '员工画像' }
}
]
```
---
## 5. 算法架构设计
### 5.1 数据预处理流程
```
┌─────────────────────────────────────────────────────────────────┐
│ 数据预处理流程 │
│ │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ 原始CSV数据 │───►│ 数据清洗 │───►│ 特征分离 │ │
│ │ │ │ (缺失值处理) │ │ │ │
│ └──────────────┘ └──────────────┘ └──────────────┘ │
│ │ │
│ ▼ │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ 处理后数据 │◄───│ 特征合并 │◄───│ 特征编码 │ │
│ │ clean_data │ │ │ │ + 标准化 │ │
│ └──────────────┘ └──────────────┘ └──────────────┘ │
│ │
│ 特征处理方式: │
│ ┌────────────────────────────────────────────────────────┐ │
│ │ 类别型特征 → OneHotEncoder │ │
│ │ - Reason for absence │ │
│ │ - Month, Day, Seasons │ │
│ │ - Education, Disciplinary failure │ │
│ │ - Social drinker, Social smoker │ │
│ ├────────────────────────────────────────────────────────┤ │
│ │ 数值型特征 → StandardScaler │ │
│ │ - Transportation expense │ │
│ │ - Distance, Service time, Age │ │
│ │ - Work load, Hit target │ │
│ │ - Son, Pet, BMI │ │
│ └────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────┘
```
### 5.2 特征挖掘流程
```
┌─────────────────────────────────────────────────────────────────┐
│ 特征挖掘流程 │
│ │
│ ┌──────────────────────────────────────────────────────────┐ │
│ │ 特征重要性计算 │ │
│ │ │ │
│ │ 训练数据 ──► 随机森林模型 ──► feature_importances_ │ │
│ │ │ │ │
│ │ ▼ │ │
│ │ 特征重要性排序结果 │ │
│ │ │ │
│ └──────────────────────────────────────────────────────────┘ │
│ │
│ ┌──────────────────────────────────────────────────────────┐ │
│ │ 相关性分析 │ │
│ │ │ │
│ │ 数据矩阵 ──► pandas.DataFrame.corr() ──► 相关系数矩阵 │ │
│ │ │ │ │
│ │ ▼ │ │
│ │ 热力图数据 │ │
│ │ │ │
│ └──────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────┘
```
### 5.3 预测模型流程
```
┌─────────────────────────────────────────────────────────────────┐
│ 预测模型流程 │
│ │
│ 训练阶段: │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ 处理后数据 │───►│ 划分数据集 │───►│ 模型训练 │ │
│ │ │ │ Train/Test │ │ RF + XGBoost │ │
│ └──────────────┘ └──────────────┘ └──────────────┘ │
│ │ │
│ ▼ │
│ ┌──────────────────────────────────┐ │
│ │ 模型评估 │ │
│ │ - R² (决定系数) │ │
│ │ - MSE (均方误差) │ │
│ │ - RMSE (均方根误差) │ │
│ └──────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌──────────────────────────────────┐ │
│ │ 保存模型 (.pkl文件) │ │
│ └──────────────────────────────────┘ │
│ │
│ 预测阶段: │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ 用户输入 │───►│ 特征预处理 │───►│ 加载模型 │ │
│ │ (表单数据) │ │ (编码+标准化)│ │ 预测推理 │ │
│ └──────────────┘ └──────────────┘ └──────────────┘ │
│ │ │
│ ▼ │
│ ┌──────────────────────────────────┐ │
│ │ 返回预测结果 │ │
│ │ - 预测时长 │ │
│ │ - 风险等级 │ │
│ │ - 置信度 │ │
│ └──────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────┘
```
### 5.4 聚类分析流程
```
┌─────────────────────────────────────────────────────────────────┐
│ 聚类分析流程 │
│ │
│ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐ │
│ │ 处理后数据 │───►│ 特征选择 │───►│ K-Means │ │
│ │ │ │ (关键维度) │ │ 聚类 │ │
│ └──────────────┘ └──────────────┘ └──────────────┘ │
│ │ │
│ ▼ │
│ ┌──────────────────────────────────────────────────────────┐ │
│ │ 聚类结果 │ │
│ │ │ │
│ │ ┌─────────────────┐ ┌─────────────────┐ │ │
│ │ │ 聚类标签 │ │ 聚类中心 │ │ │
│ │ │ (每条记录所属簇) │ │ (每个簇的中心点) │ │ │
│ │ └─────────────────┘ └─────────────────┘ │ │
│ │ │ │
│ └──────────────────────────────────────────────────────────┘ │
│ │ │
│ ▼ │
│ ┌──────────────────────────────────────────────────────────┐ │
│ │ 可视化输出 │ │
│ │ │ │
│ │ - 雷达图:展示各聚类群体的特征分布 │ │
│ │ - 散点图:展示员工在聚类空间的分布 │ │
│ │ - 统计表:各聚类的成员数量、特征均值 │ │
│ │ │ │
│ └──────────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────┘
```
---
## 6. 技术选型
### 6.1 后端技术栈
| 技术 | 版本 | 用途 | 选择理由 |
|------|------|------|----------|
| Python | 3.8+ | 开发语言 | 丰富的数据科学和机器学习库 |
| Flask | 2.x | Web框架 | 轻量级,易于上手,适合中小项目 |
| scikit-learn | 1.x | 机器学习 | 提供完整的机器学习工具链 |
| XGBoost | 1.x | 梯度提升 | 高性能,适合结构化数据预测 |
| pandas | 1.x | 数据处理 | 强大的数据分析和处理能力 |
| numpy | 1.x | 数值计算 | 高效的数组操作 |
| joblib | 1.x | 模型持久化 | 高效的模型序列化 |
### 6.2 前端技术栈
| 技术 | 版本 | 用途 | 选择理由 |
|------|------|------|----------|
| Vue | 3.x | 前端框架 | 组合式API性能优秀生态完善 |
| Element Plus | 2.x | UI组件库 | 组件丰富,文档完善,适合管理后台 |
| ECharts | 5.x | 图表库 | 功能强大,图表类型丰富,国内主流 |
| Axios | 1.x | HTTP客户端 | Promise支持拦截器功能完善 |
| Vue Router | 4.x | 路由管理 | Vue官方路由解决方案 |
| Vite | 4.x | 构建工具 | 开发体验好,构建速度快 |
### 6.3 算法选型
| 算法 | 用途 | 选择理由 |
|------|------|----------|
| 随机森林 | 特征重要性计算、预测 | 可解释性强,能输出特征重要性 |
| XGBoost | 预测模型 | 性能优异,适合回归任务 |
| K-Means | 员工聚类 | 简单高效,适合无监督聚类 |
| StandardScaler | 数值标准化 | 消除量纲影响,提高模型效果 |
| OneHotEncoder | 类别编码 | 处理类别型特征的标准方法 |
---
## 7. 附录
### 7.1 目录结构完整版
```
Absenteeism_Analysis_System/
├── backend/ # 后端项目
│ ├── app.py # 应用入口
│ ├── config.py # 配置文件
│ ├── requirements.txt # 依赖清单
│ │
│ ├── api/ # API接口层
│ │ ├── __init__.py
│ │ ├── overview_routes.py
│ │ ├── analysis_routes.py
│ │ ├── predict_routes.py
│ │ └── cluster_routes.py
│ │
│ ├── services/ # 业务逻辑层
│ │ ├── __init__.py
│ │ ├── data_service.py
│ │ ├── analysis_service.py
│ │ ├── predict_service.py
│ │ └── cluster_service.py
│ │
│ ├── core/ # 核心算法层
│ │ ├── __init__.py
│ │ ├── preprocessing.py
│ │ ├── feature_mining.py
│ │ ├── train_model.py
│ │ └── clustering.py
│ │
│ ├── data/ # 数据目录
│ │ ├── raw/
│ │ │ └── Absenteeism_at_work.csv
│ │ └── processed/
│ │ └── clean_data.csv
│ │
│ ├── models/ # 模型目录
│ │ ├── rf_model.pkl
│ │ ├── xgb_model.pkl
│ │ ├── kmeans_model.pkl
│ │ ├── scaler.pkl
│ │ └── encoder.pkl
│ │
│ └── utils/ # 工具函数
│ ├── __init__.py
│ └── common.py
├── frontend/ # 前端项目
│ ├── public/
│ ├── src/
│ │ ├── api/
│ │ │ ├── request.js
│ │ │ ├── overview.js
│ │ │ ├── analysis.js
│ │ │ ├── predict.js
│ │ │ └── cluster.js
│ │ ├── assets/
│ │ │ └── styles/
│ │ │ └── main.css
│ │ ├── components/
│ │ │ ├── ChartComponent.vue
│ │ │ ├── ResultCard.vue
│ │ │ ├── KPICard.vue
│ │ │ └── LoadingSpinner.vue
│ │ ├── router/
│ │ │ └── index.js
│ │ ├── views/
│ │ │ ├── Dashboard.vue
│ │ │ ├── FactorAnalysis.vue
│ │ │ ├── Prediction.vue
│ │ │ └── Clustering.vue
│ │ ├── App.vue
│ │ └── main.js
│ ├── index.html
│ ├── package.json
│ ├── pnpm-lock.yaml
│ └── vite.config.js
├── docs/ # 文档目录
│ ├── 00_需求规格说明书.md
│ ├── 01_系统架构设计.md
│ ├── 02_接口设计文档.md
│ ├── 03_数据设计文档.md
│ ├── 04_UI原型设计.md
│ └── ...
├── data/ # 原始数据(项目根目录)
│ └── Absenteeism_at_work.csv
└── README.md # 项目说明
```
### 7.2 文档修改历史
| 版本 | 日期 | 修改人 | 修改内容 |
|------|------|--------|----------|
| V1.0 | 2026-03 | 张硕 | 初始版本 |
---
**文档结束**

View File

@@ -0,0 +1,891 @@
# 接口设计文档
## 基于多维特征挖掘的员工缺勤分析与预测系统
**文档版本**V1.0
**编写日期**2026年3月
**编写人**:张硕
---
## 1. 概述
### 1.1 接口规范
本系统采用RESTful API设计风格所有接口遵循以下规范
| 项目 | 规范 |
|------|------|
| 协议 | HTTP/HTTPS |
| 数据格式 | JSON |
| 字符编码 | UTF-8 |
| 时间格式 | ISO 8601 (YYYY-MM-DD HH:mm:ss) |
### 1.2 基础路径
| 环境 | 基础路径 |
|------|----------|
| 开发环境 | http://localhost:5000/api |
| 生产环境 | http://your-domain/api |
### 1.3 响应格式
#### 成功响应
```json
{
"code": 200,
"message": "success",
"data": {
// 具体数据
}
}
```
#### 错误响应
```json
{
"code": 400,
"message": "错误描述",
"data": null
}
```
### 1.4 状态码说明
| 状态码 | 说明 |
|--------|------|
| 200 | 请求成功 |
| 400 | 请求参数错误 |
| 404 | 资源不存在 |
| 500 | 服务器内部错误 |
---
## 2. 数据概览模块
### 2.1 获取基础统计指标
**接口路径**`GET /api/overview/stats`
**接口描述**:获取数据集的基础统计指标
**请求参数**:无
**响应示例**
```json
{
"code": 200,
"message": "success",
"data": {
"total_records": 740,
"total_employees": 36,
"total_absent_hours": 1184,
"avg_absent_hours": 1.6,
"max_absent_hours": 120,
"min_absent_hours": 0,
"high_risk_ratio": 0.15
}
}
```
**字段说明**
| 字段 | 类型 | 说明 |
|------|------|------|
| total_records | int | 总记录数 |
| total_employees | int | 员工总数 |
| total_absent_hours | float | 缺勤总时长(小时) |
| avg_absent_hours | float | 平均缺勤时长(小时) |
| max_absent_hours | int | 最大缺勤时长(小时) |
| min_absent_hours | int | 最小缺勤时长(小时) |
| high_risk_ratio | float | 高风险员工占比 |
---
### 2.2 获取月度趋势数据
**接口路径**`GET /api/overview/trend`
**接口描述**获取全年12个月的缺勤趋势数据
**请求参数**:无
**响应示例**
```json
{
"code": 200,
"message": "success",
"data": {
"months": ["1月", "2月", "3月", "4月", "5月", "6月", "7月", "8月", "9月", "10月", "11月", "12月"],
"total_hours": [80, 65, 90, 75, 100, 85, 110, 95, 70, 88, 92, 78],
"avg_hours": [1.2, 1.0, 1.4, 1.1, 1.5, 1.3, 1.7, 1.4, 1.1, 1.3, 1.4, 1.2],
"record_counts": [67, 65, 64, 68, 67, 65, 65, 68, 64, 68, 66, 65]
}
}
```
**字段说明**
| 字段 | 类型 | 说明 |
|------|------|------|
| months | string[] | 月份列表 |
| total_hours | float[] | 每月缺勤总时长 |
| avg_hours | float[] | 每月平均缺勤时长 |
| record_counts | int[] | 每月记录数 |
---
### 2.3 获取星期分布数据
**接口路径**`GET /api/overview/weekday`
**接口描述**:获取周一至周五的缺勤分布数据
**请求参数**:无
**响应示例**
```json
{
"code": 200,
"message": "success",
"data": {
"weekdays": ["周一", "周二", "周三", "周四", "周五"],
"weekday_codes": [2, 3, 4, 5, 6],
"total_hours": [180, 200, 190, 210, 250],
"avg_hours": [1.2, 1.4, 1.3, 1.4, 1.7],
"record_counts": [150, 143, 146, 150, 147]
}
}
```
**字段说明**
| 字段 | 类型 | 说明 |
|------|------|------|
| weekdays | string[] | 星期名称列表 |
| weekday_codes | int[] | 星期代码2=周一, 6=周五) |
| total_hours | float[] | 每天缺勤总时长 |
| avg_hours | float[] | 每天平均缺勤时长 |
| record_counts | int[] | 每天记录数 |
---
### 2.4 获取缺勤原因分布
**接口路径**`GET /api/overview/reasons`
**接口描述**:获取各类缺勤原因的分布数据
**请求参数**:无
**响应示例**
```json
{
"code": 200,
"message": "success",
"data": {
"reasons": [
{
"code": 23,
"name": "医疗咨询",
"count": 150,
"percentage": 20.3
},
{
"code": 28,
"name": "牙科咨询",
"count": 120,
"percentage": 16.2
},
{
"code": 27,
"name": "理疗",
"count": 100,
"percentage": 13.5
}
// ... 更多原因
]
}
}
```
**字段说明**
| 字段 | 类型 | 说明 |
|------|------|------|
| code | int | 缺勤原因代码 |
| name | string | 缺勤原因名称 |
| count | int | 出现次数 |
| percentage | float | 占比百分比 |
**缺勤原因对照表**
| 代码 | 名称 | 代码 | 名称 |
|------|------|------|------|
| 0 | 未知原因 | 15 | 妊娠相关 |
| 1 | 传染病 | 16 | 围产期疾病 |
| 2 | 肿瘤 | 17 | 先天性畸形 |
| 3 | 血液疾病 | 18 | 症状体征 |
| 4 | 内分泌疾病 | 19 | 损伤中毒 |
| 5 | 精神行为障碍 | 20 | 外部原因 |
| 6 | 神经系统疾病 | 21 | 健康因素 |
| 7 | 眼部疾病 | 22 | 医疗随访 |
| 8 | 耳部疾病 | 23 | 医疗咨询 |
| 9 | 循环系统疾病 | 24 | 献血 |
| 10 | 呼吸系统疾病 | 25 | 实验室检查 |
| 11 | 消化系统疾病 | 26 | 无故缺勤 |
| 12 | 皮肤疾病 | 27 | 理疗 |
| 13 | 肌肉骨骼疾病 | 28 | 牙科咨询 |
| 14 | 泌尿生殖疾病 | - | - |
---
### 2.5 获取季节分布数据
**接口路径**`GET /api/overview/seasons`
**接口描述**:获取四季的缺勤分布数据
**请求参数**:无
**响应示例**
```json
{
"code": 200,
"message": "success",
"data": {
"seasons": [
{
"code": 1,
"name": "夏季",
"total_hours": 320,
"avg_hours": 1.5,
"record_count": 213,
"percentage": 27.0
},
{
"code": 2,
"name": "秋季",
"total_hours": 290,
"avg_hours": 1.4,
"record_count": 207,
"percentage": 28.0
},
{
"code": 3,
"name": "冬季",
"total_hours": 280,
"avg_hours": 1.3,
"record_count": 215,
"percentage": 29.1
},
{
"code": 4,
"name": "春季",
"total_hours": 294,
"avg_hours": 1.4,
"record_count": 210,
"percentage": 28.4
}
]
}
}
```
---
## 3. 影响因素分析模块
### 3.1 获取特征重要性排序
**接口路径**`GET /api/analysis/importance`
**接口描述**:获取各特征对缺勤的影响权重
**请求参数**
| 参数名 | 类型 | 必填 | 说明 |
|--------|------|------|------|
| model | string | 否 | 模型类型rf/xgboost默认rf |
**响应示例**
```json
{
"code": 200,
"message": "success",
"data": {
"model_type": "random_forest",
"features": [
{
"name": "Reason for absence",
"name_cn": "缺勤原因",
"importance": 0.35,
"rank": 1
},
{
"name": "Transportation expense",
"name_cn": "交通费用",
"importance": 0.12,
"rank": 2
},
{
"name": "Distance from Residence to Work",
"name_cn": "通勤距离",
"importance": 0.10,
"rank": 3
},
{
"name": "Service time",
"name_cn": "工龄",
"importance": 0.08,
"rank": 4
},
{
"name": "Age",
"name_cn": "年龄",
"importance": 0.07,
"rank": 5
},
{
"name": "Work load Average/day",
"name_cn": "日均工作负荷",
"importance": 0.06,
"rank": 6
},
{
"name": "Body mass index",
"name_cn": "BMI指数",
"importance": 0.05,
"rank": 7
},
{
"name": "Social drinker",
"name_cn": "饮酒习惯",
"importance": 0.04,
"rank": 8
},
{
"name": "Hit target",
"name_cn": "达标率",
"importance": 0.03,
"rank": 9
},
{
"name": "Son",
"name_cn": "子女数量",
"importance": 0.03,
"rank": 10
},
{
"name": "Pet",
"name_cn": "宠物数量",
"importance": 0.02,
"rank": 11
},
{
"name": "Education",
"name_cn": "学历",
"importance": 0.02,
"rank": 12
},
{
"name": "Social smoker",
"name_cn": "吸烟习惯",
"importance": 0.01,
"rank": 13
}
]
}
}
```
**字段说明**
| 字段 | 类型 | 说明 |
|------|------|------|
| model_type | string | 模型类型 |
| features | array | 特征列表 |
| name | string | 特征英文名 |
| name_cn | string | 特征中文名 |
| importance | float | 重要性得分0-1 |
| rank | int | 排名 |
---
### 3.2 获取相关性矩阵
**接口路径**`GET /api/analysis/correlation`
**接口描述**:获取特征之间的相关系数矩阵
**请求参数**:无
**响应示例**
```json
{
"code": 200,
"message": "success",
"data": {
"features": ["Age", "Service time", "Distance", "Work load", "BMI", "Absent hours"],
"matrix": [
[1.00, 0.67, 0.12, 0.08, 0.15, 0.05],
[0.67, 1.00, 0.10, 0.05, 0.12, 0.08],
[0.12, 0.10, 1.00, 0.03, 0.05, 0.18],
[0.08, 0.05, 0.03, 1.00, 0.02, 0.10],
[0.15, 0.12, 0.05, 0.02, 1.00, 0.06],
[0.05, 0.08, 0.18, 0.10, 0.06, 1.00]
]
}
}
```
**字段说明**
| 字段 | 类型 | 说明 |
|------|------|------|
| features | string[] | 特征名称列表 |
| matrix | float[][] | 相关系数矩阵n×n |
---
### 3.3 群体对比分析
**接口路径**`GET /api/analysis/compare`
**接口描述**:按指定维度分组对比缺勤时长
**请求参数**
| 参数名 | 类型 | 必填 | 说明 |
|--------|------|------|------|
| dimension | string | 是 | 对比维度drinker/smoker/education/children/pet |
**响应示例**dimension=drinker
```json
{
"code": 200,
"message": "success",
"data": {
"dimension": "drinker",
"dimension_name": "饮酒习惯",
"groups": [
{
"name": "不饮酒",
"value": 0,
"avg_hours": 1.2,
"count": 400,
"percentage": 54.1
},
{
"name": "饮酒",
"value": 1,
"avg_hours": 2.1,
"count": 340,
"percentage": 45.9
}
],
"difference": {
"value": 0.9,
"percentage": 75.0
}
}
}
```
**dimension参数说明**
| 值 | 说明 | 分组 |
|------|------|------|
| drinker | 饮酒习惯 | 不饮酒(0) / 饮酒(1) |
| smoker | 吸烟习惯 | 不吸烟(0) / 吸烟(1) |
| education | 学历 | 高中(1) / 本科(2) / 研究生及以上(3-4) |
| children | 子女 | 无子女(0) / 有子女(≥1) |
| pet | 宠物 | 无宠物(0) / 有宠物(≥1) |
---
## 4. 预测模块
### 4.1 单次缺勤预测
**接口路径**`POST /api/predict/single`
**接口描述**:根据输入的员工属性预测缺勤时长
**请求头**
```
Content-Type: application/json
```
**请求参数**
```json
{
"reason_for_absence": 23,
"month_of_absence": 7,
"day_of_week": 3,
"seasons": 1,
"transportation_expense": 289,
"distance": 36,
"service_time": 13,
"age": 33,
"work_load": 239.55,
"hit_target": 97,
"disciplinary_failure": 0,
"education": 1,
"son": 2,
"social_drinker": 1,
"social_smoker": 0,
"pet": 1,
"bmi": 30
}
```
**参数说明**
| 参数名 | 类型 | 取值范围 | 说明 |
|--------|------|----------|------|
| reason_for_absence | int | 0-28 | 缺勤原因代码 |
| month_of_absence | int | 1-12 | 缺勤月份 |
| day_of_week | int | 2-6 | 星期2=周一, 6=周五) |
| seasons | int | 1-4 | 季节1=夏, 4=春) |
| transportation_expense | int | 100-400 | 交通费用 |
| distance | int | 1-60 | 通勤距离(公里) |
| service_time | int | 1-30 | 工龄(年) |
| age | int | 18-60 | 年龄 |
| work_load | float | 200-350 | 日均工作负荷 |
| hit_target | int | 80-100 | 达标率(% |
| disciplinary_failure | int | 0-1 | 是否违纪0=否, 1=是) |
| education | int | 1-4 | 学历1=高中, 4=博士) |
| son | int | 0-5 | 子女数量 |
| social_drinker | int | 0-1 | 是否饮酒 |
| social_smoker | int | 0-1 | 是否吸烟 |
| pet | int | 0-10 | 宠物数量 |
| bmi | float | 18-40 | BMI指数 |
**响应示例**
```json
{
"code": 200,
"message": "success",
"data": {
"predicted_hours": 5.2,
"risk_level": "medium",
"risk_label": "中风险",
"confidence": 0.85,
"model_used": "random_forest"
}
}
```
**响应字段说明**
| 字段 | 类型 | 说明 |
|------|------|------|
| predicted_hours | float | 预测缺勤时长(小时) |
| risk_level | string | 风险等级low/medium/high |
| risk_label | string | 风险等级中文标签 |
| confidence | float | 模型置信度0-1 |
| model_used | string | 使用的模型 |
**风险等级判定**
| 预测时长 | risk_level | risk_label | 颜色 |
|----------|------------|------------|------|
| < 4小时 | low | 低风险 | 绿色 |
| 4-8小时 | medium | 中风险 | 黄色 |
| > 8小时 | high | 高风险 | 红色 |
---
### 4.2 获取模型性能信息
**接口路径**`GET /api/predict/model-info`
**接口描述**:获取当前预测模型的性能指标
**请求参数**:无
**响应示例**
```json
{
"code": 200,
"message": "success",
"data": {
"models": [
{
"name": "random_forest",
"name_cn": "随机森林",
"metrics": {
"r2": 0.82,
"mse": 15.5,
"rmse": 3.94,
"mae": 2.8
},
"is_active": true
},
{
"name": "xgboost",
"name_cn": "XGBoost",
"metrics": {
"r2": 0.85,
"mse": 12.8,
"rmse": 3.58,
"mae": 2.5
},
"is_active": false
}
],
"training_info": {
"train_samples": 592,
"test_samples": 148,
"feature_count": 17,
"training_date": "2026-03-01"
}
}
}
```
**字段说明**
| 字段 | 类型 | 说明 |
|------|------|------|
| r2 | float | 决定系数越接近1越好 |
| mse | float | 均方误差(越小越好) |
| rmse | float | 均方根误差(越小越好) |
| mae | float | 平均绝对误差(越小越好) |
---
## 5. 聚类模块
### 5.1 获取聚类结果
**接口路径**`GET /api/cluster/result`
**接口描述**获取K-Means聚类分析结果
**请求参数**
| 参数名 | 类型 | 必填 | 说明 |
|--------|------|------|------|
| n_clusters | int | 否 | 聚类数量默认3 |
**响应示例**
```json
{
"code": 200,
"message": "success",
"data": {
"n_clusters": 3,
"clusters": [
{
"id": 0,
"name": "模范型员工",
"member_count": 120,
"percentage": 33.3,
"center": {
"age": 42,
"service_time": 18,
"work_load": 240,
"bmi": 25,
"absent_tendency": 0.8
},
"description": "工龄长、工作稳定、缺勤率低"
},
{
"id": 1,
"name": "压力型员工",
"member_count": 100,
"percentage": 27.8,
"center": {
"age": 28,
"service_time": 5,
"work_load": 280,
"bmi": 23,
"absent_tendency": 2.5
},
"description": "年轻、工龄短、工作负荷大、缺勤较多"
},
{
"id": 2,
"name": "生活习惯型员工",
"member_count": 140,
"percentage": 38.9,
"center": {
"age": 35,
"service_time": 10,
"work_load": 250,
"bmi": 30,
"absent_tendency": 1.5
},
"description": "BMI偏高、有饮酒习惯、中等缺勤率"
}
]
}
}
```
---
### 5.2 获取员工画像数据
**接口路径**`GET /api/cluster/profile`
**接口描述**:获取用于绘制雷达图的员工画像数据
**请求参数**
| 参数名 | 类型 | 必填 | 说明 |
|--------|------|------|------|
| n_clusters | int | 否 | 聚类数量默认3 |
**响应示例**
```json
{
"code": 200,
"message": "success",
"data": {
"dimensions": ["年龄", "工龄", "工作负荷", "BMI", "缺勤倾向"],
"dimension_keys": ["age", "service_time", "work_load", "bmi", "absent_tendency"],
"clusters": [
{
"id": 0,
"name": "模范型",
"values": [0.75, 0.90, 0.60, 0.55, 0.20]
},
{
"id": 1,
"name": "压力型",
"values": [0.35, 0.20, 0.85, 0.45, 0.70]
},
{
"id": 2,
"name": "生活习惯型",
"values": [0.55, 0.50, 0.65, 0.80, 0.45]
}
]
}
}
```
**字段说明**
| 字段 | 类型 | 说明 |
|------|------|------|
| dimensions | string[] | 雷达图维度名称(中文) |
| dimension_keys | string[] | 维度对应的英文键名 |
| clusters | array | 各聚类的画像数据 |
| values | float[] | 归一化后的特征值0-1 |
---
### 5.3 获取聚类散点图数据
**接口路径**`GET /api/cluster/scatter`
**接口描述**:获取用于绘制散点图的聚类分布数据
**请求参数**
| 参数名 | 类型 | 必填 | 说明 |
|--------|------|------|------|
| n_clusters | int | 否 | 聚类数量默认3 |
| x_axis | string | 否 | X轴维度默认age |
| y_axis | string | 否 | Y轴维度默认absent_hours |
**响应示例**
```json
{
"code": 200,
"message": "success",
"data": {
"x_axis": "age",
"x_axis_name": "年龄",
"y_axis": "absent_hours",
"y_axis_name": "缺勤时长",
"points": [
{
"employee_id": 11,
"x": 33,
"y": 4,
"cluster_id": 2
},
{
"employee_id": 36,
"x": 50,
"y": 0,
"cluster_id": 0
}
// ... 更多数据点
],
"cluster_colors": {
"0": "#67C23A",
"1": "#E6A23C",
"2": "#F56C6C"
}
}
}
```
---
## 6. 错误码定义
| 错误码 | 说明 | 解决方案 |
|--------|------|----------|
| 1001 | 数据文件不存在 | 检查数据文件路径 |
| 1002 | 数据文件格式错误 | 检查CSV文件格式 |
| 2001 | 模型文件不存在 | 先训练模型 |
| 2002 | 模型加载失败 | 重新训练并保存模型 |
| 3001 | 参数缺失 | 检查必填参数 |
| 3002 | 参数值超出范围 | 检查参数取值范围 |
| 4001 | 聚类数量无效 | n_clusters应在2-10之间 |
---
## 7. 附录
### 7.1 接口清单汇总
| 模块 | 接口 | 方法 | 说明 |
|------|------|------|------|
| 数据概览 | /api/overview/stats | GET | 基础统计指标 |
| 数据概览 | /api/overview/trend | GET | 月度趋势 |
| 数据概览 | /api/overview/weekday | GET | 星期分布 |
| 数据概览 | /api/overview/reasons | GET | 原因分布 |
| 数据概览 | /api/overview/seasons | GET | 季节分布 |
| 因素分析 | /api/analysis/importance | GET | 特征重要性 |
| 因素分析 | /api/analysis/correlation | GET | 相关性矩阵 |
| 因素分析 | /api/analysis/compare | GET | 群体对比 |
| 预测 | /api/predict/single | POST | 单次预测 |
| 预测 | /api/predict/model-info | GET | 模型信息 |
| 聚类 | /api/cluster/result | GET | 聚类结果 |
| 聚类 | /api/cluster/profile | GET | 员工画像 |
| 聚类 | /api/cluster/scatter | GET | 散点图数据 |
### 7.2 文档修改历史
| 版本 | 日期 | 修改人 | 修改内容 |
|------|------|--------|----------|
| V1.0 | 2026-03 | 张硕 | 初始版本 |
---
**文档结束**

View File

@@ -0,0 +1,426 @@
# 数据设计文档
## 基于多维特征挖掘的员工缺勤分析与预测系统
**文档版本**V1.0
**编写日期**2026年3月
**编写人**:张硕
---
## 1. 数据集概述
### 1.1 数据来源
| 项目 | 内容 |
|------|------|
| 数据集名称 | Absenteeism at work |
| 数据来源 | UCI Machine Learning Repository |
| 原始提供方 | 巴西某快递公司 (2007-2010年) |
| 数据提供者 | Andrea Martiniano, Ricardo Pinto Ferreira, Renato Jose Sassi |
| 所属机构 | Universidade Nove de Julho, Brazil |
### 1.2 数据规模
| 项目 | 数值 |
|------|------|
| 记录总数 | 740条 |
| 特征数量 | 21个字段 |
| 员工数量 | 36人 |
| 时间跨度 | 2007年7月 - 2010年7月 |
### 1.3 数据质量
| 检查项 | 结果 | 说明 |
|--------|------|------|
| 缺失值 | 无 | 数据完整无缺失 |
| 重复记录 | 无 | 无重复数据 |
| 异常值 | 需检查 | 部分字段可能存在异常值 |
| 数据一致性 | 良好 | 字段格式一致 |
---
## 2. 字段说明
### 2.1 字段完整列表
| 序号 | 字段名 | 中文名称 | 数据类型 | 取值范围 | 说明 |
|------|--------|----------|----------|----------|------|
| 1 | ID | 员工标识 | int | 1-36 | 唯一标识员工 |
| 2 | Reason for absence | 缺勤原因 | int | 0-28 | ICD代码或非疾病原因 |
| 3 | Month of absence | 缺勤月份 | int | 1-12 | 月份 |
| 4 | Day of the week | 星期几 | int | 2-6 | 2=周一, 6=周五 |
| 5 | Seasons | 季节 | int | 1-4 | 1=夏, 4=春 |
| 6 | Transportation expense | 交通费用 | int | 118-388 | 月交通费用(雷亚尔) |
| 7 | Distance from Residence to Work | 通勤距离 | int | 5-52 | 公里数 |
| 8 | Service time | 工龄 | int | 1-29 | 年数 |
| 9 | Age | 年龄 | int | 27-58 | 周岁 |
| 10 | Work load Average/day | 日均工作负荷 | float | 205-350 | 目标达成量/天 |
| 11 | Hit target | 达标率 | int | 81-100 | 百分比 |
| 12 | Disciplinary failure | 违纪记录 | int | 0-1 | 0=否, 1=是 |
| 13 | Education | 学历 | int | 1-4 | 1=高中, 4=博士 |
| 14 | Son | 子女数量 | int | 0-4 | 子女人数 |
| 15 | Social drinker | 饮酒习惯 | int | 0-1 | 0=否, 1=是 |
| 16 | Social smoker | 吸烟习惯 | int | 0-1 | 0=否, 1=是 |
| 17 | Pet | 宠物数量 | int | 0-8 | 宠物数量 |
| 18 | Weight | 体重 | int | 56-108 | 公斤 |
| 19 | Height | 身高 | int | 163-196 | 厘米 |
| 20 | Body mass index | BMI指数 | float | 19-38 | 体重/身高² |
| 21 | Absenteeism time in hours | 缺勤时长 | int | 0-120 | 目标变量(小时) |
### 2.2 特征分类
#### 2.2.1 类别型特征
| 字段名 | 类别数 | 类别说明 |
|--------|--------|----------|
| Reason for absence | 29 | 0-28ICD疾病代码或非疾病原因 |
| Month of absence | 12 | 1-12月 |
| Day of the week | 5 | 周一至周五 |
| Seasons | 4 | 夏秋冬春 |
| Disciplinary failure | 2 | 是/否 |
| Education | 4 | 高中/本科/研究生/博士 |
| Social drinker | 2 | 是/否 |
| Social smoker | 2 | 是/否 |
#### 2.2.2 数值型特征
| 字段名 | 类型 | 范围 | 均值 | 标准差 |
|--------|------|------|------|--------|
| Transportation expense | 连续 | 118-388 | 221.3 | 69.1 |
| Distance from Residence to Work | 连续 | 5-52 | 29.6 | 14.8 |
| Service time | 连续 | 1-29 | 12.0 | 5.7 |
| Age | 连续 | 27-58 | 36.9 | 6.5 |
| Work load Average/day | 连续 | 205-350 | 270.7 | 37.1 |
| Hit target | 连续 | 81-100 | 94.6 | 4.0 |
| Son | 离散 | 0-4 | 1.0 | 1.1 |
| Pet | 离散 | 0-8 | 0.8 | 1.5 |
| Weight | 连续 | 56-108 | 79.0 | 12.4 |
| Height | 连续 | 163-196 | 172.9 | 6.0 |
| Body mass index | 连续 | 19-38 | 26.7 | 4.3 |
| Absenteeism time in hours | 连续 | 0-120 | 6.9 | 13.3 |
### 2.3 缺勤原因详细说明
#### 2.3.1 ICD疾病分类代码1-21
| 代码 | ICD分类 | 疾病类型 |
|------|---------|----------|
| 1 | I | 传染病和寄生虫病 |
| 2 | II | 肿瘤 |
| 3 | III | 血液及造血器官疾病 |
| 4 | IV | 内分泌、营养和代谢疾病 |
| 5 | V | 精神和行为障碍 |
| 6 | VI | 神经系统疾病 |
| 7 | VII | 眼及其附属器疾病 |
| 8 | VIII | 耳及乳突疾病 |
| 9 | IX | 循环系统疾病 |
| 10 | X | 呼吸系统疾病 |
| 11 | XI | 消化系统疾病 |
| 12 | XII | 皮肤和皮下组织疾病 |
| 13 | XIII | 肌肉骨骼系统和结缔组织疾病 |
| 14 | XIV | 泌尿生殖系统疾病 |
| 15 | XV | 妊娠、分娩和产褥期 |
| 16 | XVI | 围产期疾病 |
| 17 | XVII | 先天性畸形 |
| 18 | XVIII | 症状、体征异常发现 |
| 19 | XIX | 损伤、中毒 |
| 20 | XX | 外部原因导致的发病和死亡 |
| 21 | XXI | 影响健康状态的因素 |
#### 2.3.2 非疾病原因代码22-28
| 代码 | 名称 | 说明 |
|------|------|------|
| 22 | 医疗随访 | 患者定期随访复查 |
| 23 | 医疗咨询 | 门诊就医咨询 |
| 24 | 献血 | 无偿献血活动 |
| 25 | 实验室检查 | 医学检验检查 |
| 26 | 无故缺勤 | 未经批准的缺勤 |
| 27 | 理疗 | 物理治疗康复 |
| 28 | 牙科咨询 | 口腔科就诊 |
#### 2.3.3 特殊值
| 代码 | 说明 |
|------|------|
| 0 | 未知原因(数据中存在) |
### 2.4 季节编码说明
| 代码 | 季节 | 月份范围(巴西) |
|------|------|------------------|
| 1 | 夏季 | 12月-2月 |
| 2 | 秋季 | 3月-5月 |
| 3 | 冬季 | 6月-8月 |
| 4 | 春季 | 9月-11月 |
### 2.5 学历编码说明
| 代码 | 学历 | 说明 |
|------|------|------|
| 1 | 高中 | 高中及以下学历 |
| 2 | 本科 | 大学本科学历 |
| 3 | 研究生 | 硕士研究生 |
| 4 | 博士 | 博士研究生 |
---
## 3. 数据预处理
### 3.1 数据清洗
#### 3.1.1 缺失值处理
数据集本身无缺失值,但在预处理过程中需确保:
```
检查步骤:
1. 统计每个字段的缺失值数量
2. 如发现缺失值,数值型用中位数填充,类别型用众数填充
```
#### 3.1.2 异常值处理
| 字段 | 异常值判定标准 | 处理方式 |
|------|----------------|----------|
| Absenteeism time in hours | > 24小时超过一天 | 保留,但做标记 |
| Work load Average/day | < 100 或 > 500 | 检查后决定保留或剔除 |
| Age | < 18 或 > 65 | 检查数据有效性 |
#### 3.1.3 数据类型转换
| 字段 | 原始类型 | 转换后类型 | 说明 |
|------|----------|------------|------|
| ID | int | int | 保持不变 |
| Reason for absence | int | category | 转为类别型 |
| Month of absence | int | category | 转为类别型 |
| Day of the week | int | category | 转为类别型 |
| Seasons | int | category | 转为类别型 |
| Education | int | category | 转为类别型 |
| Disciplinary failure | int | category | 转为类别型 |
| Social drinker | int | category | 转为类别型 |
| Social smoker | int | category | 转为类别型 |
### 3.2 特征编码
#### 3.2.1 独热编码 (One-Hot Encoding)
对以下类别型特征进行独热编码:
| 字段 | 编码后特征数 | 说明 |
|------|--------------|------|
| Reason for absence | 29 | 每个原因一个二进制特征 |
| Month of absence | 12 | 每个月份一个二进制特征 |
| Day of the week | 5 | 每个星期一个二进制特征 |
| Seasons | 4 | 每个季节一个二进制特征 |
| Education | 4 | 每个学历一个二进制特征 |
| Disciplinary failure | 2 | 是/否两个特征 |
| Social drinker | 2 | 是/否两个特征 |
| Social smoker | 2 | 是/否两个特征 |
**编码示例**
```
原始数据Reason for absence = 23
编码后:
Reason_0: 0
Reason_1: 0
...
Reason_23: 1
...
Reason_28: 0
```
#### 3.2.2 标准化处理 (StandardScaler)
对以下数值型特征进行标准化处理均值为0标准差为1
| 字段 | 标准化公式 |
|------|------------|
| Transportation expense | (x - μ) / σ |
| Distance from Residence to Work | (x - μ) / σ |
| Service time | (x - μ) / σ |
| Age | (x - μ) / σ |
| Work load Average/day | (x - μ) / σ |
| Hit target | (x - μ) / σ |
| Son | (x - μ) / σ |
| Pet | (x - μ) / σ |
| Weight | (x - μ) / σ |
| Height | (x - μ) / σ |
| Body mass index | (x - μ) / σ |
### 3.3 特征工程
#### 3.3.1 派生特征
可考虑创建以下派生特征:
| 派生特征 | 计算方式 | 说明 |
|----------|----------|------|
| has_children | Son > 0 | 是否有子女(二分类) |
| has_pet | Pet > 0 | 是否有宠物(二分类) |
| age_group | 年龄分组 | 青年/中年/老年 |
| service_category | 工龄分组 | 新员工/老员工 |
| bmi_category | BMI分组 | 正常/超重/肥胖 |
| workload_level | 负荷等级 | 低/中/高 |
#### 3.3.2 特征选择
基于特征重要性分析,选择对预测最有价值的特征:
| 优先级 | 特征 | 选择依据 |
|--------|------|----------|
| 高 | Reason for absence | 业务含义明确,影响直接 |
| 高 | Transportation expense | 特征重要性高 |
| 高 | Distance from Residence to Work | 特征重要性高 |
| 高 | Service time | 特征重要性高 |
| 高 | Age | 特征重要性高 |
| 中 | Work load Average/day | 有一定影响 |
| 中 | Body mass index | 有一定影响 |
| 中 | Social drinker | 群体差异明显 |
| 低 | Pet | 影响较小 |
| 低 | Height | 信息可由BMI代替 |
### 3.4 数据划分
#### 3.4.1 训练集/测试集划分
| 数据集 | 比例 | 记录数 | 用途 |
|--------|------|--------|------|
| 训练集 | 80% | 592条 | 模型训练 |
| 测试集 | 20% | 148条 | 模型评估 |
#### 3.4.2 划分方式
- 使用分层抽样,确保各缺勤原因在训练集和测试集中比例一致
- 随机种子固定random_state=42保证结果可复现
---
## 4. 数据存储方案
### 4.1 目录结构
```
backend/data/
├── raw/ # 原始数据
│ └── Absenteeism_at_work.csv # UCI原始数据集
├── processed/ # 处理后数据
│ ├── clean_data.csv # 清洗后的数据
│ ├── encoded_data.csv # 编码后的数据
│ ├── train_data.csv # 训练数据
│ └── test_data.csv # 测试数据
└── analysis/ # 分析结果数据
├── statistics.json # 统计结果
├── correlation.json # 相关性矩阵
└── feature_importance.json # 特征重要性
```
### 4.2 模型存储
```
backend/models/
├── rf_model.pkl # 随机森林模型
├── xgb_model.pkl # XGBoost模型
├── kmeans_model.pkl # K-Means模型
├── scaler.pkl # StandardScaler对象
├── encoder.pkl # OneHotEncoder对象
└── model_info.json # 模型元信息
```
### 4.3 数据文件格式
#### 4.3.1 CSV文件格式
```
分隔符:分号 (;)
编码UTF-8
表头:第一行为字段名
```
#### 4.3.2 JSON文件格式
```json
{
"created_at": "2026-03-01T10:00:00",
"version": "1.0",
"data": {
// 具体数据内容
}
}
```
---
## 5. 数据字典
### 5.1 原始数据字典
| 字段名 | 数据类型 | 是否为空 | 默认值 | 说明 |
|--------|----------|----------|--------|------|
| ID | INTEGER | NOT NULL | - | 员工唯一标识 |
| Reason for absence | INTEGER | NOT NULL | - | 缺勤原因代码 |
| Month of absence | INTEGER | NOT NULL | - | 月份(1-12) |
| Day of the week | INTEGER | NOT NULL | - | 星期(2-6) |
| Seasons | INTEGER | NOT NULL | - | 季节(1-4) |
| Transportation expense | INTEGER | NOT NULL | - | 交通费用 |
| Distance from Residence to Work | INTEGER | NOT NULL | - | 通勤距离(km) |
| Service time | INTEGER | NOT NULL | - | 工龄(年) |
| Age | INTEGER | NOT NULL | - | 年龄 |
| Work load Average/day | REAL | NOT NULL | - | 日均工作负荷 |
| Hit target | INTEGER | NOT NULL | - | 达标率(%) |
| Disciplinary failure | INTEGER | NOT NULL | 0 | 违纪记录(0/1) |
| Education | INTEGER | NOT NULL | - | 学历(1-4) |
| Son | INTEGER | NOT NULL | 0 | 子女数量 |
| Social drinker | INTEGER | NOT NULL | 0 | 饮酒习惯(0/1) |
| Social smoker | INTEGER | NOT NULL | 0 | 吸烟习惯(0/1) |
| Pet | INTEGER | NOT NULL | 0 | 宠物数量 |
| Weight | INTEGER | NOT NULL | - | 体重(kg) |
| Height | INTEGER | NOT NULL | - | 身高(cm) |
| Body mass index | REAL | NOT NULL | - | BMI指数 |
| Absenteeism time in hours | INTEGER | NOT NULL | - | 缺勤时长(目标变量) |
---
## 6. 附录
### 6.1 数据统计摘要
```
数据集基本信息:
- 记录数740
- 特征数21
- 员工数36
- 缺勤总时长5028小时
- 平均缺勤时长6.9小时
缺勤原因TOP5
1. 医疗咨询(23)149次 (20.1%)
2. 牙科咨询(28)112次 (15.1%)
3. 理疗(27)94次 (12.7%)
4. 疾病咨询(22)74次 (10.0%)
5. 消化系统疾病(11)59次 (8.0%)
学历分布:
- 高中633人 (85.5%)
- 本科79人 (10.7%)
- 研究生及以上28人 (3.8%)
生活习惯:
- 饮酒者340人 (45.9%)
- 吸烟者90人 (12.2%)
```
### 6.2 文档修改历史
| 版本 | 日期 | 修改人 | 修改内容 |
|------|------|--------|----------|
| V1.0 | 2026-03 | 张硕 | 初始版本 |
---
**文档结束**

787
docs/04_UI原型设计.md Normal file
View File

@@ -0,0 +1,787 @@
# UI原型设计文档
## 基于多维特征挖掘的员工缺勤分析与预测系统
**文档版本**V1.0
**编写日期**2026年3月
**编写人**:张硕
---
## 1. 设计原则
### 1.1 视觉风格
| 设计要素 | 设计规范 |
|----------|----------|
| 主色调 | Element Plus默认蓝色 (#409EFF) |
| 辅助色 | 成功绿(#67C23A)、警告黄(#E6A23C)、危险红(#F56C6C) |
| 背景色 | 浅灰色 (#F5F7FA) |
| 字体 | 系统默认字体(中文:微软雅黑/PingFang SC |
| 字号 | 标题16px、正文14px、辅助文字12px |
| 圆角 | 4px |
| 阴影 | 轻微阴影增加层次感 |
### 1.2 交互原则
| 原则 | 说明 |
|------|------|
| 一致性 | 相同功能使用相同的交互方式 |
| 反馈性 | 操作后给予明确的视觉反馈 |
| 容错性 | 提供撤销操作和错误提示 |
| 易学性 | 界面简洁直观,降低学习成本 |
| 高效性 | 减少操作步骤,提高工作效率 |
### 1.3 响应式设计
| 屏幕尺寸 | 适配方案 |
|----------|----------|
| ≥1920px | 大屏显示,图表放大 |
| 1366-1920px | 标准显示,默认布局 |
| <1366px | 紧凑布局,图表自适应 |
---
## 2. 整体布局
### 2.1 页面框架
```
┌─────────────────────────────────────────────────────────────────┐
│ Header (顶部导航栏) │
│ ┌───────────────────────────────────────────────────────────┐ │
│ │ Logo │ 数据概览 │ 影响因素 │ 缺勤预测 │ 员工画像 │ │
│ └───────────────────────────────────────────────────────────┘ │
├─────────────────────────────────────────────────────────────────┤
│ │
│ │
│ Main Content │
│ (主内容区域) │
│ │
│ │
├─────────────────────────────────────────────────────────────────┤
│ Footer (底部信息栏 - 可选) │
│ ┌───────────────────────────────────────────────────────────┐ │
│ │ © 2026 基于多维特征挖掘的员工缺勤分析与预测系统 │ │
│ └───────────────────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────────────────┘
```
### 2.2 导航设计
**顶部导航菜单**
| 菜单项 | 图标 | 路由 | 说明 |
|--------|------|------|------|
| 数据概览 | 📊 | /dashboard | 首页,展示整体统计 |
| 影响因素 | 🔍 | /analysis | 特征重要性分析 |
| 缺勤预测 | 🎯 | /prediction | 预测功能入口 |
| 员工画像 | 👥 | /clustering | 聚类分析结果 |
---
## 3. 页面一:数据概览 (Dashboard)
### 3.1 页面布局
```
┌─────────────────────────────────────────────────────────────────┐
│ 数据概览 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────┐ ┌─────────┐ ┌─────────┐ ┌─────────┐ │
│ │ KPI卡片1 │ │ KPI卡片2 │ │ KPI卡片3 │ │ KPI卡片4 │ │
│ │ 总记录数 │ │ 员工总数 │ │平均缺勤 │ │高风险占比│ │
│ │ 740 │ │ 36 │ │ 6.9h │ │ 15% │ │
│ └─────────┘ └─────────┘ └─────────┘ └─────────┘ │
│ │
├─────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────────────────┐ ┌─────────────────────────┐ │
│ │ │ │ │ │
│ │ 月度缺勤趋势折线图 │ │ 星期分布柱状图 │ │
│ │ │ │ │ │
│ │ (ECharts Line Chart) │ │ (ECharts Bar Chart) │ │
│ │ │ │ │ │
│ └─────────────────────────┘ └─────────────────────────┘ │
│ │
├─────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────────────────┐ ┌─────────────────────────┐ │
│ │ │ │ │ │
│ │ 缺勤原因分布饼图 │ │ 季节分布饼图 │ │
│ │ │ │ │ │
│ │ (ECharts Pie Chart) │ │ (ECharts Pie Chart) │ │
│ │ │ │ │ │
│ └─────────────────────────┘ └─────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────┘
```
### 3.2 组件说明
#### 3.2.1 KPI卡片组件
```
┌─────────────────────────────────────┐
│ ┌───────┐ │
│ │ 图标 │ 总记录数 │
│ │ 📊 │ │
│ └───────┘ │
│ │
│ 740 │
│ 条 │
│ │
│ 较上月 ↑ 5% │
└─────────────────────────────────────┘
```
**组件属性**
| 属性 | 类型 | 说明 |
|------|------|------|
| title | string | 指标名称 |
| value | number/string | 指标值 |
| unit | string | 单位 |
| icon | string | 图标 |
| trend | string | 趋势(可选) |
| trendType | string | 趋势类型up/down |
#### 3.2.2 月度趋势折线图
**ECharts配置要点**
```javascript
{
title: { text: '月度缺勤趋势' },
xAxis: {
type: 'category',
data: ['1月', '2月', ..., '12月']
},
yAxis: {
type: 'value',
name: '缺勤时长(小时)'
},
series: [{
type: 'line',
smooth: true,
data: [80, 65, 90, ...]
}],
tooltip: {
trigger: 'axis'
}
}
```
#### 3.2.3 缺勤原因饼图
**ECharts配置要点**
```javascript
{
title: { text: '缺勤原因分布' },
series: [{
type: 'pie',
radius: ['40%', '70%'], // 环形图
data: [
{ value: 149, name: '医疗咨询' },
{ value: 112, name: '牙科咨询' },
// ...
]
}],
legend: {
orient: 'vertical',
right: 10
}
}
```
### 3.3 交互流程
1. 用户进入页面,自动加载统计数据
2. KPI卡片依次显示可添加动画效果
3. 图表异步加载,显示加载动画
4. 图表支持鼠标悬停查看详情
5. 点击图表某区域可钻取详情(可选)
---
## 4. 页面二:影响因素分析 (FactorAnalysis)
### 4.1 页面布局
```
┌─────────────────────────────────────────────────────────────────┐
│ 影响因素分析 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ ┌───────────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ 特征重要性排序条形图 │ │
│ │ (水平柱状图,降序排列) │ │
│ │ │ │
│ │ 通勤距离 ████████████████████████ 0.35 │ │
│ │ 交通费用 ███████████████████ 0.28 │ │
│ │ 工龄 ██████████████ 0.21 │ │
│ │ 年龄 ████████████ 0.18 │ │
│ │ 工作负荷 ████████ 0.12 │ │
│ │ ... │ │
│ │ │ │
│ └───────────────────────────────────────────────────────────┘ │
│ │
├─────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────────────────┐ ┌─────────────────────────┐ │
│ │ │ │ │ │
│ │ 相关性热力图 │ │ 群体对比分析 │ │
│ │ │ │ │ │
│ │ (Heatmap) │ │ ┌───────────────────┐ │ │
│ │ │ │ │ 对比维度: [下拉框] │ │ │
│ │ 显示特征间相关系数 │ │ └───────────────────┘ │ │
│ │ │ │ │ │
│ │ │ │ (分组柱状图) │ │
│ └─────────────────────────┘ └─────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────┘
```
### 4.2 组件说明
#### 4.2.1 特征重要性条形图
```
特征重要性排序
┌────────────────────────────────────────────────────────┐
│ │
│ Reason for absence ████████████████████████████ │ 0.35
│ Transportation exp ████████████████████ │ 0.28
│ Distance █████████████████ │ 0.24
│ Service time ██████████████ │ 0.21
│ Age ████████████ │ 0.18
│ Work load ██████████ │ 0.15
│ BMI ████████ │ 0.12
│ Social drinker ██████ │ 0.09
│ Hit target ████ │ 0.06
│ Son ███ │ 0.05
│ Pet ██ │ 0.03
│ Education ██ │ 0.03
│ Social smoker █ │ 0.01
│ │
└────────────────────────────────────────────────────────┘
```
**ECharts配置要点**
```javascript
{
title: { text: '特征重要性排序' },
grid: { left: '20%' }, // 留出标签空间
xAxis: {
type: 'value',
name: '重要性得分'
},
yAxis: {
type: 'category',
data: ['Reason for absence', 'Transportation', ...]
},
series: [{
type: 'bar',
data: [0.35, 0.28, ...],
itemStyle: {
color: '#409EFF'
}
}]
}
```
#### 4.2.2 相关性热力图
```
┌─────────────────────────────────────────────────────────┐
│ 相关性热力图 │
│ │
│ Age SrvT Dist Load BMI AbsH │
│ ┌─────────────────────────────────────┐ │
│ Age │ 1.0 0.67 0.12 0.08 0.15 0.05 │ │
│ │ ■■■ ■■□ □□□ □□□ □□□ □□□ │ │
│ SrvT │ 0.67 1.0 0.10 0.05 0.12 0.08 │ │
│ │ ■■□ ■■■ □□□ □□□ □□□ □□□ │ │
│ Dist │ 0.12 0.10 1.0 0.03 0.05 0.18 │ │
│ │ □□□ □□□ ■■■ □□□ □□□ □□□ │ │
│ ... │ ... │ │
│ └─────────────────────────────────────┘ │
│ │
│ 图例: -1 (蓝色) ←→ 0 (白色) ←→ +1 (红色) │
└─────────────────────────────────────────────────────────┘
```
**ECharts配置要点**
```javascript
{
title: { text: '相关性热力图' },
tooltip: {
formatter: function(params) {
return `${params.name}: ${params.value[2].toFixed(2)}`;
}
},
xAxis: { type: 'category', data: featureNames },
yAxis: { type: 'category', data: featureNames },
visualMap: {
min: -1,
max: 1,
calculable: true,
inRange: {
color: ['#313695', '#ffffff', '#a50026']
}
},
series: [{
type: 'heatmap',
data: correlationData
}]
}
```
#### 4.2.3 群体对比选择器
```
┌───────────────────────────────────────────────────────────┐
│ 群体对比分析 │
│ │
│ 选择对比维度: [ 饮酒习惯 ▼ ] │
│ │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ 平均缺勤时长(小时) │ │
│ │ │ │
│ │ 不饮酒 ████████████████ 1.2h │ │
│ │ 饮酒 ██████████████████████████ 2.1h │ │
│ │ │ │
│ │ 差异: 饮酒者比不饮酒者高 75% │ │
│ │ │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
└───────────────────────────────────────────────────────────┘
```
**对比维度选项**
| 选项 | 分组 |
|------|------|
| 饮酒习惯 | 饮酒 / 不饮酒 |
| 吸烟习惯 | 吸烟 / 不吸烟 |
| 学历 | 高中 / 本科 / 研究生+ |
| 子女 | 有子女 / 无子女 |
| 宠物 | 有宠物 / 无宠物 |
### 4.3 交互流程
1. 页面加载时自动获取特征重要性数据
2. 渲染特征重要性条形图
3. 并行加载相关性矩阵,渲染热力图
4. 用户选择对比维度后,更新群体对比图
5. 所有图表支持鼠标悬停查看详情
---
## 5. 页面三:缺勤预测 (Prediction)
### 5.1 页面布局
```
┌─────────────────────────────────────────────────────────────────┐
│ 缺勤预测 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ ┌───────────────────────────┐ ┌───────────────────────────┐ │
│ │ │ │ │ │
│ │ 参数输入表单 │ │ 预测结果展示 │ │
│ │ │ │ │ │
│ │ 缺勤原因: [下拉选择] │ │ ┌───────────────────┐ │ │
│ │ 缺勤月份: [下拉选择] │ │ │ │ │ │
│ │ 星期几: [下拉选择] │ │ │ 预测结果 │ │ │
│ │ 季节: [下拉选择] │ │ │ │ │ │
│ │ │ │ │ 5.2 小时 │ │ │
│ │ 交通费用: [输入框] │ │ │ │ │ │
│ │ 通勤距离: [输入框] │ │ │ ● 中风险 │ │ │
│ │ 工龄: [输入框] │ │ │ │ │ │
│ │ 年龄: [输入框] │ │ └───────────────────┘ │ │
│ │ │ │ │ │
│ │ 日均工作负荷: [输入框] │ │ ┌───────────────────┐ │ │
│ │ 达标率: [输入框] │ │ │ 模型信息 │ │ │
│ │ 违纪记录: [是/否] │ │ │ R²: 0.82 │ │ │
│ │ 学历: [下拉选择] │ │ │ MSE: 15.5 │ │ │
│ │ 子女数量: [输入框] │ │ │ 置信度: 85% │ │ │
│ │ 饮酒习惯: [是/否] │ │ └───────────────────┘ │ │
│ │ 吸烟习惯: [是/否] │ │ │ │
│ │ 宠物数量: [输入框] │ │ │ │
│ │ BMI指数: [输入框] │ │ │ │
│ │ │ │ │ │
│ │ [ 开始预测 ] │ │ │ │
│ │ │ │ │ │
│ └───────────────────────────┘ └───────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────┘
```
### 5.2 组件说明
#### 5.2.1 参数输入表单
**表单字段设计**
| 字段 | 组件类型 | 选项/范围 | 默认值 |
|------|----------|-----------|--------|
| 缺勤原因 | el-select | 0-28 | 23 |
| 缺勤月份 | el-select | 1-12 | 当前月 |
| 星期几 | el-select | 周一-周五 | 周一 |
| 季节 | el-select | 夏秋冬春 | 当前季节 |
| 交通费用 | el-input-number | 100-400 | 200 |
| 通勤距离 | el-input-number | 1-60 | 20 |
| 工龄 | el-input-number | 1-30 | 5 |
| 年龄 | el-input-number | 18-60 | 30 |
| 日均工作负荷 | el-input-number | 200-350 | 250 |
| 达标率 | el-input-number | 80-100 | 95 |
| 违纪记录 | el-radio-group | 是/否 | 否 |
| 学历 | el-select | 高中/本科/研究生/博士 | 本科 |
| 子女数量 | el-input-number | 0-5 | 0 |
| 饮酒习惯 | el-radio-group | 是/否 | 否 |
| 吸烟习惯 | el-radio-group | 是/否 | 否 |
| 宠物数量 | el-input-number | 0-10 | 0 |
| BMI指数 | el-input-number | 18-40 | 25 |
**表单验证规则**
| 字段 | 验证规则 |
|------|----------|
| 缺勤原因 | 必填 |
| 缺勤月份 | 必填范围1-12 |
| 交通费用 | 必填范围100-400 |
| 通勤距离 | 必填范围1-60 |
| 年龄 | 必填范围18-60 |
| BMI指数 | 必填范围18-40 |
#### 5.2.2 预测结果卡片
```
┌─────────────────────────────────────┐
│ │
│ 预测结果 │
│ │
│ 5.2 │
│ 小时 │
│ │
│ ┌─────────────────────────────┐ │
│ │ ● 中风险 (黄色) │ │
│ │ 缺勤时长: 4-8小时 │ │
│ └─────────────────────────────┘ │
│ │
│ 模型置信度: 85% │
│ 使用模型: 随机森林 │
│ │
└─────────────────────────────────────┘
```
**风险等级展示**
| 等级 | 颜色 | 图标 | 说明 |
|------|------|------|------|
| 低风险 | 绿色 (#67C23A) | ✓ | 缺勤时长 < 4小时 |
| 中风险 | 黄色 (#E6A23C) | ⚠ | 缺勤时长 4-8小时 |
| 高风险 | 红色 (#F56C6C) | ✕ | 缺勤时长 > 8小时 |
### 5.3 交互流程
1. 页面加载,显示空表单
2. 用户填写表单字段
3. 点击"开始预测"按钮
4. 前端验证表单数据
5. 发送请求到后端API
6. 显示加载动画
7. 接收预测结果
8. 渲染结果卡片(带动画效果)
---
## 6. 页面四:员工画像 (Clustering)
### 6.1 页面布局
```
┌─────────────────────────────────────────────────────────────────┐
│ 员工画像 │
├─────────────────────────────────────────────────────────────────┤
│ │
│ 聚类数量: [ 3 ▼ ] [ 重新聚类 ] │
│ │
├─────────────────────────────────────────────────────────────────┤
│ │
│ ┌───────────────────────────────────────────────────────────┐ │
│ │ │ │
│ │ 员工群体雷达图 │ │
│ │ │ │
│ │ 年龄 │ │
│ │ ▲ │ │
│ │ /│\ │ │
│ │ / │ \ │ │
│ │ 工龄 ◄──────┼──────► 工作负荷 │ │
│ │ \ │ / │ │
│ │ \ │ / │ │
│ │ \ │ / │ │
│ │ 缺勤倾向 ▼ BMI │ │
│ │ │ │
│ │ 图例: ─── 模范型 ─── 压力型 ─── 生活习惯型 │ │
│ │ │ │
│ └───────────────────────────────────────────────────────────┘ │
│ │
├─────────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────────────────┐ ┌─────────────────────────┐ │
│ │ │ │ │ │
│ │ 聚类结果统计 │ │ 聚类散点图 │ │
│ │ │ │ │ │
│ │ 模范型: 120人 (33%) │ │ ● │ │
│ │ 压力型: 100人 (28%) │ │ ● ● ○ │ │
│ │ 生活习惯型: 140人(39%)│ │ ● ○ ● │ │
│ │ │ │ ○ ● │ │
│ │ 点击查看详细建议... │ │ │ │
│ │ │ │ ● 模范型 ○ 压力型 │ │
│ └─────────────────────────┘ └─────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────────┘
```
### 6.2 组件说明
#### 6.2.1 员工群体雷达图
```
年龄
/|\
/ | \
/ | \
/ | \
/ | \
工龄 ◄───────┼───────► 工作负荷
\ | /
\ | /
\ | /
\ | /
\|/
缺勤倾向 BMI
各聚类特征(归一化):
─────────────────────────────────────────
模范型 (绿色): 0.75 0.90 0.60 0.55 0.20
压力型 (橙色): 0.35 0.20 0.85 0.45 0.70
生活习惯型 (红色): 0.55 0.50 0.65 0.80 0.45
```
**ECharts配置要点**
```javascript
{
title: { text: '员工群体画像' },
legend: { data: ['模范型', '压力型', '生活习惯型'] },
radar: {
indicator: [
{ name: '年龄', max: 1 },
{ name: '工龄', max: 1 },
{ name: '工作负荷', max: 1 },
{ name: 'BMI', max: 1 },
{ name: '缺勤倾向', max: 1 }
]
},
series: [{
type: 'radar',
data: [
{ value: [0.75, 0.90, 0.60, 0.55, 0.20], name: '模范型' },
{ value: [0.35, 0.20, 0.85, 0.45, 0.70], name: '压力型' },
{ value: [0.55, 0.50, 0.65, 0.80, 0.45], name: '生活习惯型' }
]
}]
}
```
#### 6.2.2 聚类结果统计
```
┌─────────────────────────────────────────────────────────────┐
│ 聚类结果统计 │
├─────────────────────────────────────────────────────────────┤
│ │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ 模范型员工 120人 (33.3%) │ │
│ │ ████████████████████████████████ │ │
│ │ 特点: 工龄长、工作稳定、缺勤率低 │ │
│ │ 建议: 保持现有管理方式,可作为榜样员工 │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ 压力型员工 100人 (27.8%) │ │
│ │ ████████████████████████ │ │
│ │ 特点: 年轻、工龄短、工作负荷大、缺勤较多 │ │
│ │ 建议: 关注工作压力,适当减少加班 │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
│ ┌─────────────────────────────────────────────────────┐ │
│ │ 生活习惯型员工 140人 (38.9%) │ │
│ │ ████████████████████████████████████ │ │
│ │ 特点: BMI偏高、有饮酒习惯、中等缺勤率 │ │
│ │ 建议: 关注员工健康,组织体检和健康活动 │ │
│ └─────────────────────────────────────────────────────┘ │
│ │
└─────────────────────────────────────────────────────────────┘
```
#### 6.2.3 聚类散点图
```
┌─────────────────────────────────────────────────────────────┐
│ 聚类散点图 │
│ │
│ 缺勤 │
│ 时长 │
│ ▲ │
│ 40 │ ○ │
│ │ ○ ○ │
│ 30 │ ○ ○ │
│ │ ○ ● ○ ○ │
│ 20 │ ● ● ○ ○ │
│ │ ● ● ● ○ ○ │
│ 10 │● ● ○ ○ ○ │
│ │● ● ○ ○ ○ │
│ 0 │● ● ○ ○ ○ │
│ └─────────────────────────────────────────────────────► │
│ 20 30 40 50 60 年龄 │
│ │
│ ● 模范型 ○ 压力型 ◐ 生活习惯型 │
└─────────────────────────────────────────────────────────────┘
```
### 6.3 交互流程
1. 页面加载默认使用3个聚类
2. 渲染雷达图和散点图
3. 用户可调整聚类数量2-5
4. 点击"重新聚类"按钮更新结果
5. 点击某个聚类可查看详细信息和建议
6. 散点图支持鼠标悬停查看员工详情
---
## 7. 公共组件
### 7.1 ChartComponent.vue
**用途**封装ECharts图表统一管理图表生命周期
**Props**
| 属性 | 类型 | 默认值 | 说明 |
|------|------|--------|------|
| option | Object | {} | ECharts配置项 |
| loading | Boolean | false | 是否加载中 |
| height | String | '400px' | 图表高度 |
| width | String | '100%' | 图表宽度 |
**使用示例**
```vue
<ChartComponent
:option="chartOption"
:loading="loading"
height="300px"
/>
```
### 7.2 ResultCard.vue
**用途**:展示预测结果
**Props**
| 属性 | 类型 | 默认值 | 说明 |
|------|------|--------|------|
| predictedHours | Number | 0 | 预测时长 |
| riskLevel | String | 'low' | 风险等级 |
| confidence | Number | 0 | 置信度 |
### 7.3 KPICard.vue
**用途**展示KPI指标卡片
**Props**
| 属性 | 类型 | 默认值 | 说明 |
|------|------|--------|------|
| title | String | '' | 指标名称 |
| value | String/Number | '' | 指标值 |
| unit | String | '' | 单位 |
| icon | String | '' | 图标类名 |
| color | String | '#409EFF' | 主题色 |
### 7.4 LoadingSpinner.vue
**用途**:加载动画组件
**Props**
| 属性 | 类型 | 默认值 | 说明 |
|------|------|--------|------|
| text | String | '加载中...' | 提示文字 |
---
## 8. 配色方案
### 8.1 主色调
| 用途 | 颜色值 | 说明 |
|------|--------|------|
| 主色 | #409EFF | Element Plus主色 |
| 成功 | #67C23A | 低风险、正向指标 |
| 警告 | #E6A23C | 中风险、需关注 |
| 危险 | #F56C6C | 高风险、异常 |
| 信息 | #909399 | 辅助信息 |
### 8.2 图表配色
```javascript
const chartColors = [
'#5470c6', // 蓝色
'#91cc75', // 绿色
'#fac858', // 黄色
'#ee6666', // 红色
'#73c0de', // 浅蓝
'#3ba272', // 深绿
'#fc8452', // 橙色
'#9a60b4', // 紫色
'#ea7ccc' // 粉色
];
```
---
## 9. 附录
### 9.1 页面清单
| 页面 | 路由 | 主要图表 | 主要交互 |
|------|------|----------|----------|
| 数据概览 | /dashboard | 折线图、饼图、柱状图 | 图表悬停、钻取 |
| 影响因素 | /analysis | 条形图、热力图 | 维度切换 |
| 缺勤预测 | /prediction | - | 表单提交 |
| 员工画像 | /clustering | 雷达图、散点图 | 聚类数调整 |
### 9.2 文档修改历史
| 版本 | 日期 | 修改人 | 修改内容 |
|------|------|--------|----------|
| V1.0 | 2026-03 | 张硕 | 初始版本 |
---
**文档结束**

111
docs/1.md Normal file
View File

@@ -0,0 +1,111 @@
这是一个典型的**前后端分离**架构的毕设项目结构。为了契合你的题目《基于多维特征挖掘的员工缺勤分析与预测系统设计与实现》,我们将项目分为 `Backend`Python 后端,负责算法与逻辑)和 `Frontend`Vue 前端,负责展示与交互)。
以下是详细的工程目录结构及说明:
---
### 📁 项目根目录Absenteeism_Analysis_System/
```
Absenteeism_Analysis_System/
├── backend/ # 后端项目目录 (Python/Flask)
│ ├── app.py # 程序入口文件 (启动服务)
│ ├── config.py # 配置文件 (路径、密钥等)
│ ├── requirements.txt # Python依赖库清单 (pandas, scikit-learn, flask等)
│ │
│ ├── data/ # 数据存储目录
│ │ ├── raw/ # 原始数据集
│ │ │ └── Absenteeism_at_work.csv # 从UCI下载的原始数据
│ │ └── processed/ # 处理后的数据集
│ │ └── clean_data.csv # 经过清洗、编码后的数据
│ │
│ ├── models/ # 模型存储目录
│ │ ├── rf_model.pkl # 训练好的随机森林模型文件
│ │ ├── xgb_model.pkl # 训练好的XGBoost模型文件
│ │ └── kmeans_model.pkl # 聚类模型文件
│ │
│ ├── core/ # 核心算法模块 (对应论文的“多维特征挖掘”)
│ │ ├── __init__.py
│ │ ├── preprocessing.py # 数据预处理:缺失值填充、独热编码、归一化
│ │ ├── feature_mining.py # 特征挖掘:相关性分析、特征重要性计算
│ │ ├── train_model.py # 模型训练脚本训练RF/XGBoost并保存模型
│ │ └── clustering.py # 聚类分析K-Means算法实现
│ │
│ ├── services/ # 业务逻辑层
│ │ ├── __init__.py
│ │ ├── analysis_service.py # 分析服务:调用特征挖掘模块,返回图表数据
│ │ ├── predict_service.py # 预测服务:加载模型,进行推理
│ │ └── data_service.py # 数据服务读取CSV提供基础统计
│ │
│ ├── api/ # API接口层 (路由)
│ │ ├── __init__.py
│ │ ├── analysis_routes.py # 接口:获取特征重要性、相关性等
│ │ ├── predict_routes.py # 接口:接收前端表单,返回预测结果
│ │ └── cluster_routes.py # 接口:返回聚类结果/员工画像
│ │
│ └── utils/ # 工具函数
│ └── common.py # 通用工具JSON封装、CORS处理等
├── frontend/ # 前端项目目录
│ ├── public/ # 静态资源
│ ├── src/
│ │ ├── assets/ # 资源文件 (图片、样式)
│ │ ├── components/ # 公共组件
│ │ │ ├── ChartComponent.vue # ECharts图表封装组件
│ │ │ └── ResultCard.vue # 预测结果展示卡片
│ │ │
│ │ ├── views/ # 页面视图 (对应你的前端设计)
│ │ │ ├── Dashboard.vue # 页面一:数据概览与统计
│ │ │ ├── FactorAnalysis.vue # 页面二:影响因素分析 (核心)
│ │ │ ├── Prediction.vue # 页面三:缺勤预测 (输入表单+结果)
│ │ │ └── Clustering.vue # 页面四:员工画像与聚类
│ │ │
│ │ ├── router/ # 路由配置
│ │ │ └── index.js
│ │ ├── api/ # 前端API调用封装
│ │ │ └── request.js # 配置axios连接后端接口
│ │ ├── App.vue # 根组件
│ │ └── main.js # 入口文件
│ │
│ ├── package.json # 前端依赖 (vue, element-plus, echarts)
│ └── vite.config.js # Vue构建配置 (如果用Vite) 或 vue.config.js
└── README.md # 项目说明文档
```
---
### 🔧 核心模块功能详解(对应论文)
#### 1. 后端 `core/` 模块详解
这是你论文中“算法设计”部分的代码落地:
* **`preprocessing.py`**:
* 实现 `OneHotEncoder` 处理 `Reason for absence` 等类别。
* 实现 `StandardScaler` 处理 `Transportation expense` 等数值。
* 实现 `get_clean_data()` 函数,供其他模块调用。
* **`feature_mining.py`**:
* 实现 `calculate_correlation()`: 使用 Pandas 计算相关系数矩阵。
* 实现 `get_feature_importance()`: 加载随机森林模型,提取 `feature_importances_`
* **`train_model.py`**:
* 包含 `train_rf()``train_xgboost()` 函数。
* 负责划分训练集/测试集,计算 MSE/R2并保存 `.pkl` 文件。
* **`clustering.py`**:
* 包含 `kmeans_analysis()` 函数。
* 对员工进行分类,并返回每个簇的中心点数据(用于画雷达图)。
#### 2. 后端 `api/` 模块详解
这是前后端交互的桥梁:
* **`analysis_routes.py`**:
* 路由: `/api/analysis/importance`
* 作用: 调用 `feature_mining.py`,返回格式化后的 JSON (例如 `{'feature': 'Distance', 'score': 0.45}`) 供前端画柱状图。
* **`predict_routes.py`**:
* 路由: `/api/predict/single`
* 作用: 接收前端 POST 过来的 JSON (表单数据),调用 `predict_service.py` 加载模型,返回预测的小时数。
#### 3. 前端 `views/` 模块详解
这是你论文中“系统实现”部分的展示:
* **`FactorAnalysis.vue`**:
* 引入 `ECharts`
* `mounted()` 生命周期里调用 `/api/analysis/importance`
* 渲染:横向柱状图(特征重要性)、热力图(相关性矩阵)。
* **`Prediction.vue`**:
* 左侧:`el-form` 表单,字段包含 `age`, `distance`, `drink` 等。
* 右侧:`el-card`,初始状态为空,点击“开始预测”后,显示返回的 `hours` 和风险等级(红/黄/绿标签)。
---
### 💡 为什么要这样设计?
1. **分层清晰MVC模式**`core` 专心算算法,`services` 处理业务,`api` 管接口。这在答辩时非常有优势,老师会觉得你代码结构规范,软件工程素养好。
2. **算法模块化**:你没有把算法代码直接写在接口文件里,而是单独封装了 `core` 目录。这意味着如果以后你想换算法(比如不用随机森林改用神经网络),只需要改 `core` 里的代码,不需要动接口,这叫**“高内聚低耦合”**。
3. **数据隔离**:原始数据 (`raw`) 和 清洗数据 (`processed`) 分开,训练好的模型单独放在 `models`,这样项目管理非常干净,不会一团乱麻。
按照这个结构去写代码和画图(系统架构图、时序图),你的论文逻辑会非常顺畅!

48
docs/2.md Normal file
View File

@@ -0,0 +1,48 @@
基于你的项目架构和题目《基于多维特征挖掘的员工缺勤分析与预测系统设计与实现》,预期实现的功能可以分为四个核心模块。你可以直接把这些内容写到开题报告的“研究内容”或“系统功能需求”章节里。
---
### 一、 数据概览与全局统计分析功能
这是系统的“仪表盘”,让用户对整体情况一目了然。
* **多维统计展示:**
* **功能描述:** 系统自动加载 UCI 考勤数据集,展示基础统计指标(样本总数、缺勤总时长、平均缺勤时长、最大/最小缺勤时长)。
* **实现价值:** 帮助管理者快速了解企业整体考勤健康状况。
* **时间维度趋势分析:**
* **功能描述:** 以折线图形式展示全年1-12月的缺勤变化趋势以柱状图展示周一至周五的缺勤分布以饼图展示不同季节春夏秋冬的缺勤比例。
* **实现价值:** 识别出缺勤的高发时间段(例如:发现周五缺勤率最高,或夏季缺勤最多)。
### 二、 多维特征挖掘与影响因素分析功能
这是系统的核心亮点,对应题目中的“多维特征挖掘”,解决“为什么缺勤”的问题。
* **特征重要性排序:**
* **功能描述:** 利用训练好的随机森林模型计算并展示各维度特征对缺勤的影响权重。例如柱状图显示“通勤距离”影响最大“BMI指数”次之“宠物数量”影响最小。
* **实现价值:** 量化指标,让管理者直观看到哪些是导致缺勤的“罪魁祸首”。
* **关联性热力图分析:**
* **功能描述:** 计算特征之间的相关系数矩阵,以热力图形式展示。重点突出“生活习惯”(如 Social drinker与“缺勤时长”之间的强相关关系。
* **实现价值:** 挖掘隐性规律,比如发现“爱喝酒的员工”更容易“无故缺勤”,为制定公司制度(如禁止酒后上岗)提供数据支持。
* **群体特征对比:**
* **功能描述:** 提供分组统计功能,对比不同群体(如:高学历 vs 低学历,有子女 vs 无子女)的平均缺勤时长。
* **实现价值:** 细分人群,实现精细化管理。
### 三、 员工缺勤风险预测功能
这是系统的实用工具,对应题目中的“预测”,解决“未来会怎样”的问题。
* **单次缺勤时长预测:**
* **功能描述:** 提供一个交互式表单用户输入或选择某员工的各项属性年龄、距离、交通费、BMI、是否饮酒、月份、工作负荷等系统调用后台预测模型XGBoost/RF实时返回预测的缺勤时长例如预测结果为 8 小时)。
* **实现价值:** 当某个月工作负荷很大或季节变化时,可提前预判该员工的缺勤情况。
* **缺勤风险等级评估:**
* **功能描述:** 根据预测时长,自动将员工标记为“低风险(绿色)”、“中风险(黄色)”或“高风险(红色)”。
* **实现价值:** 快速筛选出需要重点关注的“刺头”员工或困难员工。
* **新入职员工评估(扩展):**
* **功能描述:** 针对没有历史数据的新员工仅凭其入职时的属性信息如居住地、年龄、体检BMI等系统给出其潜在缺勤风险的预估。
* **实现价值:** 辅助HR在招聘环节进行人员筛选。
### 四、 员工画像与群体聚类功能
这是系统的高级分析功能,展示算法对人群的分类能力。
* **K-Means 聚类分析:**
* **功能描述:** 系统利用 K-Means 算法自动将所有员工划分为 3-4 个类别(如:模范型、压力型、生活习惯型)。
* **员工群体画像(雷达图):**
* **功能描述:** 对每个聚类群体的特征工龄、负荷、BMI、距离、缺勤倾向绘制雷达图。
* **实现价值:**
* 比如识别出“压力型群体”工龄短、负荷极大、缺勤多建议HR减少加班
* 识别出“生活习惯型群体”BMI高、爱喝酒建议HR关注体检。
### 五、 系统管理功能
基础功能,保证系统的可用性。
* **数据导入与更新:** 支持上传新的 CSV 考勤文件,系统自动解析并更新数据库。
* **模型管理:** 展示当前使用的算法模型(随机森林/XGBoost以及该模型在测试集上的准确率、均方误差MSE等性能指标。
---
### 💡 总结一句话
本系统预期实现从**“数据录入”**到**“可视化统计”**,再到**“深度归因分析”**,最后实现**“精准风险预测”**和**“人群画像划分”**的全流程功能,能够为企业提供一套完整的人力资源考勤数据智能分析解决方案。

221
docs/3.md Normal file
View File

@@ -0,0 +1,221 @@
Data Set Name:
Absenteeism at work - Part I
Abstract:
The database was created with records of absenteeism at work from July 2007 to July 2010 at a courier company in Brazil.
Source:
Creators original owner and donors: Andrea Martiniano (1), Ricardo Pinto Ferreira (2), and Renato Jose Sassi (3).
E-mail address:
andrea.martiniano'@'gmail.com (1) - PhD student;
log.kasparov'@'gmail.com (2) - PhD student;
sassi'@'uni9.pro.br (3) - Prof. Doctor.
Universidade Nove de Julho - Postgraduate Program in Informatics and Knowledge Management.
Address: Rua Vergueiro, 235/249 Liberdade, Sao Paulo, SP, Brazil. Zip code: 01504-001.
Website: http://www.uninove.br/curso/informatica-e-gestao-do-conhecimento/
Data Type: Multivariate   Univariate   Sequential   Time-Series   Text   Domain-Theory  
Task: Classification   Regression   Clustering   Causal Discovery
Attribute Type: Categorical   Integer   Real
Area: Life Sciences Physical Sciences CS / Engineering Social Sciences Business Game Other
Format Type: Matrix Non-Matrix
Does your data set contain missing values? Yes No
Number of Instances (records in your data set): 
Number of Attributes (fields within each record): 
*-*-*-*-*-*
Relevant Information:
The data set allows for several new combinations of attributes and attribute exclusions, or the modification of the attribute type (categorical, integer, or real) depending on the purpose of the research.The data set (Absenteeism at work - Part I) was used in academic research at the Universidade Nove de Julho - Postgraduate Program in Informatics and Knowledge Management.
Attribute Information:
1. Individual identification (ID)
2. Reason for absence (ICD).
Absences attested by the International Code of Diseases (ICD) stratified into 21 categories (I to XXI) as follows:
I Certain infectious and parasitic diseases
II Neoplasms
III Diseases of the blood and blood-forming organs and certain disorders involving the immune mechanism
IV Endocrine, nutritional and metabolic diseases
V Mental and behavioural disorders
VI Diseases of the nervous system
VII Diseases of the eye and adnexa
VIII Diseases of the ear and mastoid process
IX Diseases of the circulatory system
X Diseases of the respiratory system
XI Diseases of the digestive system
XII Diseases of the skin and subcutaneous tissue
XIII Diseases of the musculoskeletal system and connective tissue
XIV Diseases of the genitourinary system
XV Pregnancy, childbirth and the puerperium
XVI Certain conditions originating in the perinatal period
XVII Congenital malformations, deformations and chromosomal abnormalities
XVIII Symptoms, signs and abnormal clinical and laboratory findings, not elsewhere classified
XIX Injury, poisoning and certain other consequences of external causes
XX External causes of morbidity and mortality
XXI Factors influencing health status and contact with health services.
And 7 categories without (CID) patient follow-up (22), medical consultation (23), blood donation (24), laboratory examination (25), unjustified absence (26), physiotherapy (27), dental consultation (28).
3. Month of absence
4. Day of the week (Monday (2), Tuesday (3), Wednesday (4), Thursday (5), Friday (6))
5. Seasons (summer (1), autumn (2), winter (3), spring (4))
6. Transportation expense
7. Distance from Residence to Work (kilometers)
8. Service time
9. Age
10. Work load Average/day
11. Hit target
12. Disciplinary failure (yes=1; no=0)
13. Education (high school (1), graduate (2), postgraduate (3), master and doctor (4))
14. Son (number of children)
15. Social drinker (yes=1; no=0)
16. Social smoker (yes=1; no=0)
17. Pet (number of pet)
18. Weight
19. Height
20. Body mass index
21. Absenteeism time in hours (target)
.arff header for Weka:
@relation Absenteeism_at_work
@attribute ID {31.0, 27.0, 19.0, 30.0, 7.0, 20.0, 24.0, 32.0, 3.0, 33.0, 26.0, 29.0, 18.0, 25.0, 17.0, 14.0, 16.0, 23.0, 2.0, 21.0, 36.0, 15.0, 22.0, 5.0, 12.0, 9.0, 6.0, 34.0, 10.0, 28.0, 13.0, 11.0, 1.0, 4.0, 8.0, 35.0}
@attribute Reason_for_absence {17.0, 3.0, 15.0, 4.0, 21.0, 2.0, 9.0, 24.0, 18.0, 1.0, 12.0, 5.0, 16.0, 7.0, 27.0, 25.0, 8.0, 10.0, 26.0, 19.0, 28.0, 6.0, 23.0, 22.0, 13.0, 14.0, 11.0, 0.0}
@attribute Month_of_absence REAL
@attribute Day_of_the_week {5.0, 2.0, 3.0, 4.0, 6.0}
@attribute Seasons {4.0, 1.0, 2.0, 3.0}
@attribute Transportation_expense REAL
@attribute Distance_from_Residence_to_Work REAL
@attribute Service_time INTEGER
@attribute Age INTEGER
@attribute Work_load_Average/day_ REAL
@attribute Hit_target REAL
@attribute Disciplinary_failure {1.0, 0.0}
@attribute Education REAL
@attribute Son REAL
@attribute Social_drinker {1.0, 0.0}
@attribute Social_smoker {1.0, 0.0}
@attribute Pet REAL
@attribute Weight REAL
@attribute Height REAL
@attribute Body_mass_index REAL
@attribute Absenteeism_time_in_hours REAL
Relevant Papers:
Martiniano, A., Ferreira, R. P., Sassi, R. J., & Affonso, C. (2012). Application of a neuro fuzzy network in prediction of absenteeism at work. In Information Systems and Technologies (CISTI), 7th Iberian Conference on (pp. 1-4). IEEE.
Citation Requests / Acknowledgements:
Martiniano, A., Ferreira, R. P., Sassi, R. J., & Affonso, C. (2012). Application of a neuro fuzzy network in prediction of absenteeism at work. In Information Systems and Technologies (CISTI), 7th Iberian Conference on (pp. 1-4). IEEE.
Acknowledgements:
Professor Gary Johns for contributing to the selection of relevant research attributes.
Professor Emeritus of Management
Honorary Concordia University Research Chair in Management
John Molson School of Business
Concordia University
Montreal, Quebec, Canada
Adjunct Professor, OB/HR Division
Sauder School of Business,
University of British Columbia
Vancouver, British Columbia, Canada
---------------------------------------------------------------------------
Attribute Information:
1. Individual identification (ID)
2. Reason for absence (ICD).
Absences attested by the International Code of Diseases (ICD) stratified into 21 categories (I to XXI) as follows:
I Certain infectious and parasitic diseases
II Neoplasms
III Diseases of the blood and blood-forming organs and certain disorders involving the immune mechanism
IV Endocrine, nutritional and metabolic diseases
V Mental and behavioural disorders
VI Diseases of the nervous system
VII Diseases of the eye and adnexa
VIII Diseases of the ear and mastoid process
IX Diseases of the circulatory system
X Diseases of the respiratory system
XI Diseases of the digestive system
XII Diseases of the skin and subcutaneous tissue
XIII Diseases of the musculoskeletal system and connective tissue
XIV Diseases of the genitourinary system
XV Pregnancy, childbirth and the puerperium
XVI Certain conditions originating in the perinatal period
XVII Congenital malformations, deformations and chromosomal abnormalities
XVIII Symptoms, signs and abnormal clinical and laboratory findings, not elsewhere classified
XIX Injury, poisoning and certain other consequences of external causes
XX External causes of morbidity and mortality
XXI Factors influencing health status and contact with health services.
And 7 categories without (CID) patient follow-up (22), medical consultation (23), blood donation (24), laboratory examination (25), unjustified absence (26), physiotherapy (27), dental consultation (28).
3. Month of absence
4. Day of the week (Monday (2), Tuesday (3), Wednesday (4), Thursday (5), Friday (6))
5. Seasons
6. Transportation expense
7. Distance from Residence to Work (kilometers)
8. Service time
9. Age
10. Work load Average/day
11. Hit target
12. Disciplinary failure (yes=1; no=0)
13. Education (high school (1), graduate (2), postgraduate (3), master and doctor (4))
14. Son (number of children)
15. Social drinker (yes=1; no=0)
16. Social smoker (yes=1; no=0)
17. Pet (number of pet)
18. Weight
19. Height
20. Body mass index
21. Absenteeism time in hours (target)
.arff header for Weka:
@relation Absenteeism_at_work
@attribute ID {31.0, 27.0, 19.0, 30.0, 7.0, 20.0, 24.0, 32.0, 3.0, 33.0, 26.0, 29.0, 18.0, 25.0, 17.0, 14.0, 16.0, 23.0, 2.0, 21.0, 36.0, 15.0, 22.0, 5.0, 12.0, 9.0, 6.0, 34.0, 10.0, 28.0, 13.0, 11.0, 1.0, 4.0, 8.0, 35.0}
@attribute Reason_for_absence {17.0, 3.0, 15.0, 4.0, 21.0, 2.0, 9.0, 24.0, 18.0, 1.0, 12.0, 5.0, 16.0, 7.0, 27.0, 25.0, 8.0, 10.0, 26.0, 19.0, 28.0, 6.0, 23.0, 22.0, 13.0, 14.0, 11.0, 0.0}
@attribute Month_of_absence REAL
@attribute Day_of_the_week {5.0, 2.0, 3.0, 4.0, 6.0}
@attribute Seasons {4.0, 1.0, 2.0, 3.0}
@attribute Transportation_expense REAL
@attribute Distance_from_Residence_to_Work REAL
@attribute Service_time INTEGER
@attribute Age INTEGER
@attribute Work_load_Average/day_ REAL
@attribute Hit_target REAL
@attribute Disciplinary_failure {1.0, 0.0}
@attribute Education REAL
@attribute Son REAL
@attribute Drinker {1.0, 0.0}
@attribute Smoker {1.0, 0.0}
@attribute Pet REAL
@attribute Weight REAL
@attribute Height REAL
@attribute Body_mass_index REAL
@attribute Absenteeism_time_in_hours REAL

BIN
docs/开题报告.docx Normal file

Binary file not shown.

123
docs/开题报告.md Normal file
View File

@@ -0,0 +1,123 @@
# 河南农业大学本科毕业论文(设计)开题报告
## 基本信息
- **学院**:软件学院
- **专业**:数据科学与大数据技术
- **班级**22级11班
- **学号**2210121330
- **学生姓名**:张硕
- **指导教师**:孙昌霞、李天格
- **题目名称**:基于多维特征挖掘的员工缺勤分析与预测系统设计与实现
---
## 选题目的与意义
**研究目的:**
随着企业数字化转型的深入推进人力资源管理正从经验驱动向数据驱动转变。员工缺勤作为影响企业运营效率的重要因素其背后蕴含着丰富的多维度信息。本课题旨在利用机器学习算法对UCI Absenteeism数据集中的740条员工考勤记录进行深入分析挖掘影响缺勤的多维度特征构建基于随机森林和XGBoost的缺勤预测模型并设计实现一个完整的数据分析与预测系统。通过该系统企业能够从数据中发现缺勤背后的规律实现对员工缺勤风险的精准识别和预警为人力资源管理提供科学、客观的决策支持。
**研究意义:**
从理论层面来看本课题探索了多维特征挖掘在人力资源数据分析领域的应用价值。传统的缺勤研究多侧重于单一因素分析或简单的统计描述缺乏对多维度特征之间复杂关系的深入挖掘。本研究将特征工程、相关性分析、机器学习预测和聚类分析等方法有机结合构建了一个完整的分析框架为相关领域的研究提供了方法论参考。同时通过对随机森林、XGBoost等算法在缺勤预测任务中的性能对比丰富了机器学习在人力资源管理领域的应用案例。
从实践层面来看本课题具有重要的现实意义。员工缺勤不仅直接影响企业的工作进度和运营成本还可能反映员工的工作压力、健康状况、工作满意度等深层次问题。通过本系统企业能够识别出影响缺勤的关键因素如通勤距离、工作负荷、生活习惯等从而有针对性地制定管理策略。例如如果发现通勤距离是主要影响因素企业可以考虑提供交通补贴或调整工作地点如果发现工作负荷过高导致缺勤可以优化工作分配或增加人力投入。此外系统的预测功能能够帮助HR提前识别高风险员工采取预防措施降低缺勤带来的损失。聚类分析功能则能够将员工划分为不同群体实现精细化管理提升人力资源管理的效率和效果。
---
## 论文主要内容
### 1. 数据概览与全局统计分析
本研究的第一个核心内容是对UCI Absenteeism数据集进行全面的探索性数据分析。该数据集记录了巴西某快递公司2007年至2010年间的740条员工缺勤记录包含21个特征字段。首先系统将计算并展示关键统计指标包括样本总数、缺勤总时长、平均缺勤时长、最大/最小缺勤时长、高风险员工占比等帮助管理者快速了解企业整体考勤健康状况。其次从时间维度进行深入分析通过折线图展示全年12个月的缺勤变化趋势识别季节性规律通过柱状图展示周一至周五的缺勤分布发现工作日缺勤的周期性特征通过饼图展示春夏秋冬四个季节的缺勤比例探索环境因素对缺勤的影响。最后对缺勤原因进行分类统计数据集包含28类缺勤原因其中21类为国际疾病分类ICD代码7类为非疾病原因如医疗咨询、献血、无故缺勤等通过可视化展示各类原因的占比帮助企业了解缺勤的主要类型。
### 2. 多维特征挖掘与影响因素分析
这是本研究的核心内容,旨在回答"为什么缺勤"这一关键问题。首先,利用训练好的随机森林模型,计算各维度特征对缺勤的影响权重。随机森林算法能够输出每个特征的重要性得分,通过条形图降序排列,直观展示哪些特征是导致缺勤的主要因素,例如可能发现"通勤距离"、"工作负荷"、"饮酒习惯"等特征具有较高的重要性得分,而"宠物数量"、"身高"等特征影响较小。其次计算特征之间的相关系数矩阵以热力图形式展示特征间的关系特别关注生活习惯特征如Social drinker与缺勤时长之间的相关关系挖掘隐性规律。例如可能发现饮酒员工与缺勤时长之间存在正相关为制定公司制度提供数据支持。最后进行群体对比分析将员工按照不同维度分组对比各组的平均缺勤时长如饮酒者vs不饮酒者、高学历vs低学历、有子女vs无子女等识别不同群体的缺勤特征为精细化管理提供依据。
### 3. 员工缺勤风险预测
本研究的第三个核心内容是构建缺勤预测模型,解决"未来会怎样"的问题。基于XGBoost和随机森林两种回归算法构建预测模型输入员工的17个特征属性包括年龄、通勤距离、交通费、工作负荷、BMI、饮酒习惯、月份等输出预测的缺勤时长。模型训练过程中将数据集划分为训练集和测试集采用交叉验证方法优化模型参数使用均方误差MSE、决定系数等指标评估模型性能。在系统层面设计交互式预测界面左侧为参数输入表单用户可以输入或选择各项属性值点击"开始预测"按钮后右侧实时显示预测结果。预测结果包括预测的缺勤时长如8小时、风险等级<4小时为低风险绿色4-8小时为中风险黄色>8小时为高风险红色以及模型的可信度如准确率85%。此外系统还支持新入职员工评估功能针对没有历史数据的新员工仅凭其入职时的属性信息系统给出潜在缺勤风险的预估辅助HR在招聘环节进行人员筛选。
### 4. 员工画像与群体聚类
本研究的第四个核心内容是利用K-Means聚类算法对员工进行分类展示算法对人群的分类能力。K-Means算法能够将所有员工自动划分为3-4个类别例如可能识别出"模范型"(工龄长、负荷适中、缺勤少)、"压力型"(工龄短、负荷极大、缺勤多)、"生活习惯型"BMI高、爱喝酒等不同群体。对于每个聚类群体系统将绘制雷达图展示其在年龄、工龄、工作负荷、BMI、缺勤倾向等维度上的特征分布让管理者一目了然地看到不同群体的差异。例如压力型群体可能在"工作负荷"轴上特别长,而"缺勤倾向"轴也较高提示HR需要关注该群体的工作压力问题。同时通过散点图展示聚类结果横轴为年龄纵轴为缺勤时长不同颜色的点代表不同的聚类群体直观展示群体的分布特征。基于聚类结果系统将为HR提供针对性的管理建议如对压力型群体建议减少加班、对生活习惯型群体建议关注体检等。
### 5. 系统设计与实现
本研究的最后一个核心内容是将上述算法和分析功能集成到一个完整的系统中。系统采用前后端分离架构后端使用Python Flask框架负责数据处理、模型训练和API接口提供前端使用Vue 3框架配合Element Plus UI组件库和ECharts图表库负责数据展示和用户交互。系统包含四个核心功能模块数据概览模块Dashboard、影响因素分析模块FactorAnalysis、缺勤预测模块Prediction和员工画像模块Clustering。后端采用MVC分层架构core层负责算法实现数据预处理、特征挖掘、模型训练、聚类分析services层负责业务逻辑api层负责接口路由。前端采用组件化设计封装ChartComponent和ResultCard等公共组件提高代码复用性。系统开发完成后将进行功能测试、性能测试和用户体验测试确保系统的稳定性和可用性。最终系统将为企业提供一套完整的人力资源考勤数据智能分析解决方案实现从数据录入、可视化统计、深度归因分析到精准风险预测和人群画像划分的全流程功能。
---
## 主要技术路线或方法
### 技术架构
本研究采用前后端分离的架构设计确保系统的可维护性和可扩展性。后端技术栈选择Python作为主要开发语言使用Flask轻量级Web框架构建RESTful API接口利用scikit-learn和XGBoost库实现机器学习算法使用pandas和numpy进行数据处理和分析。前端技术栈选择Vue 3作为前端框架配合Element Plus UI组件库实现美观的用户界面使用ECharts图表库实现丰富的数据可视化效果。数据存储采用CSV文件格式便于数据导入导出和模型训练。整个架构遵循MVC设计模式后端分为core算法层、services业务逻辑层、api接口层三层前端分为views页面层、components组件层、api调用层三层各层职责清晰便于开发和维护。
### 算法方法
在算法层面本研究采用了多种机器学习技术形成完整的分析流程。首先数据预处理阶段针对数据集中的21个特征字段采用不同的处理方法对于类别型特征如Reason for absence、Education、Social drinker等使用OneHotEncoder进行独热编码将其转换为数值型特征对于数值型特征如Transportation expense、Age、Work load等使用StandardScaler进行标准化处理消除量纲差异提高模型训练效果。其次特征挖掘阶段使用pandas计算特征间的皮尔逊相关系数生成相关性矩阵用于热力图展示使用训练好的随机森林模型提取feature_importances_属性计算各特征的重要性得分用于特征重要性排序。再次预测模型构建阶段采用两种回归算法随机森林和XGBoost这两种算法都具有较好的泛化能力和抗过拟合能力适合处理多维度特征。模型训练时采用交叉验证方法使用网格搜索优化超参数使用均方误差MSE、决定系数等指标评估模型性能。最后聚类分析阶段使用K-Means算法对员工进行无监督聚类通过肘部法则确定最佳聚类数量将员工划分为3-4个群体并计算每个簇的中心点数据用于雷达图展示。
### 开发流程
本研究采用敏捷开发方法按照以下流程进行首先进行需求分析明确系统的功能需求和非功能需求确定系统的核心功能模块和用户交互流程然后进行系统设计包括架构设计、数据库设计、接口设计和UI设计绘制系统架构图、时序图等设计文档接着进行数据预处理对UCI数据集进行清洗、编码、归一化等处理生成可用于模型训练的干净数据随后进行模型训练分别训练随机森林、XGBoost和K-Means模型评估模型性能保存训练好的模型文件然后进行前端开发使用Vue 3开发四个核心页面实现数据可视化、表单交互等功能接着进行接口对接后端提供RESTful API接口前端通过axios调用接口获取数据实现前后端数据交互最后进行测试优化进行功能测试、性能测试和用户体验测试修复bug优化系统性能确保系统稳定可用。整个开发过程中采用迭代开发的方式每个阶段完成后进行评审和调整确保项目按时高质量完成。
---
## 预期结果
### 系统成果
本研究预期完成一个功能完整、界面美观、操作便捷的员工缺勤分析与预测系统。该系统将包含四个核心功能模块数据概览模块Dashboard将展示KPI指标卡、缺勤原因分布饼图、月度趋势折线图、星期几热力图等可视化图表让管理者一目了然地了解企业整体考勤状况影响因素分析模块FactorAnalysis将展示特征重要性排序条形图、相关性热力图、群体对比分析柱状图帮助管理者识别影响缺勤的关键因素缺勤预测模块Prediction将提供交互式表单支持17个特征输入实时返回预测结果和风险等级为HR提供决策支持员工画像模块Clustering将展示K-Means聚类结果通过雷达图和散点图呈现不同员工群体的特征画像为精细化管理提供依据。系统将采用响应式设计支持不同屏幕尺寸的访问具有良好的用户体验。
### 模型性能
在模型性能方面本研究预期达到以下目标预测模型的准确率达到80%以上均方误差MSE控制在合理范围内模型具有良好的泛化能力能够在测试集上保持稳定的预测效果。特征重要性排序结果将具有可解释性能够识别出对缺勤影响最大的几个特征如通勤距离、工作负荷、饮酒习惯等这些发现将与实际业务场景相符具有实践指导意义。相关性分析将揭示特征间的关系特别是生活习惯特征与缺勤时长之间的关联为企业制定管理制度提供数据支持。K-Means聚类结果将具有明显的群体差异每个聚类群体在多个维度上呈现不同的特征分布能够为HR提供针对性的管理建议。所有模型结果都将通过可视化图表直观展示便于理解和应用。
### 论文成果
本研究预期完成一篇8000字以上的本科毕业论文论文将包含以下几个核心部分引言部分阐述研究背景、研究目的和研究意义介绍国内外研究现状系统设计部分详细描述系统的架构设计、功能模块设计、数据库设计和接口设计算法实现部分详细介绍数据预处理、特征挖掘、预测模型和聚类分析的算法原理和实现过程实验分析部分展示系统的功能演示、模型性能评估、特征重要性分析和聚类结果分析结论与展望部分总结研究成果指出研究的创新点和局限性展望未来的研究方向。论文将采用规范的学术写作风格逻辑清晰论证充分图表丰富能够全面展示本研究的成果和价值。论文将通过查重检测确保学术诚信达到本科毕业论文的质量要求。
---
## 进度安排
本研究将严格按照以下时间表进行,确保项目按时高质量完成:
**第一阶段开题准备2025.12.22-2026.01.18**
在此阶段主要任务是确认论文题目深入理解研究需求和目标。首先广泛查阅国内外相关文献了解员工缺勤分析、特征挖掘、机器学习预测等领域的研究现状梳理相关理论和方法。其次仔细研读UCI Absenteeism数据集的文档理解数据集的字段含义、数据分布和特征类型为后续分析奠定基础。然后撰写开题报告明确研究目的、研究意义、研究内容、技术路线和预期成果与指导教师进行沟通根据反馈意见修改完善。最后制定详细的实施计划确定系统的功能模块和技术选型为后续开发做好准备。
**第二阶段系统设计与原型开发2026.01.19-2026.03.01**
在此阶段主要任务是完成系统的详细设计和简单原型的开发。首先进行系统架构设计确定前后端分离的技术架构绘制系统架构图和功能模块图。其次进行数据库设计确定数据存储方案设计数据表结构。然后进行接口设计定义前后端交互的API接口规范。接着搭建开发环境配置Python开发环境、Vue开发环境和相关依赖库。随后开始原型开发首先实现数据预处理功能对UCI数据集进行清洗和编码然后实现简单的特征挖掘功能计算特征重要性接着实现前端的基础框架搭建Vue项目配置路由和UI组件库最后完成简单的预测功能原型验证技术方案的可行性。
**第三阶段系统开发与论文撰写2026.03.02-2026.03.31**
在此阶段主要任务是完成系统的完整开发和论文初稿的撰写。首先完善后端算法模块实现数据预处理、特征挖掘、模型训练和聚类分析的完整功能训练随机森林、XGBoost和K-Means模型保存模型文件。其次完善后端API接口提供数据统计、特征分析、预测推理和聚类结果的RESTful接口。然后开发前端页面完成Dashboard、FactorAnalysis、Prediction和Clustering四个核心页面实现数据可视化、表单交互和结果展示功能。接着进行前后端联调确保数据交互正常功能完整可用。同时开始撰写论文按照论文结构逐步完成各个章节的写作包括引言、系统设计、算法实现、实验分析等部分。
**第四阶段测试优化与答辩准备2026.04.01-2026.05.10**
在此阶段主要任务是完善系统、优化性能、完成论文和准备答辩。首先进行系统测试包括功能测试、性能测试和兼容性测试修复发现的bug优化系统性能确保系统稳定可靠。其次完善论文内容根据系统实现情况调整论文描述补充实验结果和分析确保论文与实际成果一致。然后进行论文格式调整按照学校要求调整论文格式、字体、排版等准备参考文献列表。接着准备答辩材料制作答辩PPT梳理研究思路和成果准备答辩演讲稿。最后进行预答辩演练与同学或指导教师进行模拟答辩根据反馈意见调整PPT和演讲稿确保答辩顺利进行。
---
## 参考文献
[1] Martiniano A, Ferreira R P, Sassi R J, et al. Application of a neuro fuzzy network in prediction of absenteeism at work[C]//Information Systems and Technologies (CISTI), 7th Iberian Conference on. IEEE, 2012: 1-4.
[2] UCI Machine Learning Repository. Absenteeism at work Data Set[DB/OL]. https://archive.ics.uci.edu/ml/datasets/Absenteeism+at+work
[3] Breiman L. Random forests[J]. Machine learning, 2001, 45(1): 5-32.
[4] Chen T, Guestrin C. XGBoost: A scalable tree boosting system[C]//Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. 2016: 785-794.
[5] Lloyd S. Least squares quantization in PCM[J]. IEEE transactions on information theory, 1982, 28(2): 129-137.
[6] Johns G. Presenteeism in the workplace: A review and research agenda[J]. Journal of organizational behavior, 2010, 31(4): 519-542.
[7] Harrison D A, Martocchio J J. Time for absenteeism: A 20-year review of origins, offshoots, and outcomes[J]. Journal of management, 1998, 24(3): 305-350.
[8] Ngai E W T, Chau D C K, Chan T L A. Information technology, operational, and management research on productivity: A study of executive perceptions[J]. International Journal of Production Economics, 2011, 133(2): 777-786.