news-classifier/ml-module/qr-1.md



---

# 毕业设计技术方案：基于 BERT 语义特征与传统分类器的混合策略 (Hybrid Strategy)

## 1. 项目核心架构
本毕业设计采用 **“预训练语言模型 (PLM) + 传统机器学习 (ML)”** 的混合策略架构。

*   **特征提取层 (Feature Extraction)**: 使用预训练的深度学习模型（如 `BERT-base-chinese` 或 `RoBERTa`）提取新闻文本的深层语义向量。
*   **决策分类层 (Classification)**: 使用传统的强分类器（如 `SVM` 支持向量机 或 `LR` 逻辑回归）基于语义向量进行最终分类。

---

## 2. 方案优势与选型理由 (Why This?)

针对毕业设计场景，该方案在性能、稳定性和工作量展示上具有显著优势：

### 2.1 显著的性能对比 (The "Wow" Factor)
*   **对比显著**：通过实验可直观展示从传统方法（TF-IDF, ~85% 准确率）到混合策略（BERT+SVM, ~95%+ 准确率）的巨大提升。
*   **解释性**：证明了深度学习在处理多义词、上下文语境方面优于传统统计方法。

### 2.2 极高的工程稳定性 (Safety)
*   **避免过拟合**：相比于直接微调（Fine-tuning）整个 BERT 模型（参数量大，小样本下易过拟合），冻结 BERT 参数只训练 SVM 的方式极其稳定，几乎必定收敛。
*   **调参简单**：无需纠结于深度学习复杂的超参数（Learning rate warmup, Weight decay 等），主要关注 SVM 的核函数或惩罚系数即可。

### 2.3 算力友好 (Low Cost)
*   **硬件门槛低**：特征提取只需一次性 GPU 计算（Google Colab 免费版或普通游戏本显卡约 30 分钟即可完成），后续 SVM 训练仅需 CPU。

---

## 3. 实施路线图 (Implementation Roadmap)

建议将毕业设计分为三个阶段，以确保工作量饱满且逻辑清晰。

### 阶段一：基线模型构建 (Baseline)
> **目的**：作为“对照组”，展示传统方法的局限性，为后续提升做铺垫。

*   **预处理**：中文分词（Jieba）、去停用词。
*   **特征工程**：TF-IDF (词频-逆文档频率)。
*   **分类器**：朴素贝叶斯 (Naive Bayes) 或 SVM。
*   **预期产出**：记录 Baseline 的 Accuracy、Precision、Recall、F1-score。

### 阶段二：核心模型实现 (The Hybrid Model)
> **目的**：实现核心创新点，展示深度语义理解能力。

*   **预训练模型选择**：
    *   `bert-base-chinese` (Google 原版中文)
    *   `roberta-wwm-ext` (哈工大讯飞，中文效果通常更优，**推荐**)
*   **特征提取逻辑**：
    1.  输入新闻文本（截断长度，如 256 或 512）。
    2.  获取模型输出的最后一层隐藏状态。
    3.  提取 **`[CLS]` token** 对应的向量（768维），作为整句话的语义表示（Sentence Embedding）。
*   **分类器训练**：将 768维向量输入 SVM 进行监督学习。
*   **预期产出**：各项指标显著优于 Baseline。

### 阶段三：进阶探索 (Optional / Bonus)
> **目的**：增加图表丰富度，体现探索精神。

*   **模型对比**：对比 `BERT + SVM` vs `RoBERTa + SVM` 的效果。
*   **分类器对比**：对比 `BERT + SVM` vs `BERT + LightGBM` vs `BERT + MLP (简单神经网络)`。

---

## 4. 数据集策略 (Data Strategy)

*   **数据总量**：建议 **5,000 - 10,000 条**。
    *   *理由*：量级适中，既能体现深度学习优势，又不会导致跑数时间过长。
*   **类别数量**：**5 - 10 类**。
    *   *推荐类别*：财经、体育、科技、娱乐、教育、时政、房产等。
*   **数据划分**：
    *   训练集 (Training): 70%
    *   验证集 (Validation): 10%
    *   测试集 (Test): 20%

---

## 5. 核心可视化展示 (Visualization)

毕业设计答辩时，图表比文字更有说服力。务必包含以下两张“杀手锏”图表：

### 5.1 混淆矩阵 (Confusion Matrix)
*   **展示内容**：横轴为预测类别，纵轴为真实类别。
*   **作用**：清晰展示模型在哪些类别上表现最好，在哪些类别上容易混淆（例如：“科技”新闻是否容易被误判为“财经”）。

### 5.2 t-SNE 特征降维可视化 (The "Killer" Plot)
*   **操作**：将 BERT 提取的 768维高维向量，通过 t-SNE 算法降维到 2维平面（X, Y坐标）。
*   **展示效果**：用不同颜色代表不同类别。
*   **潜台词**：*“各位老师请看，经过 BERT 处理后，不同颜色的点（不同类别的新闻）在空间中自动聚成了一堆一堆，分界清晰。这证明了模型提取的特征非常有效。”*

---

## 6. 论文写作话术参考 (Academic Phrasing)

在撰写论文的“方法论”或“实验分析”章节时，使用以下学术化表达来描述你的策略：

> **关于为什么不直接微调整个 BERT：**
> “尽管对预训练语言模型进行全参数微调（Fine-tuning）在某些任务上表现优异，但该方法对计算资源消耗巨大，且在特定领域的少样本场景下容易出现过拟合（Overfitting）现象。此外，全量微调的模型部署成本较高，难以满足实际应用中的快速迭代需求。”

> **关于本方案的优势（核心卖点）：**
> “本研究提出一种**基于预训练语义特征的混合分类策略 (Hybrid Classification Strategy)**。该策略利用 `BERT/RoBERTa` 模型强大的上下文语义表征能力作为**特征提取器 (Feature Extractor)**，获取新闻文本的高维句向量；后端结合**支持向量机 (SVM)** 在高维空间中寻找最优超平面（Hyperplane）的鲁棒性优势。
>
> 实验结果表明，该混合策略不仅显著优于基于 TF-IDF 的传统统计方法，同时在训练效率和收敛稳定性上优于端到端的深度学习微调方法，实现了**模型精度 (Accuracy)** 与 **计算效率 (Computational Efficiency)** 的有效平衡。”

---

## 7. 常用工具库推荐
*   **Python**: 3.8+
*   **深度学习框架**: `PyTorch` + `Transformers` (Hugging Face)
*   **传统机器学习**: `scikit-learn` (用于 SVM, TF-IDF, t-SNE, 混淆矩阵)
*   **分词**: `Jieba`
*   **绘图**: `Matplotlib` / `Seaborn`