news-classifier/ml-module/qr-1.md

112 lines
6.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

---
# 毕业设计技术方案:基于 BERT 语义特征与传统分类器的混合策略 (Hybrid Strategy)
## 1. 项目核心架构
本毕业设计采用 **“预训练语言模型 (PLM) + 传统机器学习 (ML)”** 的混合策略架构。
* **特征提取层 (Feature Extraction)**: 使用预训练的深度学习模型(如 `BERT-base-chinese``RoBERTa`)提取新闻文本的深层语义向量。
* **决策分类层 (Classification)**: 使用传统的强分类器(如 `SVM` 支持向量机 或 `LR` 逻辑回归)基于语义向量进行最终分类。
---
## 2. 方案优势与选型理由 (Why This?)
针对毕业设计场景,该方案在性能、稳定性和工作量展示上具有显著优势:
### 2.1 显著的性能对比 (The "Wow" Factor)
* **对比显著**通过实验可直观展示从传统方法TF-IDF, ~85% 准确率到混合策略BERT+SVM, ~95%+ 准确率)的巨大提升。
* **解释性**:证明了深度学习在处理多义词、上下文语境方面优于传统统计方法。
### 2.2 极高的工程稳定性 (Safety)
* **避免过拟合**相比于直接微调Fine-tuning整个 BERT 模型(参数量大,小样本下易过拟合),冻结 BERT 参数只训练 SVM 的方式极其稳定,几乎必定收敛。
* **调参简单**无需纠结于深度学习复杂的超参数Learning rate warmup, Weight decay 等),主要关注 SVM 的核函数或惩罚系数即可。
### 2.3 算力友好 (Low Cost)
* **硬件门槛低**:特征提取只需一次性 GPU 计算Google Colab 免费版或普通游戏本显卡约 30 分钟即可完成),后续 SVM 训练仅需 CPU。
---
## 3. 实施路线图 (Implementation Roadmap)
建议将毕业设计分为三个阶段,以确保工作量饱满且逻辑清晰。
### 阶段一:基线模型构建 (Baseline)
> **目的**:作为“对照组”,展示传统方法的局限性,为后续提升做铺垫。
* **预处理**中文分词Jieba、去停用词。
* **特征工程**TF-IDF (词频-逆文档频率)。
* **分类器**:朴素贝叶斯 (Naive Bayes) 或 SVM。
* **预期产出**:记录 Baseline 的 Accuracy、Precision、Recall、F1-score。
### 阶段二:核心模型实现 (The Hybrid Model)
> **目的**:实现核心创新点,展示深度语义理解能力。
* **预训练模型选择**
* `bert-base-chinese` (Google 原版中文)
* `roberta-wwm-ext` (哈工大讯飞,中文效果通常更优,**推荐**)
* **特征提取逻辑**
1. 输入新闻文本(截断长度,如 256 或 512
2. 获取模型输出的最后一层隐藏状态。
3. 提取 **`[CLS]` token** 对应的向量768维作为整句话的语义表示Sentence Embedding
* **分类器训练**:将 768维向量输入 SVM 进行监督学习。
* **预期产出**:各项指标显著优于 Baseline。
### 阶段三:进阶探索 (Optional / Bonus)
> **目的**:增加图表丰富度,体现探索精神。
* **模型对比**:对比 `BERT + SVM` vs `RoBERTa + SVM` 的效果。
* **分类器对比**:对比 `BERT + SVM` vs `BERT + LightGBM` vs `BERT + MLP (简单神经网络)`
---
## 4. 数据集策略 (Data Strategy)
* **数据总量**:建议 **5,000 - 10,000 条**
* *理由*:量级适中,既能体现深度学习优势,又不会导致跑数时间过长。
* **类别数量****5 - 10 类**。
* *推荐类别*:财经、体育、科技、娱乐、教育、时政、房产等。
* **数据划分**
* 训练集 (Training): 70%
* 验证集 (Validation): 10%
* 测试集 (Test): 20%
---
## 5. 核心可视化展示 (Visualization)
毕业设计答辩时,图表比文字更有说服力。务必包含以下两张“杀手锏”图表:
### 5.1 混淆矩阵 (Confusion Matrix)
* **展示内容**:横轴为预测类别,纵轴为真实类别。
* **作用**:清晰展示模型在哪些类别上表现最好,在哪些类别上容易混淆(例如:“科技”新闻是否容易被误判为“财经”)。
### 5.2 t-SNE 特征降维可视化 (The "Killer" Plot)
* **操作**:将 BERT 提取的 768维高维向量通过 t-SNE 算法降维到 2维平面X, Y坐标
* **展示效果**:用不同颜色代表不同类别。
* **潜台词***“各位老师请看,经过 BERT 处理后,不同颜色的点(不同类别的新闻)在空间中自动聚成了一堆一堆,分界清晰。这证明了模型提取的特征非常有效。”*
---
## 6. 论文写作话术参考 (Academic Phrasing)
在撰写论文的“方法论”或“实验分析”章节时,使用以下学术化表达来描述你的策略:
> **关于为什么不直接微调整个 BERT**
> “尽管对预训练语言模型进行全参数微调Fine-tuning在某些任务上表现优异但该方法对计算资源消耗巨大且在特定领域的少样本场景下容易出现过拟合Overfitting现象。此外全量微调的模型部署成本较高难以满足实际应用中的快速迭代需求。”
> **关于本方案的优势(核心卖点):**
> “本研究提出一种**基于预训练语义特征的混合分类策略 (Hybrid Classification Strategy)**。该策略利用 `BERT/RoBERTa` 模型强大的上下文语义表征能力作为**特征提取器 (Feature Extractor)**,获取新闻文本的高维句向量;后端结合**支持向量机 (SVM)** 在高维空间中寻找最优超平面Hyperplane的鲁棒性优势。
>
> 实验结果表明,该混合策略不仅显著优于基于 TF-IDF 的传统统计方法,同时在训练效率和收敛稳定性上优于端到端的深度学习微调方法,实现了**模型精度 (Accuracy)** 与 **计算效率 (Computational Efficiency)** 的有效平衡。”
---
## 7. 常用工具库推荐
* **Python**: 3.8+
* **深度学习框架**: `PyTorch` + `Transformers` (Hugging Face)
* **传统机器学习**: `scikit-learn` (用于 SVM, TF-IDF, t-SNE, 混淆矩阵)
* **分词**: `Jieba`
* **绘图**: `Matplotlib` / `Seaborn`