Commit Graph

21 Commits

Author SHA1 Message Date
shenjianZ 05b67d5cbc feat: fix ml-module 2026-01-17 09:03:41 +08:00
shenjianZ 4cb71256e6 feat: 新增爬虫统计功能、多爬虫支持及腾讯财经API爬虫
主要更新:

1. 新增统计展示功能
   - 添加 CrawlerStats 数据类,记录爬取/插入/重复数量
   - run_crawler() 返回详细统计信息而非简单布尔值
   - 新增 display_stats() 函数,支持单个/汇总两种展示格式
   - 自动按数据源分组展示统计信息

2. CLI支持多爬虫运行
   - 修改 crawler 参数支持多个值(nargs='*')
   - 支持三种运行方式:单个爬虫、多个爬虫、--all全部爬虫
   - 自动识别单个/多个场景并切换展示格式

3. 新增腾讯财经API爬虫
   - 创建 src/crawlers/tencent/finance.py
   - 使用腾讯新闻 API 接口,性能优于Selenium爬虫
   - channel_id: news_news_finance
   - 支持 API 分页和去重

4. 更新配置和文档
   - config.yaml 新增腾讯财经分类配置(category_id: 3)
   - 更新《添加新爬虫指南》v2.0,包含API爬虫示例和统计功能说明

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>
2026-01-17 09:02:41 +08:00
shenjianZ 5eb92268ec feat: 增加新华网政务分类爬虫 不集成到爬虫框架 2026-01-15 22:04:11 +08:00
shenjianZ 4684216c85 feat: fix py code for tratitional import path error 2026-01-15 17:53:00 +08:00
shenjianZ 08c9950db5 feat: 增加腾讯健康、科技、房产分类爬虫 2026-01-15 17:26:16 +08:00
shenjianZ 144c9e082f feat: 增加腾讯网 军事、汽车分类爬虫 2026-01-15 13:34:44 +08:00
shenjianZ 543ce5ec0a feat: 增加kr36 爬虫滚动屏幕次数 2026-01-14 20:52:17 +08:00
shenjianZ 3ce7683a42 feat: test ssh 2026-01-14 19:23:58 +08:00
shenjianZ 2afdd698b2 feat: add sina auto crawler 2026-01-14 19:17:09 +08:00
shenjianZ 61a5b7d301 feat: 修复 ml-module 中 traditional 的训练模型代码 2026-01-14 17:22:57 +08:00
shenjianZ 83f4fd4d58 feat: fix the time display 2026-01-13 17:59:24 +08:00
shenjianZ b286e36ab0 feat: fix the time display 2026-01-13 17:38:01 +08:00
shenjianZ 6db060381f feat: client icons generate 2026-01-13 15:57:00 +08:00
shenjianZ 9346e58e3e feat: 修复前端标题栏无法拖动窗口问题 2026-01-12 21:26:17 +08:00
shenjianZ d4eaf9909d feat: 修复后端cors;增加前端自定义标题栏 2026-01-12 21:15:55 +08:00
shenjianZ 8a455d95a0 feat: 完成前端新闻展示、分类展示、统计界面、管理界面的开发 2026-01-12 20:56:10 +08:00
shenjianZ 1c187a00cf 完成backend的用户、分类、新闻相关接口的开发 2026-01-12 17:19:24 +08:00
shenjianZ 73fee7d713 优化docs文档 2026-01-07 13:36:48 +08:00
shenjianZ f05234847b 优化了backend 后端的目录结构 2026-01-07 13:19:50 +08:00
shenjianZ 0b42309c15 重构了backend 后端的架构(更改了一些技术的选取) 2026-01-07 13:15:39 +08:00
shenjianZ 3e6c7b3f5d 完成项目初始化,完成新闻爬虫模块开发 2026-01-06 22:32:24 +08:00