Commit Graph

10 Commits

Author SHA1 Message Date
shenjianZ 4cb71256e6 feat: 新增爬虫统计功能、多爬虫支持及腾讯财经API爬虫
主要更新:

1. 新增统计展示功能
   - 添加 CrawlerStats 数据类,记录爬取/插入/重复数量
   - run_crawler() 返回详细统计信息而非简单布尔值
   - 新增 display_stats() 函数,支持单个/汇总两种展示格式
   - 自动按数据源分组展示统计信息

2. CLI支持多爬虫运行
   - 修改 crawler 参数支持多个值(nargs='*')
   - 支持三种运行方式:单个爬虫、多个爬虫、--all全部爬虫
   - 自动识别单个/多个场景并切换展示格式

3. 新增腾讯财经API爬虫
   - 创建 src/crawlers/tencent/finance.py
   - 使用腾讯新闻 API 接口,性能优于Selenium爬虫
   - channel_id: news_news_finance
   - 支持 API 分页和去重

4. 更新配置和文档
   - config.yaml 新增腾讯财经分类配置(category_id: 3)
   - 更新《添加新爬虫指南》v2.0,包含API爬虫示例和统计功能说明

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>
2026-01-17 09:02:41 +08:00
shenjianZ 5eb92268ec feat: 增加新华网政务分类爬虫 不集成到爬虫框架 2026-01-15 22:04:11 +08:00
shenjianZ 08c9950db5 feat: 增加腾讯健康、科技、房产分类爬虫 2026-01-15 17:26:16 +08:00
shenjianZ 144c9e082f feat: 增加腾讯网 军事、汽车分类爬虫 2026-01-15 13:34:44 +08:00
shenjianZ 543ce5ec0a feat: 增加kr36 爬虫滚动屏幕次数 2026-01-14 20:52:17 +08:00
shenjianZ 3ce7683a42 feat: test ssh 2026-01-14 19:23:58 +08:00
shenjianZ 2afdd698b2 feat: add sina auto crawler 2026-01-14 19:17:09 +08:00
shenjianZ 61a5b7d301 feat: 修复 ml-module 中 traditional 的训练模型代码 2026-01-14 17:22:57 +08:00
shenjianZ 6db060381f feat: client icons generate 2026-01-13 15:57:00 +08:00
shenjianZ 3e6c7b3f5d 完成项目初始化,完成新闻爬虫模块开发 2026-01-06 22:32:24 +08:00