shenjianZ
|
4b68e6ba3d
|
feat: 优化ui 结构
|
2026-01-19 15:21:29 +08:00 |
shenjianZ
|
d02e8d65e0
|
feat: add souhu house crawler
|
2026-01-18 11:22:50 +08:00 |
shenjianZ
|
05b67d5cbc
|
feat: fix ml-module
|
2026-01-17 09:03:41 +08:00 |
shenjianZ
|
4cb71256e6
|
feat: 新增爬虫统计功能、多爬虫支持及腾讯财经API爬虫
主要更新:
1. 新增统计展示功能
- 添加 CrawlerStats 数据类,记录爬取/插入/重复数量
- run_crawler() 返回详细统计信息而非简单布尔值
- 新增 display_stats() 函数,支持单个/汇总两种展示格式
- 自动按数据源分组展示统计信息
2. CLI支持多爬虫运行
- 修改 crawler 参数支持多个值(nargs='*')
- 支持三种运行方式:单个爬虫、多个爬虫、--all全部爬虫
- 自动识别单个/多个场景并切换展示格式
3. 新增腾讯财经API爬虫
- 创建 src/crawlers/tencent/finance.py
- 使用腾讯新闻 API 接口,性能优于Selenium爬虫
- channel_id: news_news_finance
- 支持 API 分页和去重
4. 更新配置和文档
- config.yaml 新增腾讯财经分类配置(category_id: 3)
- 更新《添加新爬虫指南》v2.0,包含API爬虫示例和统计功能说明
🤖 Generated with [Claude Code](https://claude.com/claude-code)
Co-Authored-By: Claude Sonnet 4.5 <noreply@anthropic.com>
|
2026-01-17 09:02:41 +08:00 |
shenjianZ
|
5eb92268ec
|
feat: 增加新华网政务分类爬虫 不集成到爬虫框架
|
2026-01-15 22:04:11 +08:00 |
shenjianZ
|
4684216c85
|
feat: fix py code for tratitional import path error
|
2026-01-15 17:53:00 +08:00 |
shenjianZ
|
08c9950db5
|
feat: 增加腾讯健康、科技、房产分类爬虫
|
2026-01-15 17:26:16 +08:00 |
shenjianZ
|
144c9e082f
|
feat: 增加腾讯网 军事、汽车分类爬虫
|
2026-01-15 13:34:44 +08:00 |
shenjianZ
|
543ce5ec0a
|
feat: 增加kr36 爬虫滚动屏幕次数
|
2026-01-14 20:52:17 +08:00 |
shenjianZ
|
3ce7683a42
|
feat: test ssh
|
2026-01-14 19:23:58 +08:00 |
shenjianZ
|
2afdd698b2
|
feat: add sina auto crawler
|
2026-01-14 19:17:09 +08:00 |
shenjianZ
|
61a5b7d301
|
feat: 修复 ml-module 中 traditional 的训练模型代码
|
2026-01-14 17:22:57 +08:00 |
shenjianZ
|
83f4fd4d58
|
feat: fix the time display
|
2026-01-13 17:59:24 +08:00 |
shenjianZ
|
b286e36ab0
|
feat: fix the time display
|
2026-01-13 17:38:01 +08:00 |
shenjianZ
|
6db060381f
|
feat: client icons generate
|
2026-01-13 15:57:00 +08:00 |
shenjianZ
|
9346e58e3e
|
feat: 修复前端标题栏无法拖动窗口问题
|
2026-01-12 21:26:17 +08:00 |
shenjianZ
|
d4eaf9909d
|
feat: 修复后端cors;增加前端自定义标题栏
|
2026-01-12 21:15:55 +08:00 |
shenjianZ
|
8a455d95a0
|
feat: 完成前端新闻展示、分类展示、统计界面、管理界面的开发
|
2026-01-12 20:56:10 +08:00 |
shenjianZ
|
1c187a00cf
|
完成backend的用户、分类、新闻相关接口的开发
|
2026-01-12 17:19:24 +08:00 |
shenjianZ
|
73fee7d713
|
优化docs文档
|
2026-01-07 13:36:48 +08:00 |
shenjianZ
|
f05234847b
|
优化了backend 后端的目录结构
|
2026-01-07 13:19:50 +08:00 |
shenjianZ
|
0b42309c15
|
重构了backend 后端的架构(更改了一些技术的选取)
|
2026-01-07 13:15:39 +08:00 |
shenjianZ
|
3e6c7b3f5d
|
完成项目初始化,完成新闻爬虫模块开发
|
2026-01-06 22:32:24 +08:00 |