Lokasi ngalangkungan proxy:   [ UP ]  
[Ngawartoskeun bug]   [Panyetelan cookie]                
Skip to content

chenweishipro/tesla-news

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

44 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Tesla News Aggregator

  1. 每日自动抓取全网特斯拉新闻,按主题/类型/地区多维分类展示的纯新闻聚合站。
  2. 特斯拉车友论坛
  3. 不同车型对比

架构

tesla-news/
├── backend/             # Python 后端
│   ├── api.py           # FastAPI 路由
│   ├── classifier.py    # 多维分类器(关键词规则)
│   ├── config.py        # 配置
│   ├── crawler/         # 爬虫
│   │   ├── base.py      # 爬虫基类
│   │   ├── sources.py   # 6 个媒体源
│   │   └── web_search.py# web_search 兜底
│   ├── main.py          # FastAPI 入口
│   ├── models.py        # 数据模型
│   ├── runner.py        # 抓取任务编排
│   ├── scheduler.py     # 每天 8 点定时抓取
│   └── storage.py       # SQLite 存储
├── frontend/            # 静态前端
│   ├── index.html
│   └── assets/
│       ├── app.js
│       └── style.css
├── data/                # 数据(SQLite + JSON 快照)
├── logs/                # 日志
├── requirements.txt
└── start.bat / start.sh # 启动脚本

快速开始

# 1) 安装依赖
pip install -r requirements.txt

# 2) 初始化 + 立即跑一次抓取
python -m backend.main   # 直接跑(开发模式)

打开 http://127.0.0.1:8765 看前端。

多维分类

  • 主题 Model Y/3/S/X · Cybertruck · FSD · 充电网络 · 能源 · 财报 · 股价 · 超级工厂 · Optimus · Robotaxi
  • 类型 官方公告 · 产品评测 · 市场动态 · 技术解读 · 车主故事 · 行业评论
  • 地区 CN · US · EU · GLOBAL

数据源

key 类型
36氪 36kr 搜索 API
IT之家 ithome 搜索页
虎嗅 huxiu 搜索页
爱范儿 ifanr 站内搜索
网易科技 netease 站内搜索
新浪财经 sina 站内搜索
web_search web_search 兜底(Mavis MCP)

如果某个源抓不到 / 反爬了,自动 fallback 到 mavis mcp call matrix web_search

API

路径 说明
GET /api/articles 文章列表(支持 topic/info_type/source/region/q/days/limit/offset 筛选)
GET /api/articles/{id} 单条详情
GET /api/facets?days=7 分类目录 + 各维度计数
GET /api/runs 抓取历史
GET /api/snapshot 完整快照(JSON)
POST /api/crawl 手动触发一次抓取

调度

默认每天 08:00(Asia/Shanghai)自动跑一次抓取。可通过环境变量调整:

DAILY_RUN_HOUR=9 DAILY_RUN_MINUTE=30 python -m backend.main

关闭调度器(仅做 API 服务):

DISABLE_SCHEDULER=1 python -m backend.main

注意事项

  • 爬虫依赖目标站点的 HTML 结构,改版后可能需要微调 crawler/sources.py
  • 部分站点有反爬,已加入随机延迟 + UA,如被屏蔽可考虑加代理
  • 关键词分类非 AI,改用规则匹配,数据量小时准确度有限

部署到阿里云

完整指南见 DEPLOY.md。一句话:轻量应用服务器 + systemd + nginx 反代,半小时搞定。

AI 分类器配置

backend/ai_classifier.py 通过三种方式读 LLM 配置(优先级从高到低):

  1. 环境变量 LLM_BASE_URL / LLM_API_KEY / LLM_MODEL
  2. 项目根目录 .env 文件
  3. ~/.mavis/config.yamlprovider.minimax.options

endpoint 用 MiniMax 订阅版(anthropic 兼容):

LLM_BASE_URL=https://api.minimaxi.com/anthropic/v1
LLM_MODEL=MiniMax-Text-01

如果 LLM 配失败,会自动降级到关键词分类器,不会卡住抓取。

About

Tesla news aggregator - daily auto-crawl + multi-dim classification + RSS. Deployed at https://teslafans.fun

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors