方法论
我们如何发现信号、评分并将其转化为文章。
内容管道
- 1Collect
RSS feeds + HTML scraping from 16 Japanese government and industry sources. robots.txt respected. Rate-limited.
- 2Extract
Body text extracted via trafilatura (HTML) or pypdf (PDFs). Min. 200 chars to proceed.
- 3Classify
Keyword matching against 7 categories and 16 investment themes. LLM assist for low-confidence items.
- 4Score
7-axis scoring (0–5 each, max 35). Only items scoring ≥15 proceed.
- 5Generate
Claude API with journalist-voice prompt. Deterministic humanize pass applied automatically.
- 6Review
Human editor reviews draft. [VERIFY] markers block publish until resolved.
- 7Publish
Manual publish command moves draft to published/. Translations generated for all 4 locales.
信号评分
只有在35分中得分15分或以上的信号才能进入文章生成阶段。
文章生成
合格信号使用针对记者声音设计的自定义 Claude API 提示词起草。确定性后处理程序使用超过80个替换的精选列表替换任何剩余的AI典型短语。
人工审核
每篇草稿都保存在暂存目录中,由人工编辑在发布前审核。没有任何文章自动发布。
翻译
英语文章是权威来源。印地语、法语和简体中文的翻译通过 Claude API 生成,并明确指示保持公司名称、日元数字和专有名词不变。