Méthodologie
Comment nous trouvons les signaux, les évaluons et les transformons en articles.
Le pipeline de contenu
- 1Collect
RSS feeds + HTML scraping from 16 Japanese government and industry sources. robots.txt respected. Rate-limited.
- 2Extract
Body text extracted via trafilatura (HTML) or pypdf (PDFs). Min. 200 chars to proceed.
- 3Classify
Keyword matching against 7 categories and 16 investment themes. LLM assist for low-confidence items.
- 4Score
7-axis scoring (0–5 each, max 35). Only items scoring ≥15 proceed.
- 5Generate
Claude API with journalist-voice prompt. Deterministic humanize pass applied automatically.
- 6Review
Human editor reviews draft. [VERIFY] markers block publish until resolved.
- 7Publish
Manual publish command moves draft to published/. Translations generated for all 4 locales.
Évaluation des signaux
Seuls les signaux obtenant 15 ou plus sur 35 passent à l'étape de génération d'articles.
Génération d'articles
Les signaux qualifiés sont rédigés à l'aide d'une invite API Claude personnalisée conçue autour de la voix journalistique. Une passe de post-traitement déterministe remplace ensuite toutes les phrases typiques de l'IA restantes en utilisant une liste organisée de plus de 80 substitutions.
Révision humaine
Chaque brouillon est enregistré dans un répertoire de mise en scène et examiné par un éditeur humain avant publication. Rien n'est publié automatiquement.
Traductions
Les articles en anglais sont la source faisant autorité. Les traductions en hindi, français et chinois simplifié sont générées via l'API Claude avec des instructions explicites pour préserver les noms d'entreprises, les chiffres en yen et les noms propres inchangés.