LLM 基准与模型选择指南

ArchSpine 采用高上下文语义合成路径来保持语义精度。本文档总结观测到的 token 使用量，并给出模型选择建议。

1. 实测 token 基准

以下数据来自 ArchSpine 自身仓库的大致观测：

文件复杂度	示例文件	输入 Token	说明
小型	`README.md`	~4,000 - 9,000	基础内容
中型	`src/core/sync.ts`	~25,000 - 35,000	10+ 内部依赖
高复杂	`src/ast/extractor.ts`	~55,351	AST 逻辑复杂
大型规范	`archspine-protocol-v0.3.md`	~52,021	大量 prose 和格式

文件复杂度	示例文件	目标输入 Token	说明
全部文件	任意	< 8,000	适合低 TPM 环境的内部低预算路径

档位	Provider	适合场景	Context	最低 TPM
性能优先	Claude 3.5 Sonnet, GPT-4o	大仓库、复杂规则	128k - 200k	> 300,000
经济优先	DeepSeek-V3 / R1	综合 ROI 最优	128k	> 500,000
本地 / 离线	Ollama, LM Studio	隐私优先	128k（受显存限制）	不适用；先使用 `mode=standard`，受限运行时会在内部降级
免费 / 受限	Groq Free, OpenRouter Free	小项目、试用	128k	先使用 `mode=standard`，受限运行时会在内部降级

这些 benchmark 的职责，是评估内部策略是否值得被吸收到 mode=standard|heavy 的默认行为中。策略实验服务于 mode defaults，不应该反过来替代 mode-first 的主产品面。

正常使用时，优先使用更高层的模式开关：

bash

spine llm set mode standard
spine llm set mode heavy