LLM 基准与模型选择指南
ArchSpine 采用高上下文语义合成路径来保持语义精度。本文档总结观测到的 token 使用量,并给出模型选择建议。
1. 实测 token 基准
以下数据来自 ArchSpine 自身仓库的大致观测:
标准模式(高精度)
| 文件复杂度 | 示例文件 | 输入 Token | 说明 |
|---|---|---|---|
| 小型 | README.md | ~4,000 - 9,000 | 基础内容 |
| 中型 | src/core/sync.ts | ~25,000 - 35,000 | 10+ 内部依赖 |
| 高复杂 | src/ast/extractor.ts | ~55,351 | AST 逻辑复杂 |
| 大型规范 | archspine-protocol-v0.3.md | ~52,021 | 大量 prose 和格式 |
受限运行时兜底路径
| 文件复杂度 | 示例文件 | 目标输入 Token | 说明 |
|---|---|---|---|
| 全部文件 | 任意 | < 8,000 | 适合低 TPM 环境的内部低预算路径 |
2. 模型选择矩阵
| 档位 | Provider | 适合场景 | Context | 最低 TPM |
|---|---|---|---|---|
| 性能优先 | Claude 3.5 Sonnet, GPT-4o | 大仓库、复杂规则 | 128k - 200k | > 300,000 |
| 经济优先 | DeepSeek-V3 / R1 | 综合 ROI 最优 | 128k | > 500,000 |
| 本地 / 离线 | Ollama, LM Studio | 隐私优先 | 128k(受显存限制) | 不适用;先使用 mode=standard,受限运行时会在内部降级 |
| 免费 / 受限 | Groq Free, OpenRouter Free | 小项目、试用 | 128k | 先使用 mode=standard,受限运行时会在内部降级 |
3. 关键概念
TPM 与 Context Window
- 现代模型大多有 128k 上下文,这对 ArchSpine 已经够用
- 真正的瓶颈通常是 TPM
- 如果 TPM 很低,复杂文件会立即撞限流,因此运行时需要在内部降低 prompt 预算
4. 优化建议
- 大多数用户优先考虑 DeepSeek 这类高 TPM、低成本模型
- 免费档或严格限流环境下,默认先执行
spine llm set mode standard - 如果
mode=standard仍然过重,应把更轻量的生成路径视为内部运行时兜底,而不是主要用户开关 - 本地模型请结合 本地 LLM 指南
5. benchmark 的职责
这些 benchmark 的职责,是评估内部策略是否值得被吸收到 mode=standard|heavy 的默认行为中。策略实验服务于 mode defaults,不应该反过来替代 mode-first 的主产品面。
正常使用时,优先使用更高层的模式开关:
bash
spine llm set mode standard
spine llm set mode heavy