Skip to content

LLM 基准与模型选择指南

ArchSpine 采用高上下文语义合成路径来保持语义精度。本文档总结观测到的 token 使用量,并给出模型选择建议。

1. 实测 token 基准

以下数据来自 ArchSpine 自身仓库的大致观测:

标准模式(高精度)

文件复杂度示例文件输入 Token说明
小型README.md~4,000 - 9,000基础内容
中型src/core/sync.ts~25,000 - 35,00010+ 内部依赖
高复杂src/ast/extractor.ts~55,351AST 逻辑复杂
大型规范archspine-protocol-v0.3.md~52,021大量 prose 和格式

受限运行时兜底路径

文件复杂度示例文件目标输入 Token说明
全部文件任意< 8,000适合低 TPM 环境的内部低预算路径

2. 模型选择矩阵

档位Provider适合场景Context最低 TPM
性能优先Claude 3.5 Sonnet, GPT-4o大仓库、复杂规则128k - 200k> 300,000
经济优先DeepSeek-V3 / R1综合 ROI 最优128k> 500,000
本地 / 离线Ollama, LM Studio隐私优先128k(受显存限制)不适用;先使用 mode=standard,受限运行时会在内部降级
免费 / 受限Groq Free, OpenRouter Free小项目、试用128k先使用 mode=standard,受限运行时会在内部降级

3. 关键概念

TPM 与 Context Window

  • 现代模型大多有 128k 上下文,这对 ArchSpine 已经够用
  • 真正的瓶颈通常是 TPM
  • 如果 TPM 很低,复杂文件会立即撞限流,因此运行时需要在内部降低 prompt 预算

4. 优化建议

  1. 大多数用户优先考虑 DeepSeek 这类高 TPM、低成本模型
  2. 免费档或严格限流环境下,默认先执行 spine llm set mode standard
  3. 如果 mode=standard 仍然过重,应把更轻量的生成路径视为内部运行时兜底,而不是主要用户开关
  4. 本地模型请结合 本地 LLM 指南

5. benchmark 的职责

这些 benchmark 的职责,是评估内部策略是否值得被吸收到 mode=standard|heavy 的默认行为中。策略实验服务于 mode defaults,不应该反过来替代 mode-first 的主产品面。

正常使用时,优先使用更高层的模式开关:

bash
spine llm set mode standard
spine llm set mode heavy

English is the primary docs tree; zh-CN mirrors shipped behavior.