SY-IDE-TRAINER v0.1

多用户 × 多策略 · 星魂训练师演化模拟(LLM 调用抽象版)
Simulation Parameters
概念映射:
  • 用户 = 训练师(不同编程风格/偏好)
  • 策略 = 不同模型/提示结构/调用方式
  • Reward = 用户是否“买单”(采纳建议/满意)
系统根据全体用户反馈,调整自己的策略分布 π(s),
随时间收敛到「整体满意度更高」的调用方式。
这就是“所有人一起当 LLM 的训练师”的简化演化图。
策略选择分布 π(s) 随时间演化
系统整体平均满意度(平均 Reward)
0