Simulation Parameters
概念映射:
- 用户 = 训练师(不同编程风格/偏好)
- 策略 = 不同模型/提示结构/调用方式
- Reward = 用户是否“买单”(采纳建议/满意)
系统根据全体用户反馈,调整自己的策略分布 π(s),
随时间收敛到「整体满意度更高」的调用方式。
这就是“所有人一起当 LLM 的训练师”的简化演化图。
随时间收敛到「整体满意度更高」的调用方式。
这就是“所有人一起当 LLM 的训练师”的简化演化图。
策略选择分布 π(s) 随时间演化
系统整体平均满意度(平均 Reward)