SY-IDE-TRAINER v0.1

多用户 × 多策略 · 星魂训练师演化模拟（LLM 调用抽象版）

Simulation Parameters

时间步数（对话轮次） 2000

Softmax 温度 0.30

随机种子

概念映射：

用户 = 训练师（不同编程风格/偏好）
策略 = 不同模型/提示结构/调用方式
Reward = 用户是否“买单”（采纳建议/满意）

系统根据全体用户反馈，调整自己的策略分布 π(s)，
随时间收敛到「整体满意度更高」的调用方式。
这就是“所有人一起当 LLM 的训练师”的简化演化图。

策略选择分布 π(s) 随时间演化

系统整体平均满意度（平均 Reward）