FSICFR 或者 CFRM 算法训练后如何应用于实际的游戏中?
目前Lair Dice (1dice vs 1 dice)的游戏, 使用FSICFR训练了一个策略概率分布的Information Set. 发现不知道怎么应用到游戏之中了, 我碰到的问题如下:
-
选择相应的游戏回合的next move中的最大概率, 每次选择最大概率的next move (这些最大概率的next move都是有先觉条件的--predetermined chance outcome) 效果不是太好, 只能避免stupid的走法而已(例如自己有1个2的情况下不会抓对方叫1个2)
-
如何实时更新这个Information Set里面的概率? 如第1点, 目前只是引用next move中的最大概率来使用这个训练好的information Set.
本人是半路出家, 全靠自学, 理论基础较差, 希望各位高手, 有点耐心, 不吝赐教.
先谢谢了.