冰河。 是一款关于围棋的人工智能程序。 而这款人工智能为了应对围棋的复杂性,结合了监督学习和强化学习的优势。 它通过训练形成一个策略网络,将棋盘上的局势作为输入信息,并对所有可行的落子位置生成一个概率分布。 然后,训练出一个价值网络对自我对弈进行预测,以 -1(对手的绝对胜利)到1(冰河的绝对胜利)的标准,预测所有可行落子位置的结果。