首页 科技 电脑 手机 安卓 苹果 VR 站长 游戏

您的位置:咪哚网 > 站长资讯 > 访谈 >

AI专家柏林森:德扑人机大战为什么人类还有赢的可能

咪哚网(www.midoo.cc)时间:2018-07-06 13:29 稿源:网络 手机扫描分享

  4 月 10 日上午,“冷扑大师VS中国龙之队”德州扑克人机大战表演赛结束了全部比赛,第九场龙之队依旧未能总分取胜,输了 47343 分。总战绩 36000 手牌,人类一共输了 792327 分,平均每百手损失 22 个大盲注。即使单看九个单场的比赛,人类牌手也未取一胜。

      赛后几位龙之队的选手坦言,后半程他们其实已经发现了冷扑大师的一些规律性失误,所以成绩也有所提升,但可惜发现得有些晚。如果在进行几场较量的话,他们有信心取得单场比赛的胜利。

      柏林森先生,信柏科技创始人/CEO、深海棱镜公司创始人,资深大数据和人工智能从业者,深度围棋、德州扑克爱好者,受邀作为新浪网的科学顾问和棋牌特约评论员出席了此次大赛。

      【柏林森简介】柏林森,中国科学技术大学物理学学士,美国伊利诺伊大学电子及计算机工程硕士、物理学硕士,美国注册金融分析师(A),美国精算协会准精算师(ASA),在海内外知名企业从业二十多年。柏林森先生专长于海量数据处理、数学建模、时间序列预测、人工智能及其系统实现,自美归国后先后创建百分点科技、信柏科技、深海棱镜科技等大数据/人工智能公司,先后被评为中关村高端领军人才(高聚工程)、海淀区创业领军人才、中关村核心区文化创意产业十大最具网络影响力人物、中关村十大海归新星,北京大学零售业研究中心大数据专家讲师、中商联商业养老产业分会大数据分析专家,是国内大数据和人工智能实践领航者。

      现场,针对此次德扑人机大战,柏林森先生在接受记者采访时进行了个人观点的阐述与解析:

     记者问:李开复说德州扑克人机大战人类胜率有10%,而围棋是零,你怎么看?

     柏林森答:我们假设真的有围棋之神和德扑之神。围棋之神能够所谓穷尽变·· 6 化,那么你跟他下棋确实不可能赢。德扑之神判断、计算能力无可匹敌,他能从你的行为中读出你的手牌是对3,而他拿着对A。那么这手牌,德扑之神肯定是“All IN”的。但河牌是有可能发出一张 3 的,最后输的是德扑之神。

      围棋和德扑有本质上的区别,围棋是完全信息博弈,理论上有最优解。德扑是非完全信息,总是有概率的。德扑水平的较量要看长线收益,打得手牌越多,小概率事件所能造成的影响就越少。这次一共只打 36000 手,其实人取胜的概率比想象的大。

      可能要跟柯洁下人机大战的AlphaGo当然还不是围棋之神,但他距离围棋之神的距离肯定比人类棋手近很多,人类棋手跟他下的胜率会很低很低。不过,在数学上0%并不代表着不能发生,只是在有限的时间里你可能观察不到而已。所以一般这种事发生的时候,我们都称之为奇迹。

      记者问:听说冷扑大师没有用最近比较热的深度学习的技术?

      柏林森答:冷扑大师用到的是一种叫做CFR(Counterfactual Regret Minimization)的框架。在双人零和游戏(你赢的是我输的)里,理论上是都存在纳什均衡点的。这次人机大战的德州扑克单挑赛制就是这样,人类和机器的输赢相加和为零,双方的目的都是为了赢其对手手里尽可能多的筹码。

      我们用最简单的剪刀石头布游戏举例。我们可以很容易的想到,如果我很均匀的按三种各1/ 3 的概率出,那么无论对方怎么出,最后的结果肯定是胜平负各占1/3,而我不可能获得更差的结果。

      如果对手只出石头和剪子,在我1/ 3 策略不变的前提下,我的胜率还是1/3。但一旦我读到了对手的策略,做出相应的改变,那么对手的胜率将会大幅下降。所以对手的最优策略也应该各出1/3,这样能够保证自己的胜率不会低于1/3。

      各出1/ 3 就是剪刀石头布这个双人游戏里的纳什均衡点。我们可以把德州扑克理解为一个复杂了无数倍的石头剪刀布,而且是根据不同的牌面情况还是不同方式的剪刀石头布,冷扑大师就是要找出各个状态下不会输的策略。

      具体到某个牌手,机器会通过数据分析牌手的策略,寻找其中的可利用性,加以打击。这也是为什么上一次冷扑大师与外国牌手人机大战,前面差距不大,后面人类越输越多的原因。

      所以目前看来冷扑大师和深度学习暂时没什么太大关系。

      记者问:我如果有足够的高手牌谱,是不是能用深度学习训练出德扑AlphaGo来?

      柏林森答:不能。两者游戏的基本算法逻辑是有很大区别的。举个例子,两个高手打牌的各种操作,反馈到扑克游戏里,最后的结果可能并不一样,因为胜负是有概率的。而两位棋手按照固定的走法在棋盘上落子,最后的结果是肯定的,不是黑胜就是白胜。从这种意义上讲,AlphaGo使用的那种棋谱学习的模式,是无法复制到德州扑克里的。

.........

       记者问:听说人工智能会诈唬,它们学会骗人了?!

      柏林森答:所谓诈唬就是在德州扑克比赛里,假装自己有大牌,把对方吓跑。我们忘掉诈唬这个词的表面意思,它其实就是德州扑克里的一个技术手段。除了诈唬,还有假装诈唬,假装假装诈唬,甚至一直无限的假装下去。

编辑:未知

声明:
1、咪哚网所转载的稿件都会明确标注作者和来源,如您不希望被转载请及时与我们联系删除。
2、咪哚网的原创文章,请转载时务必注明文章作者和"来源:咪哚网",不尊重原创的行为咪哚网或将追究责任。
标签
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:看不清?点击更换
最新评论

科技 娱乐 健康 国内 生命 天文 自然 科学

微软善于听取来自用户、IT人员和开发者的各种想法

据外媒报道,微软CEO萨蒂亚·纳德拉日前在

乐视危局 张艺谋王宝强等上亿投资或遭变故

在深陷欠款危机,贾跃亭自曝乐视资金链紧张

霜降天气渐冷 推荐4款最佳食疗

我国古代将霜降分为三候:“一候豺乃祭兽;

外媒:大陆博物馆文物众多 但最好的宝贝在台湾

新西兰stuff网站11月20日文章,原题:对首

为您推荐RECOMMEND

     关于本站| 友情链接| 版权声明| 意见反馈| 不良信息举报| 联系我们| 网站导航

Copyright © 2016 咪哚网 版权所有.

MIDOO.CC, All Rights Reserved. 备案号:豫ICP备15012166号-2