AAAI2022大奖出炉中科院德州扑克程序AlphaHold
近日,人工智能国际顶会AAAI2022正在召开,大会论文奖也陆续公布。AI科技评论获知,中国科学院自动化所的兴军亮教授团队获得AAAI2022的卓越论文奖(DistinguishedPaper)!
AAAI的英文全称是AssociationfortheAdvanceofArtificialIntelligence(美国人工智能协会)。该协会是人工智能领域的主要学术组织之一,具有一定的学术权威性。
兴军亮团队此次获奖的工作是他们所开发的轻量型德州扑克AI程序AlphaHoldem。据介绍,该系统的决策速度较DeepStack的速度提升超1000倍,与高水平德州扑克选手对抗的结果表明其已经达到了人类专业玩家水平。
论文名称:《AlphaHoldem:HighPerformanceArtificialIntelligenceforHeadsUpNoLimitPokerviaEndtoEndReinforcementLearning》
作者团队:赵恩民,闫仁业,李金秋,李凯,兴军亮1德州扑克AI的意义
与围棋任务相比,德州扑克是一项更能考验基于信息不完备导致对手不确定的智能博弈技术。
德州扑克是国际上最为流行的扑克游戏,由于最早起源于20世纪初美国德克萨斯州而得名。
德州扑克的规则是使用去掉王牌的一副扑克牌,共52张牌,至少2人参与,至多22人,一般参与人数为两人和十人之间。
游戏开始时,首先为每个玩家发两张私有牌作为各自的底牌,随后将五张公共牌依次按三张、一张、一张朝上发出。在发完两张私有牌、三张共有牌、第四张公共牌、第五张公共牌后玩家都可以多次无限制押注,这四轮押注分别称为翻牌前、翻牌、转牌、河牌。图1展示了一场德州扑克游戏的完整流程示意。
图1:两人无限注德州扑克一次游戏过程示意
经过四轮押注之后,若仍不能分出胜负,游戏进入摊牌阶段,所有玩家亮出各自底牌并与公共牌组合成五张牌,成牌最大者获胜。图2给出了德州扑克不同组合的牌型解释和大小。
图2:德州扑克不同牌型大小说明和比较
德州扑克博弈的问题复杂度很大,两人无限注德州扑克的决策空间复杂度超过10的161次方;其次,德州扑克博弈过程属于典型的回合制动态博弈过程,游戏参与者每一步决策都依赖于上一步的决策结果,同时对后面的决策步骤产生影响;另外,德州扑克博弈属于典型的不完美信息博弈,博弈过程中玩家各自底牌信息不公开使得每个玩家信息都不完备,玩家在每一步决策时都要充分考虑对手的各种可能情况,这就涉及到对手行为与心理建模、欺诈与反欺诈等诸多问题。
研究者认为,由于德州扑克游戏规则又非常简单且边界确定,特别适合作为一个虚拟实验环境对博弈的相关基础理论方法和核心技术算法进行深入探究。
近年来,国际研究者在德州扑克这一大规模不完美信息博弈问题的优化求解中也取得了长足进步。
比如,之前加拿大阿尔伯特大学和美国卡内基梅隆大学的研究者就设计出AI程序DeepStack和Libratus,并先后在两人无限注德州扑克中均战胜了人类专业选手,随后卡内基梅隆大学设计的Pluribus又在六人无限注德州扑克中战胜了人类专业选手。
但目前主流德州扑克AI背后的核心思想是利用反事实遗憾最小化(CounterfactualRegretMinimization,CFR)算法逼近纳什均衡策略。
具体来说,首先利用抽象(Abstraction)技术〔3〕〔7〕压缩德扑的状态和动作空间,从而减小博弈树的规模,然后在缩减过的博弈树上进行CFR算法迭代。
这些方法严重依赖于人类专家知识进行博弈树抽象,并且CFR算法需要对博弈树的状态结点进行不断地采样遍历和迭代优化,即使经过模型缩减后仍需要耗费大量的计算和存储资源。例如,DeepStack使用了153万的CPU时以及1。3万的GPU时训练最终AI,在对局阶段需要一个GPU进行1000次CFR的迭代过程,平均每个动作的计算需耗时3秒。Libratus消耗了大于300万的CPU时生成初始策略,每次决策需要搜索4秒以上。
这样大量的计算和存储资源的消耗严重阻碍了德扑AI的进一步研究和发展;同时,CFR框架很难直接拓展到多人德扑环境中,增加玩家数量将导致博弈树规模呈指数增长。另外,博弈树抽象不仅需要大量的领域知识而且会不可避免地丢失一些对决策起到至关作用的信息。
2AlphaHoldem是何方神圣?
这个问题也吸引了很多中国研究者,中科院自动化所的兴军亮教授团队便是其中之一。去年12月,他领导的博弈学习研究组针对德州扑克任务,提出了一种高水平、轻量化的两人无限注德州扑克AI程序AlphaHoldem。
不同于已有的基于CFR算法的德州扑克AI,中科院博弈学习研究组所提出的架构是基于端到端的深度强化学习算法(如图4所示)。
图4:端到端学习德州扑克AI学习框架
根据团队介绍,AlphaHoldem采用ActorCritic学习框架,其输入是卡牌和动作的编码,然后通过伪孪生网络(结构相同参数不共享)提取特征,并将一种改进的深度强化学习算法与一种新型的自博弈学习算法相结合,在不借助任何领域知识的情况下,直接从牌面信息端到端地学习候选动作进行决策。
他们还指出,AlphaHoldem的成功得益于其采用了一种高效的状态编码来完整地描述当前及历史状态信息、一种基于TrinalClipPPO损失的深度强化学习算法来大幅提高训练过程的稳定性和收敛速度、以及一种新型的BestK自博弈方式来有效地缓解德扑博弈中存在的策略克制问题。
AlphaHoldem使用了1台包含8块GPU卡的服务器,经过三天的自博弈学习后,战胜了Slumbot和DeepStack。每次决策时,AlphaHoldem都仅用了不到3毫秒,比DeepStack速度提升超过了1000倍。同时,AlphaHoldem与四位高水平德州扑克选手对抗1万局的结果表明其已经达到了人类专业玩家水平。3团队部分成员介绍
赵恩民,论文一作。中国科学院自动化研究所模式识别与智能系统专业博士四年级研究生,2018年于清华大学获得工学学士学位。研究方向为计算机扑克和深度强化学习。
兴军亮,中国科学院自动化研究所研究员、博士生导师、特聘青年骨干,中国科学院大学岗位教授,中国科学院人工智能创新研究院创新专家组专家。兴教授2012年毕业于清华大学计算机科学与技术系,获工学博士学位。
此外,他还是美国电器与电子工程学会(IEEE)高级会员、美国《科学》杂志中国官方公众号特邀评论员、中国计算机学会(CCF)高级会员、计算机视觉专委会委员。
他的主要研究领域为计算机视觉和计算机博弈。目前已在包括顶级国际期刊如TPAMI、IJCV、AI以及顶级国际会议上如ICCV、CVPR、AAAI、IJCAI上发表论文100多篇,谷歌学术引用超过10000次,出版计算机视觉译著2部,参与撰写深度学习领域著作1部、人工智能领域著作1部。
曾获清华大学计算机系学术新秀、谷歌学者、多次顶级国际和国内会议最佳论文奖等荣誉和奖励,以及十余次在人脸识别、车辆识别、视频识别等国际和国内挑战赛中获奖。
目前作为项目和课题负责人承担多项国家重点项目,研发的视觉感知相关技术在国家广电总局、华为、微软等得到了多次验证应用和落地推广,取得了良好的经济效益和社会价值。
近年来主要围绕深度强化学习相关的智能感知和决策问题,研发了多款针对不同游戏的博弈决策AI,其中研发的星际争霸AI曾获2017年IEEECIG星际争霸AI第2名,研发的德州扑克AI程序AlphaHoldem胜率超过了目前公开的最好德州扑克AI程序DeepStack,速度提升超过1000倍。开放了学界首个大规模不完美信息博弈平台OpenHoldem。4AAAI2022其他获奖工作
杰出论文奖:
论文名称:OnlineCertificationofPreferenceBasedFairnessforPersonalizedRecommenderSystems
作者团队:VirginieDo,SamCorbettDavies,JamalAtif,NicolasUsunier
杰出学生论文奖:
论文名称:InfoLM:ANewMetrictoEvaluateSummarizationamp;Data2TextGeneration
作者团队:PierreColombo,ChloClavel,PabloPiantanida
卓越论文奖:
除了中科院兴军亮团队的AlphaHoldem,还有5篇工作获得AAAI2022卓越论文奖。分别如下
论文名称:CertifiedSymmetryandDominanceBreakingforCombinatorialOptimisation
作者团队:BartBogaerts,StephanGocht,CiaranMcCreesh,JakobNordstrm
论文名称:OnlineElicitationofNecessarilyOptimalMatchings
作者团队:JannikPeters
论文名称:SamplingBasedRobustControlofAutonomousSystemswithNonGaussianNoise
作者团队:ThomS。Badings,AlessandroAbate,NilsJansen,DavidParker,HasanA。Poonawala,MarielleStoelinga
论文名称:SubsetApproximationofParetoRegionswithBiobjectiveA
作者团队:JorgeA。Baier,CarlosHernndez,NicolsRivera
论文名称:TheSoftCumulativeConstrainwithQuadraticPenalty
作者团队:YanickOuellet,ClaudeGuyQuimper
那些灯,看上去很美!夜幕降临,回首北望,几缕光束在夜空中游弋、挥舞,目光下移,一座仿佛戴着秦时嬴政金黄色的皇冠、穿着汉时的金缕玉衣的高楼矗立在那里,煞是美丽壮观、富丽堂皇,单瞧这里,还以为是某个直……
新年最新扯淡篇孙子兵法之三十七计论一个人的脾气与个性成长史~逼的、逼的、逼的~社会逼的,生活逼的〔机智〕如果你身经百战、千锤百炼,仍旧跟小绵羊一样,那么说明你是~废物、废物、废物〔酷拽〕挺佩服内种……
名侦探柯南为什么新一这么帅追他人不多呢?名侦探柯南可以说是我最爱看的一部动漫了,但是20多年了,居然还没有更完,柯南到现在还在上小学。那么为什么工藤新一这么帅却没有人追他呢,其实我觉得这个原因很多。第1点就是工……
茅台总工程师还未当选院士,仅仅是入围,为何一片反对的声音?茅台总工程师还未当选院士,仅仅是入围,为何一片反对声音?最近有一件事,引发了网友剧烈的争议,想必大家也看到了。中国工程院增选院士入围名单公布,其中茅台公司的总工程师王莉成……
50岁的人想学习,努力的方向有哪些呢?推荐一下这是一个粉丝的问题,非常好。目前社会上,有很多50岁左右的人,深陷困境中不能自拔,其主要原因就是因为个人能力的短板,任凭怎么倒腾,就是无法翻身。所以,学习是改变命运的唯一途径,……
爸车祸后,叔叔伯伯占了我家的房子亲情,看淡才能放下有句网上的话说,一代亲,二代表,三代以后就很少联系了。以前的亲戚都是亲人,现在有的亲戚说白了很多就是有点儿血缘关系的路人。甚至还比不上路人,路人至少不会与你有利益上的纠纷……
特殊的报恩战国时代,鲁国大夫阳虎发动政变失败。鲁国国君命令关闭各处城门捉拿阳虎,并下令各州县,抓到阳虎者有重赏,放跑者判重罪。阳虎被层层包围,四处逃亡却走投无路,想在一座城门处举剑……
散文童年的白衬衣散文:童年的白衬衣文:杨进荣每年到这个日子,心便有几分悸动。少年儿童最喜欢的日子,能抅起我无数的回忆。我的童年比起哥哥姐姐们要幸福很多了:至少戴过红领巾,唱过……
仅158身高却成穿搭模板,看她的穿搭思路,每套都让人茅塞顿开穿搭难题:身高150、155、160女孩怎么穿才显高?谁都知道小个子穿衣难,其实原因我们都知道,因为个子矮小。穿搭长度拿捏不准,衣服穿长了越穿越矮,衣服穿短了冬天又显得太……
几年前的文字生活安稳,偶有插曲,不痛不痒好想,说说这个女孩这样的女孩卑微到尘埃,平凡到不在我从来都不是一个简单个体的存在也承载了许多的快乐和无奈小小的个……
聪明的女人,主动给男人这些东西,男人会倍加珍惜她爱情中,女人不应该向男人一味地索取,如果真心爱他,她就应该知道主动的把这些东西给男人。给男人鼓励,给他自信:女人的攀比和责怪男人,并不能让男人更加的优秀,反而会使男……
相顾无言,你却懂我!回首来路三千,一晃数载流年,我若是日月,你便是人间。世界之大,不是每个人都能遇见,人海茫茫,不是每个人都能懂你,人海相遇实属不易,懂得,是安静的陪伴,是世界上最温情的语言,懂,……
做人,多一点自知之明,少一点自作多情自作多情,就是太缺少自知之明,自以为是,太高估自己,才会自取其辱。付出的热情得不到回应,要懂得适可而止;轻易失去的感情,没必要纠缠不清,做人,要学会适可而止,懂得进退有度……
两口子做到这几点,肯定不会离婚!山无陵,江水为竭,冬雷震震,夏雨雪,天地合,乃敢与君绝。美好的爱情是每个人都追求的,是每个家庭和睦的基础,是两个人长此以往的保障。但是爱情的保鲜剂不是每个人都会拥有。随着彼此的……
城市繁华,郊区一样有自己的魅力每座城市都有自己的地标建筑,比如上海的东方明珠塔,苏州的东方之门,拉萨的布达拉宫,兰州的中山,北京的天安门等等。所有的城市都有和郊区都有错综复杂的牵连,一个离不开一个。……
女人的魅力值,取决于你的知识,你认同吗?每个女人都有自己独特的魅力。每个女人都有自己的优点。想要做到吸引别人。就要不断地丰富自己。女人,最美丽的不是容貌。是心灵。一个真正漂亮的女人懂得适可而止……
程伟健2020最火的商业模式,民宿集群时代到来如果把酒店看做是一个住宿的地方,那么它只能解决住的问题;如果我们把酒店看做是一个场,那么一切才刚刚开始。在文旅产业体验中最有代表性的就是民宿,而在民宿产品中,非标化民宿可……
网友是怎样炼成的1866年9月在日内瓦召开的国际工人代表大会上,根据马克思的倡议,首先提出8小时工作制的口号。十月革命胜利后,苏维埃政权于1917年11月11日颁布了《关于8小时工作制》的法令……
七月,永生难忘,只因有你人生从这里起锚,岁月在这里转舵,日子还是一样的日子,可明天的我,将不再是今夜的我。今夜无眠,不知为了昨日的惆怅,还是为了明天的憧憬。……
参观威远炮台及林则徐销烟旧址参观威远炮台文余小芳2008年七月二十二日,在东莞工作的辉邀我去虎门参观威远炮台。还是童年时在电影《林则徐》中,知道威远有炮台,且林则徐统兵拼死与敌抗争的镜头,携刻……
村长的官大吗?(微故事)村长的官大吗?小学生问他的农民父亲。怎么说呢?如果在咱们村他就很大,在其他地方,就是芝麻官里的芝麻官。父亲认真地说。噢,也就是说官大一方,难怪小胖说他爸是村长,你们……
见世面,什么时候变得如此廉价?前不久,知乎有个热门提问:你见过最没见过世面的女孩,是什么样子的?高赞只有一句话:吃牛排点8分熟。因为在西餐厅,牛排一般只有单数分熟,没有8分熟。但由于……
乔家的儿女豆瓣评分出来了,给高还是给低了,看评论区就懂了最近一部名为《乔家的儿女》热门剧可以说是非常的火,该剧的剧情虽然在观众看来有点老套,是讲述乔家几兄妹的成长故事,但就是这种剧情更加引起观众在看的时候引起一些话题的讨论。自从《乔……
初夏的青春一笺清浅入心来一笺清浅入夏来,初夏的青春,是秋的黄,冬的白,春的绿各种颜色混合而成的油画。初夏的时节,万物都在晨练,用热情来开始新的一天,用清浅烹饪素淡的心情不受冷,不受伤。罗素……