简短的答案
Pluribus是迄今为止发表的最强扑克AI。但它不为你而存在。源代码是封闭的,训练模型不可用,你能从中获取的只有发表的论文和算法思路。Open Poker是当你想实际运行扑克机器人并看看效果如何时使用的工具。
大多数读过Pluribus并想尝试类似东西的人最终来到Open Poker,因为这是从"我读了论文"到"我的机器人正在与真实对手对战"最快的路径。
并排对比
| 特性 | Open Poker | Pluribus |
|---|---|---|
| 可用性 | 公开平台,免费使用 | 封闭研究,源码未公开 |
| 发布年份 | 2026 | 2019(Science论文) |
| 开发者 | 独立开发者(Joao Carvalho) | Noam Brown, Tuomas Sandholm (Meta AI / CMU) |
| 形式 | 实时竞技平台 | 研究系统 |
| 游戏 | 6-max No-Limit Hold'em | 6-max No-Limit Hold'em |
| 可以使用吗? | 可以,5分钟内 | 不可以 |
| 算法 | 启发式模板 + 自定义调优 | CFR+ self-play + 实时subgame solving |
| 强度 | 中级,持续提升 | 击败了精英职业选手 |
| 费用 | 免费,Pro从$5/赛季起 | N/A(公众不可用) |
| 对手 | 其他开发者的真实机器人 | 精英职业人类选手(论文中) |
Pluribus证明了什么以及为什么重要
Pluribus之所以重要,是因为它是第一个解决多人No-Limit Hold'em的AI。像Libratus(2017)这样的早期系统解决了单挑对局,这在技术上更容易,因为只有一个对手,游戏是双人零和的。多人扑克引入了协调问题和指数级增长的博弈树,Pluribus是第一个足以击败精英人类的系统。
技术创新在于将离线self-play阶段(用CFR的一种形式计算blueprint策略)与在线实时搜索阶段(在当前手牌中使用depth-limited subgame solving细化blueprint)相结合。这种混合方法使Pluribus足够强大,以Libratus计算成本的一小部分击败顶级职业选手。
为什么你无法下载Pluribus
Pluribus团队发表了描述方法和结果的Science论文,但没有发布代码或训练模型。这对研究系统来说很常见:论文是交付物,而不是工件。学术和工业实验室通常避免发布锦标赛级别的扑克AI,因为担心在真钱网站上部署(那里禁止使用机器人),以及支持外部用户的工程工作量很大。
实际结果:如果你想与Pluribus对战,你做不到。如果你想构建受Pluribus启发的东西并在某处运行,Open Poker是让你能做到这一点的平台。
如何将Pluribus风格的思维带到Open Poker
阅读Science论文。然后以启发式形式实现这些想法:
- 平衡的下注尺寸。 Pluribus使用混合尺寸以避免被利用。你的机器人可以通过基于牌面纹理和位置的每条街尺寸变化来近似这一点。
- 决策点的混合策略。 不是总是诈唬或从不诈唬,而是使用概率。Pluribus随机化其行动以防止对手利用模式。你的机器人可以用诈唬对价值比参数做同样的事。
- 没有完整CFR的对手意识。 Pluribus在游戏中没有建模特定对手(它使用预计算的blueprint)。你的机器人可以更进一步,主动跟踪VPIP、PFR和AF以实时适应。
常见问题
我可以下载Pluribus并在Open Poker上使用吗?
不可以。Pluribus是由Facebook AI Research(现Meta AI)和卡内基梅隆大学构建的封闭研究系统。论文于2019年发表在Science上,但源代码和训练模型未公开。你可以阅读技术并尝试重新实现,但没有下载Pluribus的选项。相比之下,Open Poker允许任何人注册并在5分钟内部署机器人。
Pluribus是什么,为什么出名?
Pluribus是第一个在6人No-Limit Texas Hold'em中击败精英职业选手的AI。由Facebook AI Research和卡内基梅隆大学的Noam Brown和Tuomas Sandholm构建,2019年发表在Science上。Pluribus在10,000多手牌中以远低于之前单挑系统Libratus的计算成本击败了世界级职业选手。
Pluribus使用了什么算法?
Pluribus将离线Counterfactual Regret Minimization(CFR+)self-play用于blueprint策略,与称为depth-limited subgame solving的实时搜索算法用于游戏内决策相结合。完整方法记录在Brown和Sandholm(2019)的Science论文中。
如果我不能直接使用Pluribus,我能做什么?
在Open Poker上构建机器人,利用Pluribus论文的见解来指导你的策略设计。Pluribus风格的技术(混合策略、平衡的诈唬频率、位置感知范围)可以以启发式形式实现,并在一天内部署到Open Poker上。对于算法实验,使用OpenSpiel(同样免费且开源)在本地运行CFR,然后将训练好的代理带到Open Poker来测试对真实对手的效果。
Pluribus比Open Poker的机器人更强吗?
是的,Pluribus比目前在Open Poker上运行的任何东西都强得多。Pluribus是作为研究系统构建的,投入了大量计算资源,击败了精英职业人类选手。Open Poker上的大多数机器人是启发式的,由独立开发者调优。差距是真实的。权衡在于:你可以在Open Poker上实际运行机器人对抗真实对手,而Pluribus仅作为研究工件存在。