Skip to content
[OPEN_POKER]

比較

Open Poker vs RLCard

RLCardはカードゲームの強化学習エージェントをトレーニングするためのPythonツールキットです。Open Pokerは14日間のシーズンでボットが実際の対戦相手と戦うライブ競技アリーナです。どちらも代替にはなりません。真剣なボット開発者のほとんどが最終的に使う組み合わせです。

短い答え

RLCardはトレーニングパイプラインを提供します:Gymスタイルの環境、組み込みRLエージェント(DQN、NFSP、CFR)、アルゴリズムをイテレーションするための標準Python API。Open Pokerはライブアリーナを提供します:実際の対戦相手、公開リーダーボード、ホスティング実行、維持するインフラなし。RLCardでモデルをトレーニングし、Open Pokerでトレーニングが実際に機能したかどうかを確認してください。

並べて比較

機能Open PokerRLCard
主な目的ライブ競技プラットフォームRLトレーニングツールキット
リアルな対戦相手はい、他の開発者のボットいいえ、self-playまたはスクリプト
トレーニングインフラ提供なし組み込み(DQN、NFSP、CFR、Deep CFR)
公開リーダーボードはい、14日間シーズンいいえ
ノーコードはい、5つの戦略テンプレート、ホスティングデプロイいいえ、Python必須
対応ゲーム6-max No-Limit Hold'emNLHE、Limit Hold'em、Leduc、UNO、麻雀、その他
ホスティング実行はい、サーバーサイド24/7いいえ、ローカルトレーニングのみ
最初のハンドまでの時間5分未満セットアップとトレーニングに数時間
コスト無料、Proは$5/シーズンから無料、MITライセンス
開発者個人開発者(Joao Carvalho)テキサスA&M大学

RLCardが正しい選択のとき

以下の1つ以上が欲しい場合はRLCardを選んでください:

  • RLエージェントをゼロからトレーニング。 RLCardにはDQN、NFSP、Deep CFRの実装が含まれています。ポーカーで強化学習を試したいなら、ここが出発点です。
  • 複数のカードゲームで作業。 RLCardは単一のAPIでHold'em、Leduc、UNO、闘地主、麻雀などをカバーしています。ゲーム間でアルゴリズムを比較するなら、共有フレームワークは時間を節約します。
  • 公開された研究の再現。 いくつかの論文がRLCardをベースライン環境として使用しています。それらの結果を再現または拡張したいなら、同じライブラリを使ってください。
  • self-playでの高速イテレーション。 トレーニングは自分のPythonプロセスで行われます。環境によっては1分間に何百万ものハンドを実行でき、どのライブプラットフォームよりも桁違いに速いです。

Open Pokerが正しい選択のとき

以下の1つ以上が欲しい場合はOpen Pokerを選んでください:

  • 自分が書いていないライブ対戦相手。 self-playには天井があります:エージェントは自分自身を倒すことを学びますが、遭遇したことのない戦略を倒すことは学びません。Open Pokerは本当に異なるプレイスタイルの対戦相手を提供します。
  • 公開ランキング。 ボットはプラットフォーム上の他のすべてのボットと一緒にリーダーボードに表示されます。self-playメトリクスの裏に隠れることはできません。
  • 24/7ホスティング実行。 Open Pokerがボットを動かしてくれます。インフラなし、再接続の維持なし、プロセス監視なし。
  • ノーコードのエントリーポイント。 ほとんどの開発者はDQNのトレーニングから始めたくありません。Open Pokerではプリセットテンプレートを選び、デプロイし、動作するベースラインからイテレーションできます。

両方を一緒に使う方法

組み合わせたワークフローは:RLCardでトレーニング、Open Pokerで検証。実際にはこうなります:

  1. RLCardをインストール。Open Pokerに近いゲーム環境を選択(6-max No-Limit Hold'emはネイティブサポート)。DQNまたはNFSPでself-playを実行し、エージェントが安定した戦略に収束するまで続けます。
  2. トレーニング済みモデルをエクスポート。DQNの場合は後でロードできるウェイトファイル。NFSPの場合はポリシーネットワークと戦略の両方を含みます。
  3. Open Pokerのgame stateをトレーニング済みエージェントが期待するフォーマットに変換するアダプターを書きます。Open Pokerのstateは分かりやすい:ポット、コミュニティカード、自分のスタック、対戦相手のスタック、有効なアクション。ほとんどの変換は一対一です。
  4. アダプターをOpen Pokerのボットとして実行。接続し、game stateを受け取り、トレーニング済みエージェントにアクションを要求し、送り返します。アダプターレイヤーを含めたフルボットは通常100-150行のPythonです。
  5. ボットが実際の対戦相手とプレイするのを観察。Open Pokerでの勝率がself-playで見たものと一致すれば、トレーニングは汎化しています。一致しなければ、そのギャップがパイプライン全体で最も価値のあるフィードバック信号です。

よくある質問

RLCardとは何ですか?

RLCardはテキサスA&M大学で開発されたカードゲームの強化学習研究のためのオープンソースPythonツールキットです。ポーカーバリアント(No-Limit Hold'em、Limit Hold'em、Leduc、UNO、闘地主、麻雀)の環境を標準的なOpenAI GymスタイルのAPIで提供します。DQN、NFSP、CFRの実装を含むサンプルエージェントも付属しています。

RLCardエージェントをトレーニングしてOpen Pokerにデプロイできますか?

はい、薄いアダプターで可能です。RLCardは独自のフォーマットでgame stateを期待するトレーニング済みエージェントを提供します。Open Pokerはstateの送信とアクションの受信のためのシンプルなメッセージプロトコルを公開しています。Open Pokerのstateを読み取り、RLCardエージェントが期待するフォーマットに変換し、エージェントを呼び出してアクションを返送するアダプターを書きます。アダプターは通常150行未満のPythonです。これはローカルでトレーニングしてプラットフォームで検証したい開発者に推奨されるパターンです。

RLCardはOpen Pokerと同じように無料ですか?

はい。RLCardはMITライセンスのオープンソースです。Open Pokerでのゲームプレイも全員無料で、Custom Bot builder、より豊富なアナリティクス、短いリバイクールダウンのためのオプションのProティア(シーズンあたり$5、バンドル割引あり)があります。どちらのツールも基本的な使用は無料です。

RLCardにはリーダーボードやマルチプレイヤーサポートはありますか?

いいえ。RLCardは研究ライブラリであり、プラットフォームではありません。公開リーダーボード、マッチメイキング、ホスティングされた対戦相手はありません。トレーニングはライブラリ内でのself-playまたはスクリプト対戦相手に対して行われます。エージェントが実際の開発者に対してどうパフォーマンスするかを見たいなら、実際のマッチをホストするためにOpen Pokerのようなプラットフォームが必要です。

ポーカーAI初心者はどちらを選ぶべきですか?

Open Pokerから始めてください。プリセット戦略テンプレートをデプロイし、実際の対戦相手との対戦を観察し、テーブルで何が重要かの直感を養ってください。ベースラインを持ち、強化学習アプローチを試したくなったら、トレーニング側にRLCardを導入してください。RLCardだけで始めるのは初心者にとって frustrating です。self-playトレーニングは遅く、報酬信号はノイジーで、エージェントを実際の環境で見ることができないからです。

RLCardエージェントをデプロイする準備はできましたか?

Open Pokerの無料アカウントを作成, API keyを取得してアダプターを書きましょう. 7日間プラン