AI Mengalahkan Pemain Profesional Poker

Program kecerdasan buatan (artificial intelligence -AI) yang dikembangkan oleh Universitas Carnegie Mellon bekerja sama dengan AI Facebook telah mengalahkan para profesional terkemuka dalam six-player no-limit Texas hold’em poker, sebuah variasi yang juga terdapat pada permainan idn poker, yang paling populer di dunia.

AI, yang disebut Pluribus, mengalahkan pemain profesional poker Darren Elias, yang memegang rekor untuk juara most World Poker Tour, dan Chris “Jesus” Ferguson, pemenang enam event World Series of Poker. Setiap pemain pro secara terpisah memainkan 5.000 kartu poker melawan lima salinan Pluribus.

Dalam eksperimen lain yang melibatkan 13 pemain pro, yang semuanya telah memenangkan lebih dari $ 1 juta dari bermain poker, Pluribus memainkan lima pro sekaligus dengan total 10.000 kartu dan sekali lagi muncul sebagai pemenang.

darren elias poker

“Poker Bot Pluribus mencapai kinerja manusia super di poker multi-pemain, yang merupakan tonggak yang diakui dalam kecerdasan buatan dan dalam teori permainan yang telah terbuka selama beberapa dekade,” kata Tuomas Sandholm, Profesor Ilmu Komputer Angel Jordan, yang mengembangkan Pluribus bersama Noam Brown, yang sedang menyelesaikan Ph.D. di Departemen Ilmu Komputer Carnegie Mellon sebagai ilmuwan peneliti di AI Facebook. “Sejauh ini, pencapaian AI super dalam penalaran strategis telah dibatasi pada kompetisi dua pihak. Kemampuan untuk mengalahkan lima pemain lain dalam permainan yang sedemikian rumit membuka peluang baru untuk menggunakan AI untuk memecahkan berbagai macam masalah di dunia nyata.”

“Memainkan six-player game daripada head-to-head membutuhkan perubahan mendasar dalam bagaimana AI mengembangkan strategi bermainnya,” kata Brown, yang bergabung dengan AI Facebook tahun lalu. “Kami gembira dengan kinerjanya dan percaya beberapa strategi bermain Pluribus bahkan mungkin mengubah cara pemain profesional memainkan permainan poker ini.”

Algoritma Pluribus menciptakan beberapa fitur mengejutkan dalam strateginya. Misalnya, sebagian besar pemain manusia menghindari “donk betting” – yaitu, mengakhiri satu putaran dengan sebuah call tetapi kemudian memulai putaran berikutnya dengan sebuah bet. Ini dilihat sebagai langkah lemah yang biasanya tidak masuk akal secara strategis. Tetapi Pluribus menempatkan donk bet jauh lebih sering daripada para profesional yang dikalahkannya.

“Kekuatan utamanya adalah kemampuannya untuk menggunakan strategi campuran,” kata Elias pekan lalu saat dia bersiap untuk acara utama World Series of Poker 2019. “Itu adalah hal yang sama yang coba dilakukan manusia. Ini masalah eksekusi bagi manusia – melakukan ini dengan cara yang sangat acak dan melakukannya secara konsisten. Kebanyakan orang tidak bisa.”

Pluribus mencatatkan kemenangan yang solid dengan statistic yang signifikan, yang sangat mengesankan mengingat penantangnya, kata Elias. “Bot itu tidak hanya bermain melawan beberapa pemain profesional menengah. Ia memainkan beberapa pemain terbaik poker di dunia.”

Michael “Gags” Gagliano, yang telah mendapatkan hampir $ 2 juta hadiah dalam karir, juga berkompetisi melawan Pluribus.

“Sangat menarik bisa bermain melawan bot poker dan melihat beberapa strategi yang dipilihnya,” kata Gagliano. “Ada beberapa permainan yang sama sekali tidak dibuat oleh manusia, terutama yang berkaitan dengan ukuran taruhannya. Bot/AI adalah bagian penting dalam evolusi permainan poker, dan sungguh menakjubkan memiliki pengalaman langsung dalam langkah besar menuju masa depan.”

Sandholm telah memimpin tim peneliti yang mempelajari poker komputer selama lebih dari 16 tahun. Dia dan Brown sebelumnya mengembangkan Libratus, yang dua tahun lalu dengan tegas mengalahkan empat pemain poker pro yang memainkan kombinasi 120.000 kartu dari heads-up no-limit Texas Hold’em, versi dua pemain dari permainan tersebut.

Game seperti catur dan Go telah lama menjadi tonggak penelitian AI. Dalam permainan tersebut, semua pemain mengetahui status papan permainan dan semua bidak. Tetapi permainan poker adalah tantangan yang lebih besar karena ini adalah permainan informasi yang tidak lengkap; pemain tidak bisa memastikan kartu mana yang sedang dimainkan dan lawan bisa dan akan bluff. Itu menjadikannya tantangan AI yang lebih sulit dan lebih relevan dengan banyak masalah dunia nyata yang melibatkan banyak pihak dan informasi yang hilang.

Semua AI yang menampilkan keterampilan manusia super di two-player game melakukannya dengan memperkirakan apa yang disebut ekuilibrium Nash. Dinamakan untuk alumnus Carnegie Mellon dan pemenang Nobel John Forbes Nash Jr., ekuilibrium Nash adalah sepasang strategi (satu per pemain) di mana tidak ada pemain yang bisa mendapatkan keuntungan dari mengubah strategi selama strategi pemain lain tetap sama. Meskipun strategi AI hanya menjamin hasil yang tidak lebih buruk dari seri, AI muncul sebagai pemenang jika lawannya salah perhitungan dan tidak dapat menjaga keseimbangan.

Dalam permainan dengan lebih dari dua pemain, memainkan ekuilibrium Nash bisa menjadi strategi yang kalah. Jadi, Pluribus membagi-bagikan jaminan teoritis untuk sukses dan mengembangkan strategi yang memungkinkannya untuk secara konsisten mengalahkan lawan.

Pluribus pertama-tama menghitung strategi “blueprint” dengan memainkan enam salinan dari dirinya sendiri, yang cukup untuk putaran pertama taruhan. Sejak saat itu, Pluribus melakukan pencarian yang lebih rinci tentang kemungkinan gerakan dalam abstraksi permainan yang lebih detail. Itu melihat ke depan beberapa gerakan saat melakukannya, tetapi tidak perlu melihat ke depan sampai akhir permainan, yang akan menjadi penghalang komputasi. Pencarian pemimpin terbatas adalah pendekatan standar dalam permainan informasi sempurna, tetapi sangat menantang dalam permainan informasi tidak sempurna. Algoritma pencarian pemimpin terbatas baru adalah terobosan utama yang memungkinkan Pluribus mencapai super poker multipemain.

Secara khusus, pencarian adalah pemecahan permainan informasi yang tidak sempurna dari subgame terbatas-lookahead. Di sela-sela subgame itu, AI mempertimbangkan lima kemungkinan strategi lanjutan yang mungkin diadopsi oleh masing-masing lawan dan dirinya sendiri untuk sisa permainan. Jumlah strategi kelanjutan yang mungkin jauh lebih besar, tetapi para peneliti menemukan bahwa algoritma mereka hanya perlu mempertimbangkan lima strategi kelanjutan per pemain di setiap bagian untuk menghitung strategi keseluruhan yang kuat dan seimbang.

Pluribus juga berusaha menjadi tidak dapat diprediksi. Misalnya, taruhan akan masuk akal jika AI memegang kartu terbaik, tetapi jika AI bertaruh hanya ketika ia memiliki kartu terbaik, lawan akan dengan cepat mengetahuinya. Jadi Pluribus menghitung bagaimana ia akan bertindak dengan setiap kemungkinan kartu yang bisa dipegangnya dan kemudian menghitung strategi yang seimbang di semua kemungkinan itu.

Meskipun poker adalah permainan yang sangat rumit, Pluribus memanfaatkan komputasi secara efisien. AI yang telah mencapai tonggak sejarah baru-baru ini dalam game telah menggunakan sejumlah besar server dan/atau kumpulan GPU; Libratus menggunakan sekitar 15 juta jam inti untuk mengembangkan strateginya dan, selama bermain game langsung, menggunakan 1.400 inti CPU. Pluribus menghitung strategi blueprintnya dalam delapan hari hanya menggunakan 12.400 jam inti dan hanya menggunakan 28 inti selama permainan langsung.

Leave a Reply