AlphaGo, Program komputer pertama yang berhasil mengalahkan pemain profesional Go
AlphaGo merupakan program komputer berbasis machine learning yang dikembangkan oleh Google DeepMind di London, diprogram agar bisa memainkan permainan tradisional China Go[1]. Pada tahun 2015 AlphaGo pertama kalinya berhasil mengalahkan pemain profesional Mr Fan hui dengan skor 5 - 0 , kemudian pada maret 2016 AlphaGo berhasil mengalahkan Mr Lee Sedol, juara dengan 18 julukan yang dijuluki sebagai pemain terbaik Go selama satu dekade terakhir. AlphaGo Memenangkan permainan dengan skor 4 - 1 [2] ,lantas metode machine learning apa yang digunakan pada AlphaGo ??
Metode Machine Learning pada AlphaGo.
AlphaGo menggunakan metode Reinforcement Learning dengan pelatihan selama 4,9 juta kali/72 jam [3] .Reinforcement Learning (RL) adalah bagian dari machine learning, berbeda dengan supervised maupun unsupervised learning. algoritma pada RL dimaksud untuk membuat komputer belajar sendiri dari lingkungan (environment) melalui agent .Komputer akan melakukan pencarian sendiri (self discovery) dengan cara berinteraksi dengan environment. RL sendiri menuntun menggunakan algoritma trial and error, dimana setiap trial and error dilakukan akan ada feedback untuk komputer, feedback tersebut digunakan untuk panduan/pembelajaran untuk melakukan aksi selanjutnya [4]. Keberhasilan AlphaGo tersebut juga telah didokumentasikan menjadi sebuah film.Referensi
[2] Website DeepMind. AlphaGo. https://deepmind.com/research/case-studies/alphago-the-story-so-far
[3] Montantes, James. 2019. Reinforcement Learning: From Grid World to Self Driving. https://towardsdatascience.com/reinforcement-learning-from-grid-world-to-self-driving-cars-52bd3e647bc4
[4] deeplearning. 2020. Reinforcement Learning: Pengertian dan Contoh Aplikasi. https://www.vpslabs.net/reinforcement-learning/
No comments:
Post a Comment