Нейромережа досягла небувалого рівня в го, знаючи тільки правила гри » «Морс»

Минулого року весь світ спостерігав за історичним матчем - нейромережа AlphaGo від DeepMind обіграла кращого в світі гравця в го, корейця Лі Седоля. Це була подія, яку можна порівняти з поразкою Каспарова програмі Deep Blue. А днями DeepMind представили нову, покращену версію програми - AlphaGo Zero, яка обіграла попередню версію AlphaGo з рахунком 100:0!

Але найцікавіше - це те, як саме створили такого монстра. Попередня версія AlphaGo була створила за допомогою reinforcement learning - програма покращувала свої навички, граючи мільйони партій зі своєю копією. Але при виборі наступного ходу AlphaGo використовувала нейромережу, навчену на сотнях тисяч партій кращих майстрів го. У AlphaGo Zero не було прикладів для навчання - тільки правила гри. Нейромережа, вибираючи наступний хід і оцінюючи ймовірність виграшу після кожного ходу, перенастроювалась після кожної зіграної партії. Після 4,9 мільйона партій програма еволюціонувала до недосяжного рівня, створивши настільки складні стратегії гри, що звичайні гравці не можуть зрозуміти логіку її ходів. Програма буквально грає на надлюдському рівні.

У майбутньому за допомогою такого еволюційного навчання будуть вирішувати більш прикладні завдання - моделювання білків, зменшення енергоспоживання, синтез нових матеріалів. А глава з го закрита - розробники оголосили, що більше не будуть проводити матчі AlphaGo з живими майстрами. Логічно: змагатися з машинним інтелектом - все одно, що намагатися обігнати літак.

Сподобалася стаття? Підтримай «Морс»!
ПриватБанк
UAH: 5168 7520 1787 2691
USD: 4731 1856 0525 1914

На інших сайтах:

Підпишися на розсилку «Морса»

Підпишися на розсилку «Морса»

Дивіться також: