antagonistická hra. Řešení maticových antagonistických her Principy řešení maticových antagonistických her

Teorie her je teorií matematických modelů rozhodování za podmínek konfliktu nebo nejistoty. Předpokládá se, že jednání stran ve hře se vyznačují určitými strategiemi – soubory pravidel jednání. Pokud zisk jedné strany nevyhnutelně vede ke ztrátě druhé strany, mluví se o antagonistických hrách. Pokud je množina strategií omezená, pak se hra nazývá maticová hra a řešení lze získat velmi jednoduše. Řešení získaná pomocí teorie her jsou užitečná při sestavování plánů tváří v tvář možnému odporu konkurentů nebo nejistotě ve vnějším prostředí.


Pokud je bimatická hra antagonistická, pak je výplatní matice hráče 2 zcela určena výplatní maticí hráče 1 (odpovídající prvky těchto dvou matic se liší pouze znaménkem). Proto je bimaticová antagonistická hra kompletně popsána jedinou maticí (matice výplaty hráče 1) a podle toho se nazývá maticová hra.

Tato hra je antagonistická. V něm j \u003d x2 - O, P a R (O, O] \u003d H (P, P) \u003d -I a R (O, P) \u003d R (P, O) \u003d 1, popř. v matriční podobě o p

Nechť je nějaká třída her Г "zrcadlově uzavřená", tzn. spolu s každou svou hrou obsahuje zrcadlově izomorfní hru (protože všechny hry, které jsou zrcadlově izomorfní k dané, jsou navzájem izomorfní, můžeme v souladu s právě řečeným hovořit o jedné zrcadlově izomorfní hře). Takovou třídou je například třída všech antagonistických her nebo třída všech maticových her.

Když si připomeneme definici přijatelných situací v antagonistické hře, zjistíme, že situace (X, Y) ve smíšeném rozšíření maticové hry je pro hráče 1 přijatelná tehdy a jen tehdy, když pro libovolné x G x nerovnost

Proces přeměny her na symetrické se nazývá symetrizace. Popíšeme zde jednu metodu symetrizace. Další, zásadně odlišná verze symetrizace bude uvedena v části 26.7. Obě tyto varianty symetrizace jsou ve skutečnosti použitelné pro libovolné antagonistické hry, ale budou formulovány a prokázány pouze pro maticové hry.

Počáteční termíny a označení teorie obecných antagonistických her se tedy shodují s odpovídajícími termíny a označeními teorie maticových her.

U konečných antagonistických (maticových) her jsme existenci těchto extrémů dokázali v kapitole 10. 1, a šlo o to, nastolit jejich rovnost, nebo alespoň najít způsoby, jak jejich nerovnost překonat.

Již zohlednění maticových her ukazuje, že v původně daných strategiích hráčů existují antagonistické hry bez rovnovážných situací (a dokonce i bez e-rovnovážných situací pro dostatečně malé e > 0).

Ale každá konečná (maticová) hra může být rozšířena na nekonečnou hru, například tím, že každému hráči poskytneme libovolný počet dominantních strategií (viz 22 kap. 1). Je zřejmé, že takové rozšíření hráčovy sady strategií nebude ve skutečnosti znamenat rozšíření jeho možností a jeho skutečné chování v rozšířené hře by se nemělo lišit od chování v původní hře. Okamžitě jsme tak získali dostatečné množství příkladů nekonečných antagonistických her, které nemají sedlové body. Existují i ​​příklady tohoto druhu.

Pro implementaci principu maximinu v nekonečné antagonistické hře je tedy nutné, stejně jako v případě konečné (maticové) hry, určité rozšíření strategických možností hráčů. Za 96

Stejně jako v případě maticových her (viz kap. 1, 17) i u obecných antagonistických her hraje důležitou roli koncept smíšeného strategického spektra, které je zde však nutné obecněji definovat.

Nakonec si všimněte, že množina všech smíšených strategií hráče 1 v libovolné antagonistické hře je jako v matici

Dokonce i úvaha o antagonistických hrách ukazuje, že velké množství takových her, včetně konečných, maticových her má rovnovážné situace nikoli v původních, čistých strategiích, ale pouze ve zobecněných, smíšených strategiích. Proto je pro obecné, neantagonistické, nekooperativní hry přirozené hledat rovnovážné situace právě ve smíšených strategiích.

Takže například (viz obr. 3.1) jsme již zaznamenali, že „kontraktor“ se téměř nikdy nemusí potýkat s nejistotou chování. Pokud si ale vezmeme koncepční rovinu typu „Správce“, tak je vše přesně naopak. Hlavním typem nejistoty, kterému musí takový „náš rozhodovatel“ čelit, je zpravidla „konflikt“. Nyní si můžeme ujasnit, že se obvykle jedná o nepřísnou rivalitu. Poněkud méně často se „Správce“ rozhoduje v podmínkách „přirozené nejistoty“ a ještě vzácněji se setkává s přísným, antagonistickým konfliktem. Ke střetu zájmů při rozhodování ze strany „Administrátora“ navíc dochází takříkajíc „jednou“, tedy v naší klasifikaci často hraje pouze jednu (někdy velmi malý počet) partií dané hry. Škály pro hodnocení důsledků jsou častěji kvalitativní než kvantitativní. Strategická nezávislost „Administrátora“ je spíše omezená. Vezmeme-li v úvahu výše uvedené, lze tvrdit, že problémové situace tohoto rozsahu musí být nejčastěji analyzovány pomocí nekooperativních neantagonistických bi-matrixových her, navíc v čistých strategiích.

Principy řešení maticových antagonistických her

Ve výsledku se dá rozumně očekávat, že ve výše popsané hře budou protivníci dodržovat jimi zvolené strategie. Matrix antagonistická hra, pro kterou max min fiv = min max Aiy>

Ne všechny matrixové antagonistické hry jsou však zcela jednoznačné, a to obecně

V obecném případě je tedy k vyřešení maticové antagonistické hry dimenze /uxl nutné vyřešit dvojici problémů s duálním lineárním programováním , což vede k souboru optimálních strategií , / a nákladů na hru v.

Jak je definována matrixová antagonistická hra dvou osob?

Jaké jsou metody pro zjednodušení a řešení maticových antagonistických her

V případě hry dvou osob je přirozené považovat jejich zájmy za přímo opačné - hra je antagonistická. Výplata jednoho hráče se tedy rovná ztrátě druhého (součet výher obou hráčů je nula, odtud název, hra s nulovým součtem). Budeme uvažovat hry, ve kterých má každý hráč konečný počet alternativ. Výplatní funkce pro takovou hru pro dvě osoby s nulovým součtem může být zadána v maticové formě (ve formě matice výhry).

Jak již bylo uvedeno, finální antagonistická hra se nazývá matrix.

MATRIX GAMES – třída antagonistických her, kterých se účastní dva hráči a každý hráč má omezený počet strategií. Pokud má jeden hráč m strategií a druhý hráč má n strategií, pak můžeme sestavit herní matici dimenze txn. M.i. může nebo nemusí mít sedlový hrot. V tom druhém případě

Moskevský energetický institut

(Technická univerzita)

Laboratorní zpráva

v teorii her

„Vyhledávací program pro optimální strategie pro spárovanou antagonistickou hru v maticové formě“

Vyplněno studenty

skupina A5-01

Ashrapov Daler

Ashrapová Olga

Základní pojmy teorie her

Teorie her navržená k vyřešení konfliktní situace , tj. situace, ve kterých se střetávají zájmy dvou nebo více stran sledujících různé cíle.

Pokud jsou cíle stran přímo opačné, pak o nich mluví antagonistický konflikt .

hra nazývaný zjednodušený formalizovaný model konfliktní situace.

Hraní hry jednou od začátku do konce se nazývá oslava . Výsledek večírku je Způsob platby (nebo vyhrát ).

Strana se skládá z se pohybuje , tj. výběr hráčů ze sady možných alternativ.

Pohyby mohou být osobní a náhodný.osobní tah , Na rozdíl od náhodný , znamená vědomý výběr nějaké možnosti hráčem.

Nazývají se hry, ve kterých je alespoň jeden osobní tah strategický .

Hry, ve kterých jsou všechny tahy náhodné, se nazývají hazardní hry .

Při osobním tahu také mluví o strategie hráč, tzn. o pravidle nebo souboru pravidel, které určují volbu hráče. Strategie by přitom měla být komplexní, tzn. volba musí být určena pro každou možnou situaci v průběhu hry.

Výzva z teorie her– nalezení optimálních strategií hráčů, tzn. strategie, které jim zajistí maximální zisk nebo minimální ztrátu.

Klasifikace herně-teoretických modelů

hra n osoby jsou obvykle označovány jako, kde
je soubor strategií i-tého hráče,
- platba za hru.

V souladu s tímto označením lze navrhnout následující klasifikaci herně-teoretických modelů:

Diskrétní (soubory strategií oddělený)

Finále

Nekonečný

Kontinuální (soubory strategií kontinuální)

Nekonečný

n osoby (
)

Koalice (družstvo)

nespolupracující (nespolupracující)

2 osoby (pár)

Antagonistické (hry s nulovým součtem)

(zájmy stran jsou opačné, tj. ztráta jednoho hráče se rovná zisku druhého)

Neantagonistický

S úplnými informacemi (pokud hráč provádějící osobní tah zná celou historii hry, tedy všechny tahy soupeře)

S neúplnými informacemi

S nulovou částkou (celková platba je nula)

S nenulovým součtem

Jednosměrné (loterie)

vícecestný

Maticová reprezentace párové antagonistické hry

V tomto tutoriálu budeme uvažovat antagonistické hry dvou osob uvedeny v matricové formě. To znamená, že známe sadu strategií prvního hráče (hráče A){ A i }, i = 1,…, m a soubor strategií druhého hráče (hráč B){ B j }, j = 1,..., n a matrice A = || A ij || výplaty prvního hráče. Protože mluvíme o antagonistické hře, předpokládá se, že zisk prvního hráče se rovná ztrátě druhého. Považujeme to za prvek matice A ij je odměnou prvního hráče, když si zvolí strategii A i a odpověď druhého hráče se strategií B j. Budeme odkazovat na takovou hru jako
, kde m - počet hráčských strategií ALE,n - počet hráčských strategií V. Obecně to může být reprezentováno následující tabulkou:

B 1

B j

B n

A 1

A i

A m

Příklad 1

Jako jednoduchý příklad uvažujme hru, ve které se hra skládá ze dvou tahů.

1. tah: Hráč ALE vybere jedno z čísel (1 nebo 2), aniž by o své volbě řekl soupeři.

2. tah: Hráč V vybere jedno z čísel (3 nebo 4).

Výsledek: Výběr hráče ALE a V přidat. Pokud je součet sudý, pak V zaplatí svou hodnotu hráči ALE, pokud je liché - naopak, ALE platí hráč V.

Tato hra může být reprezentována jako
následujícím způsobem:

(možnost 3)

(volba 4)

(možnost 1)

(volba 2)

Je snadné to vidět tato hra je antagonistická, navíc jde o hru s neúplnými informacemi, od hráč V, při osobním tahu není známo, jakou volbu hráč učinil ALE.

Jak bylo uvedeno výše, úkolem teorie her je najít optimální strategie hráčů, tzn. strategie, které jim zajistí maximální zisk nebo minimální ztrátu. Tento proces se nazývá herní rozhodnutí .

Při řešení hry v maticové formě je třeba zkontrolovat přítomnost hry sedlový bod . K tomu jsou zavedeny dvě hodnoty:

je spodní hranice ceny hry a

je horní odhad ceny hry.

První hráč si s největší pravděpodobností zvolí strategii, ve které získá ze všech možných odpovědí druhého hráče maximální zisk a druhý naopak zvolí tu, která minimalizuje jeho vlastní ztrátu, tzn. možná výhra prvního.

Dá se to dokázat α ≤ PROTI ≤ β , kde PROTIcena hry , tedy pravděpodobná výplata prvního hráče.

Pokud vztah α = β = PROTI, pak to říkají hra má sedlovou pointu
, a řešeny čistými strategiemi . Jinými slovy, existuje několik strategií
, dává hráči ALEPROTI.

Příklad 2

Vraťme se ke hře, kterou jsme uvažovali v příkladu 1, a zkontrolujme ji na přítomnost sedlového bodu.

(možnost 3)

(volba 4)

(možnost 1)

(volba 2)

Pro tuto hru
= -5,
= 4,
nemá tedy sedlový hrot.

Znovu připomínáme, že tato hra je neúplná informační hra. V tomto případě můžete hráči pouze poradit ALE zvolit strategii , protože v tomto případě může získat největší výplatu, ovšem za předpokladu, že si hráč vybere V strategie .

Příklad 3

Udělejme nějaké změny v pravidlech hry z příkladu 1. Dejme přehrávači V informace o výběru hráče ALE. Pak V Existují dvě další strategie:

- strategie, která je prospěšná pro ALE. Pokud volba A – 1, pak V vybere 3, pokud si vybere A – 2, pak V vybere 4;

- strategie, která není prospěšná pro ALE. Pokud volba A – 1, pak V vybere 4, pokud si vybere A – 2, pak V vybírá 3.

(možnost 3)

(volba 4)

(možnost 1)

(volba 2)

Tato hra je plná informací.

V tomto případě
= -5,
= -5,
, proto má hra sedlovou pointu
. Tento sedlový bod odpovídá dvěma párům optimálních strategií:
a
. Cena hry PROTI= -5. Je zřejmé, že pro ALE tato hra je zbytečná.

Příklady 2 a 3 jsou dobrou ilustrací následující věty, osvědčené v teorii her:

Věta 1

Každá spárovaná antagonistická hra s dokonalými informacemi je řešena čistými strategiemi.

Že. Věta 1 říká, že každá hra pro dva s dokonalými informacemi má sedlovou pointu a existuje pár čistých strategií
, dává hráči ALE udržitelný zisk rovnající se ceně hry PROTI.

V případě absence sedlového hrotu, tzv smíšené strategie :, kde p i aq j jsou pravděpodobnosti výběru strategií A i a B j prvního a druhého hráče. Řešením hry je v tomto případě dvojice smíšených strategií
maximalizace matematického očekávání ceny hry.

Zobecněním věty 1 na případ hry s neúplnými informacemi je následující věta:

Věta 2

Každá párová antagonistická hra má alespoň jedno optimální řešení, tj. v obecném případě dvojici smíšených strategií
, dává hráči ALE udržitelný zisk rovnající se ceně hry PROTI, navíc α ≤ PROTI ≤ β .

Ve speciálním případě, pro hru se sedlovým bodem, vypadá řešení ve smíšených strategiích jako dvojice vektorů, ve kterých je jeden prvek roven jedné a zbytek je roven nule.

Nejjednodušším případem, podrobně rozpracovaným v teorii her, je hra konečných párů s nulovým součtem (antagonická hra dvou osob nebo dvou koalic). Zvažte tuto hru G, ve kterém dva hráči ALE a V, mít protichůdné zájmy: zisk jednoho se rovná ztrátě druhého. Od výplaty hráče ALE se rovná odměně hráče V s opačné znaménko, nás může zajímat pouze výplata A hráč ALE. Přirozeně, ALE chce maximalizovat a V - minimalizovat A. Pro zjednodušení se mentálně ztotožníme s jedním z hráčů (nechme to být ALE) a budeme mu říkat „my“ a hráč V -„oponent“ (samozřejmě, žádné skutečné výhody pro ALE z toho nevyplývá). Nechte nás t možné strategie ALE 1 , A 2 , ..., ALE m a nepřítel n možné strategie V 1 , V 2 , ..; V n(takové hře se říká hra t × n). Označit A ij naši odměnu, pokud použijeme strategii A i , a nepřítel je strategie B j .

Tabulka 26.1

A i

B j

B 1

B 2

B n

A 1

A 2

A m

A 11

A 21

A m1

A 21

A m

A 1 n

A 2 n

A mn

Předpokládejme, že pro každou dvojici strategií A<, V, výhra (nebo průměrná výhra) A, j víme. Pak je v zásadě možné sestavit obdélníkovou tabulku (matici), kde jsou uvedeny strategie hráčů a odpovídající výplaty (viz tabulka 26.1).

Pokud je taková tabulka sestavena, pak říkáme, že hra G zredukováno do maticové podoby (samotné dovést hru do takové podoby již může být obtížný a někdy téměř nemožný úkol, vzhledem k obrovskému množství strategií). Všimněte si, že pokud je hra zredukována na maticovou formu, pak se vícetahová hra ve skutečnosti zredukuje na hru s jedním tahem – hráč musí provést pouze jeden tah: zvolit strategii. Stručně označíme herní matici ( A ij).

Zvažte příklad hry G(4×5) v maticové podobě. Máme k dispozici (na výběr) čtyři strategie, nepřítel má pět strategií. Matice hry je uvedena v tabulce 26.2

Zamysleme se nad tím, jakou strategii máme (hráč ALE) využít výhodu? Matrix 26.2 má lákavou odměnu "10"; jsme přitahováni k volbě strategie ALE 3 , při kterém tuto „lahůdku“ získáme. Ale počkat, ani nepřítel není hloupý! Pokud zvolíme strategii ALE 3 , on, navzdory nám, zvolí strategii V 3 , a dostaneme nějakou mizernou odměnu "1". Ne, zvolte strategii ALE 3 je to zakázáno! Jak být? Je zřejmé, že na základě zásady opatrnosti (a to je hlavní zásada teorie her) musíme volit

Tabulka 26.2

B j

A i

B 1

B 2

B 3

B 4

B 5

A 1

A 2

A 3

A 4

strategii, která náš minimální zisk je maximální. Toto je takzvaný „princip minimaxu“: jednejte tak, abyste při nejhorším chování nepřítele pro vás získali maximální zisk.

Přepíšeme tabulku 26.2 a do pravého doplňkového sloupce zapíšeme minimální hodnotu výplaty v každém řádku, (řádkové minimum); označme to za i-tý řádek α i(viz tabulka 26.3).

Tabulka 26.3

B j

A i

B 1

B 2

B 3

B 4

B 5

A 1

A 2

A 3

A 4

β j

Ze všech hodnot α i(pravý sloupec) je zvýrazněn největší (3). Odpovídá strategii Ačtyři . Zvolíme-li tuto strategii, můžeme si být v každém případě jisti, že (za jakékoli chování nepřítele) nezískáme méně než 3. Tato hodnota je naším zaručeným ziskem; pozor, nemůžeme dostat méně než toto (mohu dostat více). Tato výplata se nazývá nižší cena hry (nebo „maximin“ – maximum minimálních výplat). Označíme to A. V našem případě α = 3.

Podívejme se nyní z pohledu nepřítele a argumentujme za něj. Není to nějaký pěšák, ale také rozumný! Při volbě strategie by chtěl dát méně, ale musí počítat s naším chováním, které je pro něj nejhorší. Pokud zvolí strategii V 1 , my mu odpovíme ALE 3 , a dá 10; pokud si vybere B 2 - my mu odpovíme ALE 2 , a dá 8 atd. Do tabulky 26.3 přidáme další spodní řádek a zapíšeme do něj maxima sloupců β j. Je zřejmé, že opatrný protivník by měl zvolit strategii, která tuto hodnotu minimalizuje (odpovídající hodnota 5 je zvýrazněna v tabulce 26.3). Tato hodnota β je hodnota zisku, nad kterou nám rozumný soupeř jistě nedá. Říká se tomu horní cena hry (neboli „minimax“ – minimum z maximálních výher). V našem příkladu je β = 5 a je dosaženo pomocí soupeřovy strategie B 3 .

Takže na základě zásady opatrnosti (pravidlo zajištění „vždy počítejte s nejhorším!“) musíme zvolit strategii ALE 4 , a nepřítel - strategie V 3 . Takové strategie se nazývají „minimax“ (vychází z principu minimax). Dokud se obě strany v našem příkladu budou držet svých minimax strategií, bude to přínosné A 43 = 3.

Nyní si na chvíli představte, že jsme se dozvěděli, že nepřítel sleduje strategii V 3 . Pojď, potrestáme ho za to a zvolíme strategii ALE 1 - dostaneme 5, což není tak špatné. Ale koneckonců, nepřítel také není slečna; dejte mu vědět, že naše strategie ALE 1 ; také si rychle vybírá V 4 , snížení naší výplaty na 2 atd. (partneři „spěchali na strategie“). Jedním slovem, minimax strategie v našem příkladu nestabilní ve vztahu k na informace o chování druhé strany; tyto strategie nemají vlastnost rovnováhy.

Je to takhle vždycky? Ne vždy. Zvažte příklad s maticí uvedenou v tabulce 26.4.

V tomto příkladu se nižší cena hry rovná horní: α = β = 6. Co z toho vyplývá? Minimax Player strategie ALE a V bude udržitelný. Dokud se jich oba hráči budou držet, výplata je 6. Uvidíme, co se stane, když budeme (ALE) vědět, že nepřítel (V)

Tabulka 26.4

Bj

A i

B 1

B 2

B 3

B 4

A 1

A 2

A 3

β j

se drží strategie B 2 ? A nezmění se přesně nic. Protože jakákoli odchylka od strategie ALE 2 může naši situaci jen zhoršit. Stejně tak informace obdržené nepřítelem nezpůsobí jeho ústup od své strategie. V 2 . Dvojice strategií ALE 2 , B 2 má vlastnost rovnováhy (vyvážená dvojice strategií) a výplata (v našem případě 6) dosažená touto dvojicí strategií se nazývá „sedlový bod matice“ 1). Známkou přítomnosti sedlového bodu a vyvážené dvojice strategií je rovnost spodní a horní ceny hry; společná hodnota α a β se nazývá cena hry. Označíme jej proti:

α = β = proti

Strategie A i , B j(v tomto případě ALE 2 , V 2 ), u kterých je tohoto přínosu dosaženo, se nazývají optimální čisté strategie a jejich souhrn se nazývá řešení hry. Samotná hra se v tomto případě prý řeší v čistých strategiích. Obě strany ALE a V lze naznačit jejich optimální strategie, za kterých je jejich pozice nejlepší možná. Co je to hráč ALE v tomto případě 6 výher a hráč V - prohraje 6,- no, Toto jsou podmínky hry: jsou prospěšné pro ALE a nevýhodné pro V

1) Termín "seddlový bod" je převzat z geometrie - jde o název bodu na ploše, kde je současně dosaženo minima podél jedné souřadnice a maximum podél druhé.

Čtenář může mít otázku: proč se optimální strategie nazývají „čisté“? Když se podíváme trochu dopředu, odpovězme na tuto otázku: existují „smíšené“ strategie, které spočívají v tom, že hráč nepoužívá jednu strategii, ale několik a náhodně je střídá. Pokud tedy povolíme kromě čistých i smíšené strategie, jakékoliv konec hry má řešení – rovnovážný bod. Ale stále mluvíme o atomu.

Přítomnost sedlového bodu ve hře není zdaleka pravidlem, je spíše výjimkou. Většina her nemá sedlový bod. Existuje však řada her, které mají vždy sedlovou pointu, a proto jsou řešeny čistě strategiemi. Jedná se o takzvané „hry s úplnými informacemi“. Hra s policí informací je hra, ve které každý hráč zná celou historii jejího vývoje, tedy výsledky všech předchozích tahů, osobních i náhodných, při každém osobním tahu. Příklady her s úplnými informacemi jsou dáma, šachy, piškvorky atd.

V teorii her je to dokázáno každá hra s úplnými informacemi má sedlový bod, a lze je tedy řešit čistými strategiemi. V každé hře s dokonalými informacemi existuje dvojice optimálních strategií, které poskytují stabilní výplatu rovnající se řetězci hry. proti. Pokud se taková hra skládá pouze z osobních tahů, pak když každý hráč použije svou optimální strategii, musí to skončit zcela definitivně – s výplatou rovnající se ceně hry. Pokud je tedy známé řešení hry, hra samotná ztrácí smysl!

Vezměme si základní příklad hry s úplnými informacemi: dva hráči střídavě pokládají nikláky na kulatý stůl, přičemž libovolně volí polohu středu mince (vzájemné překrývání mincí není povoleno). Vyhrává ten, kdo vloží poslední groš (když už není místo pro ostatní). Je snadné vidět, že výsledek této hry je v podstatě předem rozhodnutý. Existuje určitá strategie, která zajišťuje, že hráč, který vloží minci jako první, vyhraje. Totiž musí nejprve položit nikl do středu stolu a poté na každý soupeřův tah reagovat symetrickým tahem. Je zřejmé, že bez ohledu na to, jak se soupeř chová, prohře se nevyhne. Situace je úplně stejná jako u šachů a her s úplnými informacemi obecně: kterákoli z nich, napsaná v maticové formě, má sedlový bod, a proto je řešení v čistých strategiích, a proto dává smysl pouze tehdy, pokud řešení nenalezeno. Řekněme, že šachová hra je buď vždy končí výhrou bílého, popř vždy -černý vítězí, popř vždy - remízou, jen čím přesně - zatím nevíme (naštěstí pro milovníky šachů). Dodejme ještě jednu věc: v dohledné době se to jen stěží dozvíme, protože počet strategií je tak obrovský, že je nesmírně obtížné (ne-li nemožné) hru zredukovat do matrixové podoby a najít v ní sedlový bod.

Nyní si položme otázku, co dělat, když hra nemá sedlový bod: α ≠ β ? No, pokud je každý hráč nucen zvolit si jednu – jedinou čistou strategii, pak se nedá nic dělat: člověk se musí řídit principem minimaxu. Jiná věc je, jestli je možné „namíchat“ sadu strategií, náhodně střídat s nějakou pravděpodobností. Použití smíšených strategií je koncipováno takto: hra se mnohokrát opakuje; před každou partií hry, kdy hráč dostane osobní tah, „svěří“ svou volbu náhodě, „hází losy“ a vezme strategii, která vypadla (jak si los uspořádat již víme z předchozí kapitoly ).

Smíšené strategie v teorii her jsou modelem proměnlivé, flexibilní taktiky, kdy nikdo z hráčů neví, jak se v dané hře zachová protivník. Tato taktika (byť obvykle bez jakéhokoli matematického zdůvodnění) se často používá v karetních hrách. Zároveň podotýkáme, že nejlepší způsob, jak skrýt své chování před nepřítelem, je dát mu náhodný charakter, a tedy nevědět předem, co uděláte.

Pojďme se tedy bavit o smíšených strategiích. Označíme smíšené strategie hráčů ALE a V respektive S A = ( p 1 , R 2 , ..., p m), S B = (q 1 , q 2 , …, q n), kde p 1 , p 2 , …, p m(tvoří celkem jeden) - pravděpodobnosti, které hráč používá ALE strategie ALE 1 , A 2 ,… , A m ; q 1 , q 2 , …, q n- pravděpodobnosti použití hráčem V strategie V 1 , V 2 , ..., V n . V konkrétním případě, kdy jsou všechny pravděpodobnosti, kromě jedné, rovny nule a tato je rovna jedné, se smíšená strategie změní na čistou.

Existuje základní teorém teorie her: každá hra s konečným nulovým součtem pro dvě osoby má alespoň jedno řešení - pár optimálních strategií, obecně smíšených
a odpovídající cena proti.

Dvojice optimálních strategií
tvořící řešení hry má následující vlastnost: pokud jeden z hráčů dodržuje svou optimální strategii, pak nemůže být pro druhého výhodné odchýlit se od své vlastní. Tato dvojice strategií tvoří ve hře jakousi rovnováhu: jeden hráč chce otočit zisk na maximum, druhý na minimum, každý táhne svým směrem a při rozumném chování obou rovnováha a stabilní jsou stanoveny zisky. proti. Pokud v > 0, pak je pro nás hra zisková, pokud proti< 0 - pro nepřítele; v proti= 0 hra je „férová“, stejně výhodná pro oba účastníky.

Zvažte příklad hry bez sedlového bodu a uveďte (bez důkazu) její řešení. Hra je následující: dva hráči ALE a V současně a beze slova ukažte jeden, dva nebo tři prsty. O výhře rozhoduje celkový počet prstů: pokud je sudý, vyhrává ALE a přijímá od Včástku rovnající se tomuto číslu; pokud je to liché, tak naopak ALE platí Včástku rovnající se tomuto číslu. Co by měli hráči dělat?

Vytvořme herní matici. V jedné hře má každý hráč tři strategie: ukázat jeden, dva nebo tři prsty. Matice 3×3 je uvedena v tabulce 26.5; extra pravý sloupec zobrazuje minima řádku a další spodní řádek zobrazuje maxima sloupců.

Nižší cena hry α = - 3 a odpovídá strategii A 1 . To znamená, že při rozumném, obezřetném chování garantujeme, že neprohrajeme více než 3. Malá útěcha, ale pořád lepší než řekněme výhra 5, která se vyskytuje v některých buňkách matrixu. Špatné pro nás, hráče ALE... Ale utěšme se:

pozice soupeře se zdá být ještě horší: nižší cena hry je β = 4, tedy při rozumném chování nám dá minimálně 4. Obecně pozice není příliš dobrá – ani pro jedničku, ani pro druhá strana. Ale uvidíme, jestli se to dá zlepšit? Ukazuje se, že můžete. Pokud každá strana nepoužívá jednu čistou strategii, ale smíšenou, ve které

Tabulka 26.5

Bj

A i

B 1

B 2

B 3

A 1

A 2

A 3

β j

první a třetí vstupují s pravděpodobností 1/4 a druhý - s pravděpodobností 1/2, tj.

pak bude průměrná výplata stabilně rovna nule (což znamená, že hra je „férová“ a stejně výhodná pro obě strany). Strategie
tvoří řešení hry a její cena proti= 0. Jak jsme našli toto řešení? To je jiná otázka. V další části si ukážeme, jak se obecně řeší konečné hry.

Zvažte hru s konečným nulovým součtem. Označit podle A odměna hráče A a prostřednictvím b- výhra hráče B. Protože A = –b, pak při analýze takové hry není třeba uvažovat obě tato čísla - stačí uvažovat o výplatě jednoho z hráčů. Ať je to např. A. V následujícím, pro usnadnění prezentace, strana A podmínečně pojmenujeme" my"a stranu B – "nepřítel".

Nechte nás m možné strategie A 1 , A 2 , …, A m a nepřítel n možné strategie B 1 , B 2 , …, B n(takové hře se říká hra m×n). Předpokládejme, že každá strana zvolila určitou strategii: my jsme zvolili Ai, protivník Bj. Pokud se hra skládá pouze z osobních tahů, pak z výběru strategií Ai a Bj jednoznačně určuje výsledek hry – naši výplatu (kladnou nebo zápornou). Označme tento zisk jako aij(vítězství, když zvolíme strategii Ai, a nepřítel - strategie Bj).

Pokud hra obsahuje kromě osobních náhodných tahů i výplatu za dvojici strategií Ai, Bj je náhodná proměnná, která závisí na výsledcích všech náhodných tahů. V tomto případě je přirozený odhad očekávané výplaty matematické očekávání náhodné výhry. Pro usnadnění budeme označovat podle aij jak samotná výplata (ve hře bez náhodných tahů), tak její matematické očekávání (ve hře s náhodnými tahy).

Předpokládejme, že známe hodnoty aij pro každou dvojici strategií. Tyto hodnoty lze zapsat jako matici, jejíž řádky odpovídají našim strategiím ( Ai) a sloupce zobrazují soupeřovy strategie ( Bj):

B j A i B 1 B 2 B n
A 1 A 11 A 12 A 1n
A 2 A 21 A 22 A 2n
A m a m 1 a m 2 amn

Taková matice se nazývá výplatní matice hry nebo jednoduše herní matrice.

Všimněte si, že konstrukce výplatní matice pro hry s velkým počtem strategií může být obtížným úkolem. Například pro šachová hra počet možných strategií je tak velký, že konstrukce výplatní matice je prakticky nemožná. V zásadě však může být každá konečná hra zredukována na maticovou formu.

Zvážit příklad 1 Antagonistická hra 4×5. My máme k dispozici čtyři strategie, nepřítel má pět strategií. Herní matice je následující:

B j A i B 1 B 2 B 3 B 4 B 5
A 1
A 2
A 3
A 4

Jakou strategii bychom měli (tj. hráč A) použít? Ať už zvolíme jakoukoli strategii, rozumný protivník na ni odpoví strategií, pro kterou bude naše výplata minimální. Například pokud zvolíme strategii A 3 (pokušení výhrou 10), soupeř zvolí strategii jako odpověď B 1 a naše výplata bude pouze 1. Je zřejmé, že na základě zásady opatrnosti (a to je hlavní zásada teorie her) musíme zvolit strategii, ve které náš minimální zisk je maximální.

Označit podle a i minimální výnosovou hodnotu strategie Ai:

a přidejte do herní matice sloupec obsahující tyto hodnoty:

B j A i B 1 B 2 B 3 B 4 B 5 minimum v řadách a i
A 1
A 2
A 3
A 4 maximin

Při výběru strategie musíme zvolit tu, pro kterou je hodnota a i maximum. Označme tuto maximální hodnotu pomocí α :

Hodnota α volala nižší cena hry nebo maximin(maximální minimální výhra). Strategie hráče A odpovídající maximinu α , je nazýván strategii maximin.

V tomto příkladu maximin α se rovná 3 (odpovídající buňka v tabulce je zvýrazněna šedě) a strategie maximin je Ačtyři . Zvolíme-li tuto strategii, můžeme si být jisti, že za jakékoli chování nepřítele vyhrajeme ne méně než 3 (a možná i více s „nerozumným“ chováním nepřítele) Tato hodnota je naším garantovaným minimem, které můžeme zajistit sami, dodržujeme-li nejopatrnější strategii („zajištění“).

Nyní provedeme podobné úvahy pro nepřítele B B A B 2 - my mu odpovíme A .

Označit podle βj A B) pro strategii Ai:



βj β :

7. CO JE HRA HORNÍ HODNOTY Nyní provedeme podobnou úvahu pro soupeře B. Má zájem minimalizovat náš zisk, tedy dávat nám méně, ale musí počítat s naším chováním, které je pro něj nejhorší. Například pokud zvolí strategii B 1 , pak mu odpovíme strategií A 3 , a dá nám 10. Pokud se rozhodne B 2 - my mu odpovíme A 2 a dá 8 atd. Je zřejmé, že opatrný soupeř musí zvolit strategii, ve které náš maximální zisk bude minimální.

Označit podle βj maximální hodnoty ve sloupcích výplatní matice (maximální výplata hráče A, nebo, což je totéž, maximální ztráta hráče B) pro strategii Ai:

a přidejte do herní matice řádek obsahující tyto hodnoty:

Při výběru strategie bude nepřítel preferovat tu, pro kterou má hodnotu βj minimální. Označme to podle β :

Hodnota β volala nejvyšší cena hry nebo minimax(minimální maximální výhra). Strategie soupeře (hráče) odpovídající minimaxu B), je nazýván strategie minimax.

Minimax je hodnota zisku, nad kterou nám rozumný soupeř určitě nedá (jinými slovy, rozumný soupeř ztratí maximálně β ). V tomto příkladu minimax β je rovna 5 (odpovídající buňka v tabulce je zvýrazněna šedě) a je dosaženo soupeřovou strategií B 3 .

Takže na základě zásady opatrnosti („vždy počítejte s nejhorším!“) musíme zvolit strategii A 4 a nepřítel - strategie B 3. Princip opatrnosti je základní v teorii her a je tzv princip minimax.

Zvážit příklad 2. Nechte hráče A a V jedno ze tří čísel se zapisuje současně a nezávisle na sobě: buď „1“, nebo „2“ nebo „3“. Pokud je součet zapsaných čísel sudý, pak hráč B platí hráč A toto množství. Pokud je částka lichá, hráč tuto částku zaplatí A hráč V.

Zapišme si výplatní matici hry a najdeme spodní a horní cenu hry (číslo strategie odpovídá zapsanému číslu):

Hráč A musí dodržovat strategii maximin A 1 vyhrát alespoň -3 (to znamená prohrát maximálně 3). Strategie pro hráče Minimax B některou ze strategií B 1 a B 2 , což zaručuje, že nedá více než 4.

Stejný výsledek dostaneme, pokud výplatní matici napíšeme z pohledu hráče V. Ve skutečnosti je tato matice získána transpozicí matice vytvořené z pohledu hráče A a změna znamének prvků na opak (od výplaty hráče A je ztráta hráče V):

Na základě této matice vyplývá, že hráč B musí dodržovat některou ze strategií B 1 a B 2 (a pak neztratí více než 4) a hráče A– strategie A 1 (a pak neztratí více než 3). Jak vidíte, výsledek je úplně stejný jako ten, který jsme získali výše, takže na analýze nezáleží z pohledu toho, který hráč ji provede.

8 CO JE TO CENNÁ HRA.

9. Z ČEHO SE SKLADUJE PRINCIP MINIMAX. 2. Dolní a horní cena hry. Princip Minimax

Zvažte maticovou hru typu s výplatní maticí

Pokud hráč ALE zvolí strategii A i, pak všechny jeho možné přínosy budou prvky i-tý řádek matice Z. Nejhorší pro hráče ALE případ, kdy hráč V použije vhodnou strategii minimální prvek této řady, odměna hráče ALE se bude rovnat číslu.

Proto, aby hráč získal maximální výplatu ALE musíte si vybrat jednu ze strategií, pro které číslo maximum.

Rozhodovací problém, posuzovaný v rámci systémového přístupu, obsahuje tři hlavní složky: rozlišuje se v něm systém, subsystém řízení a prostředí. Nyní přejdeme ke studiu rozhodovacích problémů, ve kterých je systém ovlivněn ne jedním, ale několika řídicími subsystémy, z nichž každý má své vlastní cíle a možnosti jednání. Tento přístup k rozhodování se nazývá herní teoretický a matematické modely odpovídajících interakcí se nazývají hry. Vzhledem k rozdílnosti cílů řídicích subsystémů, jakož i určitým omezením možnosti výměny informací mezi nimi, jsou tyto interakce konfliktního charakteru. Každá hra je proto matematickým modelem konfliktu. Omezujeme se na případ, kdy existují dva řídicí subsystémy. Pokud jsou cíle systémů opačné, konflikt se nazývá antagonistický a matematický model takového konfliktu se nazývá antagonistická hra..

V herně teoretické terminologii se nazývá 1. řídicí subsystém hráč 1, 2. řídící subsystém - hráč 2, sady

jejich alternativní akce se nazývají sady strategií tito hráči. Nechat X- sada strategií hráče 1, Y- mnoho strategií

hráč 2. Stav systému je jednoznačně určen volbou kontrolních akcí subsystémy 1 a 2, tedy volbou strategií

XX a yY. Nechat F(X,y) - odhad užitečnosti pro hráče 1 tohoto státu

systém, do kterého přechází, když hráč 1 zvolí strategii X a

strategie hráče 2 v. Číslo F(X,y) je nazýván vítězný hráč 1 v situaci ( X,y) a funkci F- výplatní funkce hráče 1. Vítězství hráče

1 je také ztráta hráče 2, tedy hodnota, kterou se první hráč snaží zvýšit, a druhá - snížit. Tak to je

projev antagonistické povahy konfliktu: zájmy hráčů jsou zcela opačné (co jeden vyhraje, druhý prohraje).

Antagonistická hra je přirozeně nastavena systémem G=(X, Y, F).

Všimněte si, že formálně je antagonistická hra ve skutečnosti nastavena stejným způsobem jako problém rozhodování za podmínek nejistoty – pokud

identifikovat řídicí subsystém 2 s prostředím. Podstatný rozdíl mezi řídicím subsystémem a prostředím je v tom

chování prvního je účelové. Máme-li při sestavování matematického modelu reálného konfliktu důvod (či záměr) považovat okolí za protivníka, jehož účelem je přinášet

nám co nejvíce škodí, pak lze takovou situaci reprezentovat jako antagonistickou hru. Jinými slovy, antagonistickou hru lze interpretovat jako extrémní případ ZPR za podmínek nejistoty,


vyznačující se tím, že na okolí je nahlíženo jako na protivníka s cílem. Zároveň musíme omezit typy hypotéz o chování okolí.


Nejopodstatněnější je zde hypotéza krajní opatrnosti, kdy při rozhodování spoléháme na nejhorší možný scénář, abychom v okolí jednali.

Definice. Pokud X a Y jsou konečné, pak se antagonistická hra nazývá matrix. V maticové hře to můžeme předpokládat X={1,…,n},

Y={1,…,m) a dát aij=F(i,j). Maticová hra je tedy zcela určena matricí A=(aij), i=1,…,n, j=1,…,m.

Příklad 3.1. Hra se dvěma prsty.

Dva lidé současně ukazují jeden nebo dva prsty a volají na číslo 1 nebo 2, což podle mluvčího znamená číslo

prsty ukázané ostatním. Po ukázání prstů a pojmenování čísel se výhry rozdělí podle následujících pravidel:

pokud oba uhodli nebo oba neuhodli, kolik prstů jejich soupeř ukázal, je výplata každého rovna nule; pokud pouze jeden tipoval správně, pak soupeř zaplatí tipujícímu částku úměrnou celkovému počtu ukázaných

Toto je antagonistická maticová hra. Každý hráč má čtyři strategie: 1- ukaž 1 prst a řekni 1, 2- ukaž 1 prst a řekni 2, 3-

ukaž 2 prsty a řekni 1, 4 - ukaž 2 prsty a řekni 2. Potom výplatní matice A=(aij), i= 1,…, 4, j= 1,…, 4 je definován takto:

a12= 2, a21 = – 2, a13=a42=–3, a24=a31= 3, a34 = – 4, a43= 4,aij= 0 jinak.

Příklad 3.2. Diskrétní hra typu souboje.

Úkoly typu souboj popisují např. boj dvou hráčů,

z nichž každý chce provést nějakou jednorázovou akci (uvolnění zásilky zboží na trh, žádost o nákup v aukci) a zvolí si k tomu čas. Nechte hráče postupovat směrem k sobě n kroky. Po každém učiněném kroku hráč může, ale nemusí střílet na soupeře. Každý může mít pouze jeden výstřel. Předpokládá se, že pravděpodobnost zasažení nepřítele, pokud budete postupovat kolem k n = 5 má tvar




 
články na téma:
Vše, co potřebujete vědět o paměťových kartách SD, abyste se při nákupu Connect sd nepodělali
(4 hodnocení) Pokud v zařízení nemáte dostatek interního úložiště, můžete použít kartu SD jako interní úložiště pro telefon Android. Tato funkce, nazvaná Adoptable Storage, umožňuje OS Android formátovat externí média
Jak zatočit koly v GTA Online a další v GTA Online FAQ
Proč se gta online nepřipojuje? Je to jednoduché, server je dočasně vypnutý / neaktivní nebo nefunguje. Přejít na jiný Jak zakázat online hry v prohlížeči. Jak zakázat spouštění aplikace Online Update Clinet ve správci Connect? ... na skkoko vím, kdy ti to vadí
Pikové eso v kombinaci s jinými kartami
Nejběžnější výklady karty jsou: příslib příjemného seznámení, nečekaná radost, dříve nezažité emoce a vjemy, obdržení dárku, návštěva manželského páru. Srdcové eso, význam karty při charakterizaci konkrétní osoby vás
Jak správně sestavit horoskop přemístění Vytvořte mapu podle data narození s dekódováním
Natální tabulka hovoří o vrozených vlastnostech a schopnostech svého majitele, místní tabulka hovoří o místních okolnostech iniciovaných místem působení. Významem jsou si rovni, protože život mnoha lidí odchází z místa jejich narození. Postupujte podle místní mapy