Discover millions of ebooks, audiobooks, and so much more with a free trial

Only $11.99/month after trial. Cancel anytime.

機構設計: 基礎と応用
機構設計: 基礎と応用
機構設計: 基礎と応用
Ebook185 pages14 minutes

機構設計: 基礎と応用

Rating: 0 out of 5 stars

()

Read preview

About this ebook

メカニズム デザインとは


経済学とゲーム理論の分野において、メカニズム デザインは、経済のメカニズムやインセンティブの設計に対して目標第一のアプローチをとる下位分野です。 、プレイヤーが合理的に行動することが想定される戦略的状況において、望ましい目的に向かって取り組むことを目的としています。 ゲームの終わりから始まり、その後は逆方向に進むため、リバース ゲーム理論としても知られています。 これは、市場設計、オークション理論、社会的選択理論などの経済学や政治の分野、さらにはネットワーク システムなど、幅広い応用範囲があります。


How You Will 利点


(I) 以下のトピックに関する洞察と検証:


第 1 章: 機構設計


第 2 章: ラプラスの方程式


第 3 章: 尤度関数


第 4 章: ナビエ?ストークス方程式


第 5 章: 最尤推定


第 6 章: 十分な統計


第 7 章: 線形弾性


第 8 章: フィッシャー情報


第 9 章: 陰関数定理


第 10 章: カルバック?ライブラー発散


(II) メカニズム設計に関する一般のよくある質問に答えます。


(III) 多くの分野でのメカニズム設計の使用例の実例。


( IV) メカニズム設計のテクノロジーを 360 度完全に理解できるように、各業界の 266 の新興テクノロジーを簡潔に説明する 17 の付録。


本書の対象者


専門家、大学生、大学院生、愛好家、趣味人、あらゆる種類の機構設計について基礎的な知識や情報を超えて学びたいと考えている人。


 

Language日本語
Release dateJun 27, 2023
機構設計: 基礎と応用

Read more from Fouad Sabry

Related to 機構設計

Titles in the series (100)

View More

Related ebooks

Reviews for 機構設計

Rating: 0 out of 5 stars
0 ratings

0 ratings0 reviews

What did you think?

Tap to rate

Review must be at least 10 words

    Book preview

    機構設計 - Fouad Sabry

    第1章 機構設計

    参加者が合理的に行動する戦略的状況では、「メカニズムデザイン」として知られる経済学の主題は、目的優先のアプローチを使用して、望ましい目標を達成するための経済的メカニズムまたはインセンティブを構築します。リバースゲーム理論は、ゲームの終わりから始まり、逆方向に進むゲーム理論の一分野です。市場設計、オークション理論、社会的選択理論、および経済と政治の他の分野、およびネットワーク化されたシステムはすべて、それから利益を得ることができます(インターネットドメイン間ルーティング、スポンサー付き検索オークション)。

    メカニズムデザインの分野は、秘密の知識でゲームを解くためのいくつかのアプローチを分析します。Leonid Hurwiczが説明したように、設計課題の「与えられた」はターゲット関数であり、「未知」はメカニズムです。したがって、通常、メカニズムの効率の調査に専念する従来の経済理論は、設計問題の「反対」です。したがって、これらのゲームを際立たせる2つの特徴は次のとおりです。

    ゲームの「作成者」が、構造を継承するのではなく、その決定を下すこと

    ゲームの作成者がそれがどのように終わるかを気にしていること

    レオニード・ハーウィッツ、エリック・マスキン、ロジャー・マイヤーソンは、「メカニズム設計理論の基礎を築いたことで」2007年にノーベル経済学賞を受賞しました。

    「プリンシパル」と呼ばれる1人のプレイヤーは、ベイジアンゲームの興味深いクラスで他のプレイヤーに個人的に知られている知識に基づいて行動を条件付けたいと考えています。たとえば、マネージャーは、中古車の状態に関する販売員の主張を確認したい場合があります。事実を誇張することはセールスマンの利益になるので、彼は単にセールスマンに尋ねるだけでは何も発見することはできません。しかし、この原理はメカニズム設計において利点があります:彼は、他の人が彼が望むように振る舞うことを奨励するルールを持つゲームを作成することができます。

    校長のジレンマは、メカニズム設計理論を適用せずに解決することは困難です。彼は自分の選択肢を比較検討し、対戦相手の戦略に最も大きな影響を与えるゲームを選ぶ必要があります。校長はまた、彼が彼らの解釈に依存している場合、彼のエージェントによって誤解される危険があります。メカニズムと啓示の原則を慎重に検討したおかげで、校長はエージェントが個人情報を正直に開示するゲームについて考えるだけで済みます。

    メカニズム設計のゲームのプレーヤーの1人は機密情報にアクセスし、学校の管理者に連絡し、報酬システムを決定します。

    Harsanyi(1967)の後、エージェントはペイオフ関連の情報を運ぶ環境から隠された「メッセージ」を受け取ります。

    たとえば、製品の品質に関する人の好みや意見をメッセージで伝えることができます。

    この情報をエージェントの「タイプ」(通常は注意 \theta され、それに応じてタイプのスペース \Theta )と呼びます。

    次に、エージェントは、戦略的な嘘である可能性のある {\hat {\theta }} タイプをプリンシパルに報告します(通常は帽子で示されます)。

    このレポートの結果、原則、およびエージェントは、プリンシパルによって選択された支払い構造に従って補償されます。

    ゲームのスケジュールは次のとおりです。

    プリンシパルは、報告されたタイプの関数として y() 結果を付与する y メカニズムにコミットします

    情報提供者は、おそらく不正直に、タイププロファイルを宣言します {\hat {\theta }}

    メカニズムが実行されます(エージェントは結果を受け取ります y({\hat \theta }) )

    誰が必要なものを手に入れるかを知っているので、結果を商品の配分 y と送金に分けるのが一般的であり、

    y(\theta )=\{x(\theta ),t(\theta )\},\ x\in X,t\in T

    ここで x 、型の関数としてレンダリングまたは受領された商品の配分を表し、 t 型の関数としての金銭的移転を表します。

    設計者が使用する一般的な指標は、関連するすべてのデータにアクセスできる場合の結果です。

    (真の)タイププロファイルを、受領またはレンダリングされた商品の配分に直接マッピングする社会的選択関数 f(\theta ) を定義し、 f(\theta ):\Theta \rightarrow X

    一方、メカニズムは、自己申告タイププロファイルを結果に接続します (ただし、在庫配分 x と送金の両方 t )

    y({\hat \theta }):\Theta \rightarrow Y

    メカニズムがうまく行儀が良ければ、ベイズナッシュ均衡のベイジアンゲーム(私知のゲーム)につながります。均衡状態では、エージェントは所有している情報の種類に応じて戦略レポートを選択します。

    {\hat \theta }(\theta )

    このような状況でベイズ均衡を解くことは、アクターの反応に最適な戦略を見つけ、戦略的欺瞞の可能性から最良の推論を見つける必要があるため、困難です。開示の原則は、設計者が、使用されるメカニズムに関係なく、エージェントがそのタイプの正確なレポートを提供する均衡にのみ焦点を当てることを可能にする一般的な結果です。啓示の原理によれば、ベイズナッシュ均衡ごとに、プレイヤー全員が最初から自分の本当のタイプを告白する別のベイズゲームが存在します。

    これは大きな価値があります。すべての参加者が自分のタイプについて近づいていると仮定すると、この概念はベイズ均衡の解法を可能にします(インセンティブ互換性制約の対象となります)。それは、欺瞞的または計画的な行動の要件を一度に廃止します。

    証拠は本当に直接的です。

    エージェントの戦略と報酬がそのタイプと他のエージェントのアクションの両方に依存するベイジアンゲームを考えてみましょう u_{i}\left(s_{i}(\theta _{i}),s_{{-i}}(\theta _{{-i}}),\theta _{{i}}\right) 。

    定義上、エージェント iの均衡戦略 s(\theta _{i}) は期待効用のナッシュです。

    s_{i}(\theta _{i})\in \arg \max _{{s'_{i}\in S_{i}}}\sum _{{\theta _{{-i}}}}\ p(\theta _{{-i}}\mid \theta _{i})\ u_{i}\left(s'_{i},s_{{-i}}(\theta _{{-i}}),\theta _{i}\right)

    エージェント全員に同じ均衡を選択させたい場合は、そうする方法を定義するだけで済みます。メカニズム自体が均衡戦略を実施する役割を担うことは、定義するのが最も簡単です。

    y({\hat \theta }):\Theta \rightarrow S(\Theta )\rightarrow Y

    そのようなシステムは、エージェントが最適と考える戦略を果たすので、エージェントは当然、そのようなメカニズムの下でタイプを漏らすことが最適であると考えるでしょう。

    正式には、次のように選択します。 y(\theta )

    {\displaystyle {\begin{aligned}\theta _{i}\in {}&\arg \max _{\theta '_{i}\in \Theta }\sum _{\theta _{-i}}\ p(\theta _{-i}\mid \theta _{i})\ u_{i}\left(y(\theta '_{i},\theta _{-i}),\theta _{i}\right)\\[5pt]&=\sum _{\theta _{-i}}\ p(\theta _{-i}\mid \theta _{i})\ u_{i}\left(s_{i}(\theta ),s_{-i}(\theta _{-i}),\theta _{i}\right)\end{aligned}}}

    メカニズムの設計者は、次のいずれかを予測するのが一般的です。

    社会的選択機能を「実装」する y() 仕組みを設計する

    ある価値基準を最大化する y() メカニズムを見つける(例えば、

    利益)

    社会的選択関数を実装することは f(\theta ) 、エージェントが選択するように動機付ける伝達関数 t(\theta ) を見つけることです f(\theta ) 。

    形式的には、メカニズムの均衡戦略プロファイルが社会的選択関数と同じ商品の分布に対応する場合、メカニズムは最適です。 f(\theta )=x\left({\hat \theta }(\theta )\right)

    具体的には、このメカニズムが社会的選択機能を実現すると主張します。

    啓示の概念のために、デザイナーは通常、 t(\theta ) 関連する真実を語るゲームを解くことによって社会的選択を実装するための伝達関数を見つけることができます。

    エージェントが自分のタイプについて正直であることが最善であると考える場合、 {\hat \theta }(\theta )=\theta

    私たちは、そのようなシステムが実際の使用に実行可能である(または単に「実装可能」)と自信を持って主張します。

    次に、タスクは、真に実装可能なものを解き、 t(\theta ) この伝達関数を元のゲームに代入することです。

    割り当て x(\theta ) は、次のような伝達関数が存在する場合に真実に実装可能です。 t(\theta )

    u(x(\theta ),t(\theta ),\theta )\geq u(x({\hat \theta }),t({\hat \theta }),\theta )\ \forall \theta ,{\hat \theta }\in \Theta

    これは、IC 制約 (インセンティブ互換性) とも呼ばれます。

    アプリケーションでは、IC条件は、有用な方法での形状を記述するための鍵となります t(\theta ) 。

    場合によっては、伝達関数の分析的な分離を行うことさえできます。

    また、エージェントがゲームをオプトアウトする自由がある場合、参加(個人の合理性)制限が課される場合があります。

    すべてのエージェントが型条件ユーティリティ関数を持つ設定を考えてみましょう u(x,t,\theta ) 。

    ベクトル値とサイズ x(\theta ) (商品の数を許可する)である k 商品配分も考慮 k し、その引数に関して区分的に連続していると仮定します。

    この関数は x(\theta ) 、次の場合にのみ実装できます。

    \sum _{{k=1}}^{n}{\frac {\partial }{\partial \theta }}\left({\frac {\partial u/\partial x_{k}}{\left|\partial u/\partial t\right|}}\right){\frac {\partial x}{\partial \theta }}\geq 0

    いつでも x=x(\theta ) と t=t(\theta ) と x は で連続である \theta 。

    これは、誠実さを前提としたエージェントの最適化問題の1次条件と2次条件に従う前提条件です。

    その意味には2つの半分があります。最初の部分は、エージェントのMRSが交換の種類に応じて上昇すると述べています。

    {\displaystyle {\frac {\partial }{\partial \theta }}\left({\frac {\partial u/\partial x_{k}}{\left|\partial u/\partial t\right|}}\right)={\frac {\partial }{\partial \theta }}\mathrm {MRS} _{x,t}}

    つまり、システムがより高度なエージェントの種類を好まない場合、エージェントは真実の情報を開示しません。報告に対して上位タイプにペナルティを科すメカニズムがある場合、上位タイプは、下位タイプであると誤って主張することにより、真実を伝えるIC要件に違反します。2番目の部分は単調さの潜在的なケースです、 {\frac {\partial x}{\partial \theta }}

    これは、私たちが楽観的であるならば、より高いタイプは良いもののより大きなシェアを受け取るべきであることを示しています。

    2つの部分が連携する可能性があります。

    あるタイプ範囲で、契約がより高いタイプにより少ない数量を提供した場合 \partial x/\partial \theta <0 、メカニズムはより高いタイプでより低い価格を提供することによってそれを補うかもしれません。

    しかしながら、低タイプのエージェントはすでにそのような契約にアクセスしているので、これは病理学的解決策である。

    メカニズムの探求において、そのような解決策が現れるかもしれません。

    これには、状況の「アイロンがけ」が必要です。複数の良い設定のデザイナーは、あるアイテムを少なくし、別のアイテムを減らすことで、商品間のトレードオフを行うようにエージェントにインセンティブを与えることもできます(例:

    バターの代わりにマーガリン)。

    メカニズム設計の理論家は、複数の目的に役立つメカニズムをどのように作成するかという問題に苦労し続けています。

    実用性を保証するために、メカニズム設計に関する研究は通常、2つの仮定を行います。

    {\displaystyle {\frac {\partial }{\partial \theta }}{\frac {\partial u/\partial x_{k}}{\left|\partial u/\partial t\right|}}>0\ \forall k}

    単一交差条件、ソート条件、またはスペンス・ミルリーズ条件はすべて、このシナリオの名前です。エージェントのMRSのタイプが上昇している場合、ユーティリティ関数は増加する形式になります。

    {\displaystyle \exists K_{0},K_{1}{\text{ such that }}\left|{\frac {\partial u/\partial x_{k}}{\partial u/\partial t}}\right|\leq K_{0}+K_{1}|t|}

    MRSの成長率は、この技術的要件によって制約されます。

    これらの仮定は、単調性が実装 x(\theta ) 可能である( t(\theta ) それを実装できる存在)ことを提供するのに十分です。

    さらに、シングルグッド設定では、単調のみが実装可能であることを提供するにはシングル交差条件が十分であるため、 x(\theta ) 設計者は検索を単調に限定できます x(\theta ) 。

    Vickrey(1961)によって与えられた古典的な発見は、売り手は幅広いクラスのオークションのどのメンバーからも同じリターンを期待でき、この収益は売り手が達成できる最高のものであると述べています。このシナリオでは、各バイヤーは同じ評価手法を使用します(これはタイプの関数である可能性があります)

    バイヤーのタイプはランダムに割り当てられます。

    継続的な配布は、バイヤーのさまざまなカテゴリを選択するために使用されます。

    単調ハザード率機能は、タイプ分布にも当てはまります。

    システムは最高入札者に製品を販売します。

    最後の規定は、定理の証明に不可欠です。言い換えれば、売り手がより多くのお金を稼ぎたい場合、彼はそれにより低い価値を置くブローカーにアイテムを引き渡さなければならないかもしれません。これは通常、アイテムがまったく売れないというチャンスを彼に取らせる。

    橋などの公共プロジェクトの建設コストがすべてのエージェントによって共有される場合の公共選択のジレンマに対処するために、Clarke(1971)とGrovesはVickrey(1961)によって最初に提案されたオークションモデルを修正しました。その後の「ヴィックリー・クラーク・グローブス」メカニズムは、たとえ彼らが個人的に知られている評価を持っていたとしても、公共財の社会的に効率的な配分を選択するようにアクターを奨励することができます。言い換えれば、「コモンズの悲劇」は、準線形効用や予算バランスの必要性の欠如など、特定の要件が満たされていれば回避できます。

    エージェント I の数が、通貨が線形に評価されるプライベート評価で準線形効用を持つ v(x,t,\theta ) 設定を考えてみましょう t 。

    真の型プロファイルを取得するために、VCGデザイナーはインセンティブ互換のメカニズムを作成します(そして実装するのが現実的です)、デザイナーはそれを使用して最も公平な配布を実行します

    {\displaystyle x_{I}^{*}(\theta )\in {\underset {x\in X}{\operatorname {argmax} }}\sum _{i\in I}v(x,\theta _{i})}

    VCGシステムは、オープンディスクロージャーを提供するインセンティブのために独創的です。すべてのエージェントを彼が生み出した歪みのコストで罰することによって、それは誤報告へのインセンティブを取り除きます。VCGシステムでは、エージェントが公共財を気にせず、単に金銭的移転に関心があることを示す「ヌル」レポートが可能です。したがって、エージェントは効果的に方程式から取り出されます。エージェントがあるタイプを報告することを決定した場合、VCGプロセスは、彼の報告が決定的である場合、最適な割り当てxを変更することによって他のエージェントに害を及ぼすことを意味するコストを課します。合計が決定されます

    {\displaystyle t_{i}({\hat {\theta }})=\sum _{j\in I-i}v_{j}(x_{I-i}^{*}(\theta _{I-i}),\theta _{j})-\sum _{j\in I-i}v_{j}(x_{I}^{*}({\hat {\theta }}_{i},\theta _{I}),\theta _{j})}

    これは、あるエージェントのレポートが他のエージェントに与えるユーティリティの歪みを合計します(ただし、彼自身ではありません)。

    アローの不可能性定理と同様に、Gibbard (1973) と Satterthwaite (1975) の発見がある。「独裁的な」社会的選択機能のみが、幅広いカテゴリーのゲームで実行可能です。

    あるエージェントが特定の社会的選択関数f()の下で商品の優先分配を得ることが保証されている場合、f()は独裁的です。

    {\text{for }}f(\Theta ){\text{, }}\exists i\in I{\text{ such that }}u_{i}(x,\theta _{i})\geq u_{i}(x',\theta _{i})\ \forall x'\in X

    この理論によれば、ほとんどの状況で正直に実装できる社会的選択関数は権威主義的でなければならず、Xには少なくとも3つの異なる項目があり、Xは有限です。

    好みは合理的です

    f(\Theta )=X

    マイヤーソンとサタースウェイトは1983年の論文で、2つの当事者が異なる、未知の、そしておそらく否定的な商品の評価を持っている場合、それらの間の公正な販売は不可能であることを示しています。これは経済学における最も顕著な否定的な結果の1つであり、厚生経済学の基礎となる教義の一種の逆反映として機能します。

    ゲームの最悪の場合の非効率性(無政府状態の価格)と最良の結果(安定性の価格)の両方を最小限に抑えるために、Phillips and Marden(2018)は、Shapley値コストシェアリングルールが、凹型コスト関数を持つコストシェアリングゲームの理想的なコストシェアリングルールであることを実証しました。凸効用関数を持つ効用共有ゲームでは、対称的なステートメントが成り立ちます。

    伝達関数t()は、Mirrlees(1971)によって導入されたコンテキストで便利に解くことができます。

    実用的で管理しやすいため、文献では一般的な設定です。

    単積の場合、エージェントが未知の型パラメータを持つ準線形効用を持つ単一エージェント設定 \theta

    u(x,t,\theta )=V(x,\theta )-t

    プリンシパルはエージェントのタイプよりも前のCDFを持っています P(\theta ) 。

    元本は凸限界費用関数c(x)を持ち、予測利益の最大化に関心があります。

    \max _{{x(\theta ),t(\theta )}}{\mathbb {E}}_{\theta }\left[t(\theta )-c\left(x(\theta )\right)\right]

    ICおよびIRの状況に応じて

    u(x(\theta ),t(\theta ),\theta )\geq u(x(\theta '),t(\theta '),\theta )\ \forall \theta ,\theta 'u(x(\theta ),t(\theta ),\theta )\geq \underline {u}(\theta )\ \forall \theta

    中心的なアクターは、顧客が誰であるかを知らずに顧客に請求する方法を決定しようとする独占者です。航空券の価格は、ビジネスマン、観光客、学生など、さまざまなタイプの顧客によって異なることがよくあります。IRが機能するためには、すべてのタイプに十分なインセンティブを提供する必要があります。IC要件のため、すべての種類が他のどの種類よりもそれらを選択するほど魅力的な用語を提供する必要があります。

    Mirrlees (1971)が示唆したように、包絡線定理を採用することにより、伝達関数を最大化期待値から取り除くことができます。

    {\text{let }}U(\theta )=\max _{{\theta '}}u\left(x(\theta '),t(\theta '),\theta \right){\frac {dU}{d\theta }}={\frac {\partial u}{\partial \theta }}={\frac {\partial V}{\partial \theta }}

    統合

    U(\theta )=\underline {u}(\theta _{0})+\int _{{\theta _{0}}}^{\theta }{\frac {\partial V}{\partial {\tilde \theta }}}d{\tilde \theta }

    ここで、 \theta _{0} はインデックスの種類です。

    最大限に t(\theta )=V(x(\theta ),\theta )-U(\theta ) インセンティブ互換を置き換え、

    {\displaystyle {\begin{aligned}&\mathbb {E} _{\theta }\left[V(x(\theta ),\theta )-{\underline {u}}(\theta _{0})-\int _{\theta _{0}}^{\theta }{\frac {\partial V}{\partial {\tilde {\theta }}}}d{\tilde {\theta }}-c\left(x(\theta )\right)\right]\\&{}=\mathbb {E} _{\theta }\left[V(x(\theta ),\theta )-{\underline {u}}(\theta _{0})-{\frac {1-P(\theta )}{p(\theta )}}{\frac {\partial V}{\partial \theta }}-c\left(x(\theta )\right)\right]\end{aligned}}}

    断片的な統合を完了した後。この関数のポイントごとの最大化が可能です。

    U(\theta ) すでにインセンティブ互換であるため、設計者はIC制約を削除できます。

    効用関数がスペンス・ミリーズ条件を満たす場合、単調関数 x(\theta ) が存在する。

    平衡状態では、IR制限を評価し、必要に応じて充電スケジュールを調整することができます。

    さらに、このフレーズには危険率が含まれていることを考慮に入れてください。

    型分布に対して単調ハザード比特性が成り立つ場合、FOCのみを用いてtを解くことが可能です()。

    そうでない場合は、単調性制約(詳細については、上記の「十分」を参照)が満たされているかどうかを、割り当て構造と料金構造のすべてのレベルで満たされているかどうかを判断する必要があります。

    そうでない場合は、デザイナーにマイヤーソンアイロンが必要です。

    設計者は、価格と配分のスケジュールが一次条件を解いた後、単調ではないことに気付くかもしれません。これは、たとえば、ハザード比自体が単調ではない準線形コンテキストで頻繁に発生します。Spence-Mirrleesの要件では、最適な価格と割り当てのスケジュールは単調でなければならず、設計者はスケジュールが方向を変える各間隔を平坦化する必要があります。

    設計者は、特定の種類のインスタンスをグループ化し、それらすべて同じコントラクトを割り当てる方が効率的であるという結論に達しました。より高いタイプは通常、より良い取引を提供することによってデザイナーによって目立つように奨励されます。マージンに高いタイプの顧客が十分にいない場合、デザイナーは低いタイプの価格を下げることを気にしません(「情報家賃」として知られています)。

    前の例のように、ユーティリティが線形であるエージェントに販売を行う独占主義の原則を考えてみてください。

    1次条件を満たす x(\theta ) 割り当てスケジュールに、 \theta _{1} 右側に1つの内部ピーク \theta _{2}>\theta _{1} と1つの内部トラフがあるとします。

    Myerson(1981)に続いて、満足を選択することでそれを平坦化する x

    {\displaystyle \int _{\phi _{2}(x)}^{\phi _{1}(x)}\left({\frac {\partial V}{\partial x}}(x,\theta )-{\frac {1-P(\theta )}{p(\theta )}}{\frac {\partial ^{2}V}{\partial \theta \,\partial x}}(x,\theta )-{\frac {\partial c}{\partial x}}(x)\right)d\theta =0}

    ここで \phi _{1}(x) 、 は X への写像の逆関数 \theta \leq \theta _{1} であり、 \phi _{2}(x) は への写像 x の逆関数である \theta \geq \theta _{2} 。

    つまり、 \phi _{1} \theta 内部ピークの前にaを返し、内部 \phi _{2} トラフの後に \theta aを返します。

    の非単調領域が x(\theta ) タイプスペースのエッジに接する場合は、適切な \phi (x) 関数(またはその両方)を境界タイプに設定します。

    いくつかの異なる領域がある場合、方法論の反復は本に記載されています。おそらく、複数のトラフを溶接する必要があります。

    証明は最適制御理論の概念に依存しています。

    スケジュールを平坦化する可能性のある \left[\underline \theta ,\overline \theta \right] 非単調領域の x(\theta ) 間隔のセットを考慮します。

    次に、ハミルトニアンを記述して、区間内のaに必要な条件を取得します x(\theta )

    それは確かに単調さを満たします。

    単調性制約が成り立たない間隔境界を持つ

    条件 2 は x(\theta ) 、最適制御問題を満たすと、間隔境界 (ジャンプなし) で元の問題のスケジュールに再接続されます。

    x(\theta ) 必要な条件を満たすものは、単調でありながら境界で再接続する必要があるため、フラットである必要があります。

    単調性条件を満たしながら元本の期待リターンを最適化します。

    {\frac {\partial x}{\partial \theta }}\geq 0

    そして、シャドウプライスで、ハミルトニアンでそれを行います \nu (\theta )

    H=\left(V(x,\theta )-\underline {u}(\theta _{0})-{\frac {1-P(\theta )}{p(\theta )}}{\frac {\partial V}{\partial \theta }}(x,\theta )-c(x)\right)p(\theta )+\nu (\theta ){\frac {\partial x}{\partial \theta }}

    ここで x 、 は状態変数と \partial x/\partial \theta コントロールです。

    標準的な最適制御手順では、余状態進化方程式が

    {\frac {\partial \nu }{\partial \theta }}=-{\frac {\partial H}{\partial x}}=-\left({\frac {\partial V}{\partial x}}(x,\theta )-{\frac {1-P(\theta )}{p(\theta )}}{\frac {\partial ^{2}V}{\partial \theta \,\partial x}}(x,\theta )-{\frac {\partial c}{\partial x}}(x)\right)p(\theta )

    Enjoying the preview?
    Page 1 of 1