3. Problem statement
A learning NPC is essentially an autonomous agent which strives to acquire a desirable behavior model through its interac- tion with the environment with respect to its goals. In order to define our problem statement, we review the following definitions as used in the field of reinforcement learning.
Definition (State space). State space S of an agent is a set of states {s1 , s2 , . . . , sn }, where each state si represents a snapshot of the environment in which the agent resides.
Definition (Action space). Action space A of an agent is a set of actions {a1 , a2 , . . . , am }, where each action indicates an unique re- sponse to the environment.
Definition (Reward). Reward r is a real-valued evaluative feedback received by an agent from its environment.
Definition (Behavior model). The behavior model F of an agent is a an internal model or function mapping from the state space S to the action space A of the agent. More formally, the behavior model is defined by
F : S −→ A, (1)
where each state si ∈ S is mapped to an action ai ∈ A. A behav- ior model dictates how the NPC responds to the situations in its environment. It is thus akin to the action policy as used in the lit- erature of reinforcement learning.
There are two distinctive approaches to acquiring a behavior model. One is to learn the behavior function F directly from a given set of sample pairs (si, ai), where ai indicates the action to be taken in state si. In the context of first person shooting games, such training samples can be acquired readily through observing the behavior of the agent’s opponents. This paradigm of learning from observations is known as imitative learning (IL).
Definition (Imitative learning). Imitative learning is a learning process, wherein an agent infers its behavior model function from a set of observations, each of which contains an input state si ∈ S and an action ai ∈ A.
The basic assumption of imitative learning is that each observed behavior is appropriate for the specific environment in which the agent resides.
Another approach to building a behavior model is through learning a value function, which specifies the payoff value of per- forming an action in a given situation. More formally, the value function is defined by
V : S × A −→ R£ (2)
where each state-action pair (si, ai) is associated with a reward value r ∈ R. During decision making, the agent can then take the action a which has the maximal reward in a state s. This is known as reinforcement learning (RL).
Definition (Reinforcement learning). Reinforcement learning is a learning process, wherein an agent learns a value function or an action policy and adjusts its behavior patterns so as to maximize
the future payoff, based on the reward signal ri ∈ R when the ac- tion ai ∈ A is performed in the state si ∈ S.
RL assumes there’s always a best choice of action for the spe- cific surroundings in which the agent is situated, among all the possible choices.
4. Issues and challenges
Imitative learning and reinforcement learning both learn the as- sociations among the states (S), actions (A), and values (R) but do so in distinct ways. As imitative learns the mapping (S → A) from existing patterns, the knowledge acquired is limited by the qual- ity of the observations available. Reinforcement learning focuses on learning action policies and estimating the values to indicate the goodness of action-state pairs. However, exploration in the ini- tial stage can be time consuming. The challenge is how to inte- grate the two learning methods into one unified framework, so as to combine their complementary merits for better performance.
4.1. Unifying knowledge representation
The knowledge learned via imitative learning and reinforcement learning are distinct in nature. By imitative learning, the knowl- edge is in the form of a series of state-action pairs fi(si, ai) with the logic that when the state si is satisfied, the action ai will be taken consequently. On the other hand, the knowledge acquired by reinforcement learning is a value function, associating each of the state-action pairs with a reward value. Given a 3-tuple vi (si , ai , ri ), the logic states that if an action ai is taken in state si, the estimated expected reward value is given by ri. The challenge is how to de- rive a unified knowledge structure which can fuse and represent these different types of knowledge that can be learned through ei- ther imitative learning and reinforcement learning.
4.2. Unifying decision making
Note that the knowledge learned through imitative learning is a behavior function F from input states to actions. During action selection, given the current state, an action can be chosen by sim- ply feeding the input state vector into the behavior function. On the other hand, the knowledge acquired by reinforcement learn- ing is a value function, associating each of the state-action pairs with a reward value. Given the current state, the agent evaluates the value o
3. ปัญหางบการเรียนรู้ที่ NPC เป็นหลักตัวแทนอิสระซึ่งจะได้รับรูปแบบพฤติกรรมที่พึงประสงค์ผ่านการ interac โปรดหารือกับสภาพแวดล้อมที่เกี่ยวข้องกับเป้าหมาย เพื่อกำหนดคำชี้แจงปัญหาของเรา เราสามารถตรวจสอบคำนิยามต่อไปนี้ใช้ในด้านการเสริมสร้างการเรียนรู้นิยาม (พื้นที่รัฐ) พื้นที่รัฐ S ตัวแทนคือ ชุดของอเมริกา {s1, s2,..., sn }, ซึ่งในแต่ละรัฐแทน snapshot ของสิ่งแวดล้อมที่อยู่ของตัวแทนนิยาม (พื้นที่ดำเนินการ) ดำเนินการพื้นที่ A ตัวแทนคือ ชุดของการดำเนินการ {a1, a2,..., am }, ที่แต่ละดำเนินการระบุที่ไม่ซ้ำ re sponse สิ่งแวดล้อมนิยาม (รางวัล) รางวัล r คือ มีมูลค่าจริงประเมินทั้งภาพติชม โดยตัวแทนจากสภาพแวดล้อมนิยาม (จำลองลักษณะการทำงาน) มีรูปแบบลักษณะการทำงาน F ตัวแทนเป็นการภายในรุ่นหรือฟังก์ชันแมปจากพื้นที่สถานะ S พื้นที่การกระทำ A ของบริษัทตัวแทน เพิ่มเติมอย่างเป็นทางการ กำหนดรูปแบบลักษณะการทำงานโดยF: −→ S A, (1)ซึ่งแต่ละรัฐศรี∈ S ถูกแมปไป A. ∈ ai การกระทำ แบบจำลอง ior จรรยาบรรณบอกว่า NPC ตอบสนองต่อสถานการณ์ในสภาพแวดล้อม นั้นจึงคล้ายกับนโยบายการดำเนินการที่ใช้ในที่สว่าง-erature เสริมการเรียนThere are two distinctive approaches to acquiring a behavior model. One is to learn the behavior function F directly from a given set of sample pairs (si, ai), where ai indicates the action to be taken in state si. In the context of first person shooting games, such training samples can be acquired readily through observing the behavior of the agent’s opponents. This paradigm of learning from observations is known as imitative learning (IL).Definition (Imitative learning). Imitative learning is a learning process, wherein an agent infers its behavior model function from a set of observations, each of which contains an input state si ∈ S and an action ai ∈ A.The basic assumption of imitative learning is that each observed behavior is appropriate for the specific environment in which the agent resides.Another approach to building a behavior model is through learning a value function, which specifies the payoff value of per- forming an action in a given situation. More formally, the value function is defined byV : S × A −→ R£ (2)where each state-action pair (si, ai) is associated with a reward value r ∈ R. During decision making, the agent can then take the action a which has the maximal reward in a state s. This is known as reinforcement learning (RL).Definition (Reinforcement learning). Reinforcement learning is a learning process, wherein an agent learns a value function or an action policy and adjusts its behavior patterns so as to maximizethe future payoff, based on the reward signal ri ∈ R when the ac- tion ai ∈ A is performed in the state si ∈ S.RL assumes there’s always a best choice of action for the spe- cific surroundings in which the agent is situated, among all the possible choices.4. Issues and challengesImitative learning and reinforcement learning both learn the as- sociations among the states (S), actions (A), and values (R) but do so in distinct ways. As imitative learns the mapping (S → A) from existing patterns, the knowledge acquired is limited by the qual- ity of the observations available. Reinforcement learning focuses on learning action policies and estimating the values to indicate the goodness of action-state pairs. However, exploration in the ini- tial stage can be time consuming. The challenge is how to inte- grate the two learning methods into one unified framework, so as to combine their complementary merits for better performance.4.1. Unifying knowledge representationThe knowledge learned via imitative learning and reinforcement learning are distinct in nature. By imitative learning, the knowl- edge is in the form of a series of state-action pairs fi(si, ai) with the logic that when the state si is satisfied, the action ai will be taken consequently. On the other hand, the knowledge acquired by reinforcement learning is a value function, associating each of the state-action pairs with a reward value. Given a 3-tuple vi (si , ai , ri ), the logic states that if an action ai is taken in state si, the estimated expected reward value is given by ri. The challenge is how to de- rive a unified knowledge structure which can fuse and represent these different types of knowledge that can be learned through ei- ther imitative learning and reinforcement learning.4.2. Unifying decision makingNote that the knowledge learned through imitative learning is a behavior function F from input states to actions. During action selection, given the current state, an action can be chosen by sim- ply feeding the input state vector into the behavior function. On the other hand, the knowledge acquired by reinforcement learn- ing is a value function, associating each of the state-action pairs with a reward value. Given the current state, the agent evaluates the value o
การแปล กรุณารอสักครู่..

3. คำสั่งปัญหา
การเรียนรู้ NPC เป็นหลักเป็นตัวแทนอิสระที่มุ่งมั่นที่จะได้รับรูปแบบพฤติกรรมที่พึงประสงค์ผ่านการโต้ตอบกับสภาพแวดล้อมที่เกี่ยวกับเป้าหมายของตน เพื่อกำหนดคำสั่งปัญหาของเราเราจะตรวจสอบคำจำกัดความดังต่อไปนี้ใช้ในด้านการเรียนรู้การเสริมแรง.
Definition (พื้นที่รัฐ) รัฐพื้นที่ S ของตัวแทนคือชุดของรัฐ {S1 ที่ S2, . . , SN} ซึ่งแต่ละ si รัฐแสดงให้เห็นถึงภาพรวมของสภาพแวดล้อมที่ตัวแทนอยู่ได้.
Definition (พื้นที่การดำเนินการ) การดำเนินการพื้นที่ของตัวแทนคือชุดของการกระทำ {A1 เป็น A2, . . , am} ซึ่งแต่ละการกระทำที่บ่งชี้ว่า sponse อีกครั้งที่ไม่ซ้ำกับสิ่งแวดล้อม.
Definition (รางวัล) รางวัล R เป็นข้อเสนอแนะการประเมินมูลค่าจริงที่ได้รับจากตัวแทนจากสภาพแวดล้อมของมัน.
Definition (รูปแบบพฤติกรรม) เอฟรูปแบบพฤติกรรมของตัวแทนเป็นรูปแบบหรือฟังก์ชั่นภายในการทำแผนที่จากรัฐพื้นที่ S เพื่อให้พื้นที่การกระทำของตัวแทน อีกอย่างเป็นทางการรูปแบบลักษณะการทำงานจะถูกกำหนดโดย
F: S - → A, (1)
ที่แต่ละรัฐศรี∈ S ถูกแมปไปดำเนินการ ai ∈ A และพฤติกรรมรุ่น IOR สั่งการวิธีการที่ NPC ตอบสนองต่อสถานการณ์ในสภาพแวดล้อมของตน . มันจึงคล้ายกับนโยบายการดำเนินการที่ใช้ใน erature ไฟใหญ่ของการเรียนรู้การเสริมแรง.
มีสองวิธีที่โดดเด่นในการแสวงหารูปแบบพฤติกรรมที่เป็น หนึ่งคือการเรียนรู้ฟังก์ชั่นพฤติกรรม F โดยตรงจากชุดที่กำหนดของคู่ตัวอย่าง (SI, AI) ที่ AI บ่งชี้การดำเนินการจะต้องดำเนินการใน SI รัฐ ในบริบทของคนแรกยิงเกมตัวอย่างฝึกอบรมดังกล่าวสามารถซื้อได้อย่างง่ายดายผ่านการสังเกตพฤติกรรมของฝ่ายตรงข้ามของตัวแทนที่ กระบวนทัศน์ของการเรียนรู้จากการสังเกตนี้เป็นที่รู้จักกันเรียนรู้การลอกเลียนแบบ (IL).
Definition (เลียนแบบการเรียนรู้) การเรียนรู้การลอกเลียนแบบเป็นกระบวนการเรียนรู้ในประเด็นที่ตัวแทนจะอ้างถึงฟังก์ชั่นรูปแบบพฤติกรรมของมันจากชุดของการสังเกตซึ่งแต่ละรัฐมีการป้อนข้อมูล si ∈ S และการกระทำ ai ∈ A.
สมมติฐานพื้นฐานของการเรียนรู้การลอกเลียนแบบคือแต่ละพฤติกรรมที่เห็นคือ เหมาะสมสำหรับสภาพแวดล้อมที่เฉพาะเจาะจงในการที่ตัวแทนอยู่.
วิธีการในการสร้างแบบจำลองพฤติกรรมก็คือผ่านการเรียนรู้ฟังก์ชั่นคุ้มค่าซึ่งระบุค่าผลตอบแทนของการทําการขึ้นรูปการกระทำในสถานการณ์ที่กำหนด อีกอย่างเป็นทางการ, ฟังก์ชั่นค่าจะถูกกำหนดโดย
v: S ×เอ - → R £ (2)
ที่แต่ละรัฐดำเนินการคู่ (SI, AI) มีความเกี่ยวข้องกับค่า R รางวัล∈อาร์ในระหว่างการตัดสินใจตัวแทนสามารถแล้ว ใช้เวลาการดำเนินการที่มีผลตอบแทนสูงสุดในรัฐ s นี้เรียกว่าการเสริมแรงการเรียนรู้ (RL).
Definition (การเรียนรู้เสริมสร้าง) การเรียนรู้การเสริมแรงเป็นกระบวนการเรียนรู้ในประเด็นที่เป็นตัวแทนเรียนรู้ฟังก์ชั่นค่าหรือนโยบายการดำเนินการและปรับรูปแบบพฤติกรรมของตนเพื่อเพิ่ม
ผลตอบแทนในอนาคตขึ้นอยู่กับสัญญาณ ri รางวัล∈ R เมื่อการทํา AI ∈จะดำเนินการใน รัฐศรี∈เอส
RL ถือว่ามีเสมอเลือกที่ดีที่สุดของการดำเนินการสภาพแวดล้อมกิจกรรมโดยเฉพาะในการที่ตัวแทนตั้งอยู่ในทุกทางเลือกที่เป็นไปได้.
4 ปัญหาและความท้าทาย
ในการเรียนรู้และเลียนแบบการเสริมแรงการเรียนรู้ทั้งเรียนรู้ sociations จำาในหมู่รัฐ (s), การดำเนินการ (A) และค่านิยม (R) แต่ทำในรูปแบบที่แตกต่างกัน ในฐานะที่ลอกเลียนแบบได้เรียนรู้การทำแผนที่ (S → A) จากรูปแบบที่มีอยู่ความรู้ที่ได้มาถูก จำกัด ด้วย ity qual- ของการสังเกตที่มีอยู่ การเรียนรู้ที่มุ่งเน้นการเสริมแรงในการเรียนรู้นโยบายการดำเนินการและการประมาณค่าที่บ่งบอกถึงความดีของคู่การกระทำของรัฐ อย่างไรก็ตามการสำรวจในระยะเริ่มแรก tial สามารถใช้เวลานาน ความท้าทายคือวิธีการ inte- ตะแกรงทั้งสองวิธีการเรียนรู้แบบครบวงจรในกรอบหนึ่งเพื่อที่จะรวมบุญเสริมของพวกเขาสำหรับประสิทธิภาพที่ดีขึ้น.
4.1 แทนความรู้รวม
ความรู้ที่ได้เรียนรู้ผ่านการเรียนรู้การลอกเลียนแบบและการเรียนรู้การเสริมแรงมีความแตกต่างในธรรมชาติ โดยการเรียนรู้การลอกเลียนแบบขอบความรู้อยู่ในรูปแบบของชุดของรัฐดำเนินการคู่ Fi (SI, AI) ด้วยเหตุผลที่ว่าเมื่อ si รัฐมีความพึงพอใจการกระทำของ AI ที่จะถูกนำมาส่งผลให้ ในทางตรงกันข้ามความรู้ที่ได้มาโดยการเรียนรู้การเสริมแรงเป็นฟังก์ชั่นคุ้มค่าเชื่อมโยงแต่ละคู่ที่รัฐดำเนินการกับมูลค่ารางวัล รับ VI 3 tuple (SI, ไอ RI), ลอจิกระบุว่าหากการกระทำ Ai คือการดำเนินการในศรีรัฐมูลค่ารางวัลประมาณคาดว่าจะได้รับจาก ri ความท้าทายคือวิธีการ rive พืชเกษตรในโครงสร้างความรู้แบบครบวงจรที่สามารถหลอมรวมและเป็นตัวแทนของประเภทที่แตกต่างกันเหล่านี้ของความรู้ที่สามารถเรียนรู้ผ่าน ei- Ther การลอกเลียนแบบการเรียนรู้และการเสริมแรงการเรียนรู้.
4.2 รวมการตัดสินใจ
สังเกตว่าความรู้ที่ได้เรียนรู้ผ่านการเรียนรู้การลอกเลียนแบบเป็นฟังก์ชั่น F พฤติกรรมจากรัฐเข้ากับการกระทำ ในระหว่างการเลือกการกระทำที่ได้รับสถานะปัจจุบันการกระทำสามารถเลือกโดยเร่ซิมให้อาหารป้อนข้อมูลรัฐเวกเตอร์เข้าไปในฟังก์ชั่นการทำงาน ในทางตรงกันข้ามความรู้ที่ได้มาโดยการเสริมแรง learn- ไอเอ็นจีเป็นฟังก์ชั่นคุ้มค่าเชื่อมโยงแต่ละคู่ที่รัฐดำเนินการกับมูลค่ารางวัล ได้รับสถานะปัจจุบันตัวแทนประเมินมูลค่า o การ
การแปล กรุณารอสักครู่..
