OVERVIEW OF THE PROPOSED METHODOLOGY
As one of the key elements of artificial intelligence, reinforcement learning has been
successfully applied to control problems such as elevator operation (9) and robot soccer
games (10). It has also been extensively used for supply chain modeling (11),
activity-travel pattern analysis (12), dynamic resource allocation (13), and time series
prediction (14). In this dissertation, a reinforcement learning method is proposed for
arterial traffic signal control. In the field of reinforcement learning, the controller is often
referred to as agent, which is formally defined as anything that can observe the
environment and act upon it, and the environment is the subject to be controlled. A
system consists of a group of agents that interact with each other is called a multiagent
system (MAS) (15 ). At each decision step, the agent applies an action to the
environment in response to the environment’s current state. Under the effect of this
action, the environment may change accordingly and results in a new state and a
feedback signal called reward (or penalty). Based on the new state and the reward, the
agent can adjust its policy and learn how to achieve a certain goal from the interactions
with the environment (16). This learning approach is called reinforcement learning. One
advantage of using the reinforcement learning for control applications is that it can learn
the optimal control policy directly from interactions between the controller and the
environment without knowing the underlying model of the subject to be controlled. In
addition, the reinforcement learning method can well circumvent the problems
associated with dynamic programming algorithms used in some of the existing adaptive
3
traffic signal control systems. Also, it is conceptually desirable to model arterial traffic
signal control problem using reinforcement learning and the MAS framework.
In the case of isolated intersection traffic control, the agent is the traffic signal
controller and the environment consists of all other traffic and geometry factors related
to the intersection. Queue length or total delay can be used as the penalty. The concept
of using reinforcement learning for isolated intersection traffic control is shown in
Figure 1.
ภาพรวมของการนำเสนอวิธีการ
เป็นหนึ่งในองค์ประกอบหลักของปัญญาประดิษฐ์ เสริมการเรียนรู้ได้รับ
ใช้เรียบร้อยแล้วเพื่อการควบคุมปัญหาเช่นการดำเนินการของลิฟต์ ( 9 ) และเกมฟุตบอล
หุ่นยนต์ ( 10 ) มันยังถูกใช้อย่างกว้างขวางสำหรับการสร้างแบบจำลองซัพพลายเชน ( 11 ) ,
กิจกรรมท่องเที่ยวรูปแบบการวิเคราะห์ ( 12 ) , การจัดสรรทรัพยากรแบบไดนามิก ( 13 ) , และเวลาชุด
ทำนาย ( 14 )ในวิทยานิพนธ์นี้เสนอวิธีเรียนเสริม
ควบคุมไฟจราจรแดง . ในด้านการเสริมการเรียนรู้ควบคุมมัก
เรียกว่าตัวแทนซึ่งถูกกําหนดเป็นสิ่งที่สามารถสังเกตพระราชบัญญัติ
สิ่งแวดล้อมและเมื่อมัน , และสิ่งแวดล้อมเป็นหัวข้อที่ถูกควบคุม
เป็นระบบที่ประกอบด้วยกลุ่มของตัวแทนที่โต้ตอบกับแต่ละอื่น ๆ เรียกว่า ระบบ multiagent
( MAS ) ( 15 ) การตัดสินใจในแต่ละขั้นตอน เจ้าหน้าที่ใช้เป็นการกระทำเพื่อ
สภาพแวดล้อมในการตอบสนองต่อสภาพปัจจุบันของสภาพแวดล้อม ภายใต้ผลของการกระทำนี้
, สภาพแวดล้อมที่อาจเปลี่ยนแปลงตามความเหมาะสมและผลในรัฐใหม่และ
ป้อนกลับสัญญาณที่เรียกว่ารางวัล ( หรือลงโทษ )ขึ้นอยู่กับสภาพใหม่และผลตอบแทน
เจ้าหน้าที่สามารถปรับนโยบายและเรียนรู้วิธีที่จะบรรลุเป้าหมายบางอย่างจากการโต้ตอบ
กับสิ่งแวดล้อม ( 16 ) วิธีการเรียนรู้นี้จะเรียกว่าเสริมการเรียนรู้ หนึ่งประโยชน์ของการใช้แรงเสริมการเรียนรู้
สำหรับโปรแกรมควบคุมที่สามารถเรียนรู้
เหมาะสมนโยบายการควบคุมโดยตรงจากปฏิสัมพันธ์ระหว่างตัวควบคุมและ
สิ่งแวดล้อม โดยไม่ทราบถึงรูปแบบของเรื่องที่ถูกควบคุม ใน
2 , เสริมวิธีเรียนดีสามารถหลีกเลี่ยงปัญหาที่เกี่ยวข้องกับการเขียนโปรแกรมแบบไดนามิก
อัลกอริทึมที่ใช้ในบางส่วนของที่มีอยู่ได้
3
การจราจรสัญญาณควบคุมระบบ นอกจากนี้ยังเป็นที่พึงประสงค์แนวคิดแบบจำลอง
การจราจรหลอดเลือดแดงปัญหาการควบคุมสัญญาณการสอนเสริมและทำให้กรอบ
ในกรณีที่แยกการควบคุมการจราจรสี่แยก ตัวแทนคือสัญญาณ
ควบคุมการจราจรและสภาพแวดล้อมที่ประกอบด้วยการจราจรอื่น ๆและปัจจัยที่เกี่ยวข้องกับเรขาคณิต
จนถึงสี่แยก ความยาวคิวล่าช้าหรือทั้งหมดสามารถใช้เป็นโทษ แนวคิด
ใช้เสริมการเรียนรู้เพื่อแยกสี่แยกจราจรจะแสดงใน
1 รูป
การแปล กรุณารอสักครู่..