OVERVIEW OF THE PROPOSED METHODOLOG

OVERVIEW OF THE PROPOSED METHODOLOGY
As one of the key elements of artificial intelligence, reinforcement learning has been
successfully applied to control problems such as elevator operation (9) and robot soccer
games (10). It has also been extensively used for supply chain modeling (11),
activity-travel pattern analysis (12), dynamic resource allocation (13), and time series
prediction (14). In this dissertation, a reinforcement learning method is proposed for
arterial traffic signal control. In the field of reinforcement learning, the controller is often
referred to as agent, which is formally defined as anything that can observe the
environment and act upon it, and the environment is the subject to be controlled. A
system consists of a group of agents that interact with each other is called a multiagent
system (MAS) (15 ). At each decision step, the agent applies an action to the
environment in response to the environment’s current state. Under the effect of this
action, the environment may change accordingly and results in a new state and a
feedback signal called reward (or penalty). Based on the new state and the reward, the
agent can adjust its policy and learn how to achieve a certain goal from the interactions
with the environment (16). This learning approach is called reinforcement learning. One
advantage of using the reinforcement learning for control applications is that it can learn
the optimal control policy directly from interactions between the controller and the
environment without knowing the underlying model of the subject to be controlled. In
addition, the reinforcement learning method can well circumvent the problems
associated with dynamic programming algorithms used in some of the existing adaptive
3
traffic signal control systems. Also, it is conceptually desirable to model arterial traffic
signal control problem using reinforcement learning and the MAS framework.
In the case of isolated intersection traffic control, the agent is the traffic signal
controller and the environment consists of all other traffic and geometry factors related
to the intersection. Queue length or total delay can be used as the penalty. The concept
of using reinforcement learning for isolated intersection traffic control is shown in
Figure 1.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ภาพรวมของวิธีการนำเสนอมีการเรียนเสริมเป็นหนึ่งองค์ประกอบสำคัญของปัญญาประดิษฐ์นำไปใช้ควบคุมปัญหาเช่นลิฟท์การดำเนินการ (9) และฟุตบอลหุ่นยนต์เกมส์ (10) มันยังถูกอย่างกว้างขวางใช้ในห่วงโซ่อุปทาน (11), การสร้างโมเดลกิจกรรมในรูปแบบวิเคราะห์ (12), การจัดสรรทรัพยากรแบบไดนามิก (13), และชุดข้อมูลเวลาคาดเดา (14) ในวิทยานิพนธ์นี้ เสริมสร้างการเรียนรู้วิธีการนำเสนอสำหรับควบคุมสัญญาณจราจรต้ว ในด้านการเสริมสร้างการเรียนรู้ ตัวควบคุมมักจะเป็นเรียกว่าเป็นตัวแทน ซึ่งมีกำหนดอย่างเป็นกิจจะลักษณะเป็นสิ่งที่สามารถสังเกตการสภาพแวดล้อม และระหว่างนั้น และสิ่งแวดล้อมเป็นเรื่องที่จะควบคุม Aระบบประกอบด้วยกลุ่มของตัวแทนที่โต้ตอบกันเรียกว่าเป็น multiagentระบบ (มาส) (15) ในแต่ละขั้นตอนการตัดสินใจ ตัวแทนการใช้การดำเนินการเพื่อการสภาพแวดล้อมในสถานะปัจจุบันของสิ่งแวดล้อม ภายใต้ลักษณะพิเศษนี้การกระทำ สิ่งแวดล้อมอาจเปลี่ยนแปลงตาม และเกิดสิ่งใหม่และผลป้อนกลับสัญญาณเรียกว่ารางวัล (หรือลงโทษ) รางวัล และรัฐใหม่ตัวแทนสามารถปรับนโยบาย และเรียนรู้วิธีการบรรลุเป้าหมายบางอย่างจากการโต้ตอบกับสิ่งแวดล้อม (16) วิธีการเรียนรู้นี้เรียกว่าเรียนรู้เสริมสร้าง หนึ่งประโยชน์ของการใช้เสริมสำหรับการควบคุมการเรียนรู้คือ ว่า มันสามารถเรียนรู้นโยบายการควบคุมสูงสุดโดยตรงจากการโต้ตอบระหว่างตัวควบคุมและสภาพแวดล้อมโดยไม่ทราบแบบเน้นเรื่องการควบคุม ในเพิ่ม เสริมวิธีการเรียนรู้สามารถดีหลีกเลี่ยงปัญหาเกี่ยวข้องกับไดนามิกเขียนอัลกอริทึมใช้ในบางที่มีอยู่เหมาะสม3ระบบควบคุมสัญญาณจราจร เป็นทางแนวคิดสมควรรุ่นต้วจราจรปัญหาการควบคุมสัญญาณโดยใช้การเรียนรู้เสริมสร้างและกรอบงานของมาสในกรณีที่แยกสี่แยกจราจรควบคุม ตัวแทนเป็นสัญญาณจราจรควบคุมและสิ่งแวดล้อมประกอบด้วยทั้งหมดจราจรและเรขาคณิตปัจจัยอื่น ๆ ที่เกี่ยวข้องการแยก สามารถใช้เลื่อนคิวยาวหรือรวมเป็นเมลล์ แนวความคิดใช้เสริมสร้าง เรียนรู้ควบคุมจราจรสี่แยกแยกจะแสดงในรูปที่ 1

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ภาพรวมของระเบียบวิธีการนำเสนอ
ในฐานะที่เป็นหนึ่งในองค์ประกอบที่สำคัญของปัญญาประดิษฐ์, การเรียนรู้เสริมที่ได้รับการ
ใช้ประสบความสำเร็จในการควบคุมปัญหาเช่นการดำเนินงานลิฟท์ (9) และหุ่นยนต์ฟุตบอล
เกม (10) ก็ยังได้รับใช้อย่างกว้างขวางสำหรับการสร้างแบบจำลองห่วงโซ่อุปทาน (11)
กิจกรรมเดินทางวิเคราะห์รูปแบบ (12) การจัดสรรทรัพยากรแบบไดนามิก (13) และเวลาที่ชุด
คำทำนาย (14) ในวิทยานิพนธ์นี้เป็นวิธีการเรียนรู้การเสริมแรงจะเสนอสำหรับ
การควบคุมสัญญาณไฟจราจรแดง ในด้านการเรียนรู้เสริมควบคุมมักจะถูก
เรียกว่าเป็นตัวแทนซึ่งถูกกำหนดอย่างเป็นทางการเป็นสิ่งที่สามารถสังเกต
สภาพแวดล้อมและปฏิบัติตามมันและสภาพแวดล้อมที่เป็นเรื่องที่มีการควบคุม
ระบบประกอบด้วยกลุ่มของตัวแทนที่โต้ตอบกับแต่ละอื่น ๆ เรียกว่า multiagent
ระบบ (MAS) (15) ในแต่ละขั้นตอนการตัดสินใจของตัวแทนนำไปใช้ดำเนินการเพื่อให้
สภาพแวดล้อมในการตอบสนองของรัฐในปัจจุบันสภาพแวดล้อม ภายใต้ผลของการนี้
การกระทำของสภาพแวดล้อมที่อาจมีการเปลี่ยนแปลงตามความเหมาะสมและส่งผลให้อยู่ในสภาพใหม่และ
สัญญาณการตอบรับที่เรียกว่ารางวัล (หรือโทษ) ขึ้นอยู่กับรัฐใหม่และผลตอบแทนที่
ตัวแทนสามารถปรับนโยบายและเรียนรู้วิธีการที่จะบรรลุเป้าหมายบางอย่างจากการมีปฏิสัมพันธ์
กับสภาพแวดล้อม (16) วิธีการเรียนรู้นี้จะเรียกว่าการเรียนรู้การเสริมแรง หนึ่งใน
ประโยชน์ของการใช้เสริมการเรียนรู้สำหรับควบคุมการใช้งานก็คือว่ามันสามารถเรียนรู้
นโยบายการควบคุมที่ดีที่สุดโดยตรงจากการมีปฏิสัมพันธ์ระหว่างตัวควบคุมและ
สภาพแวดล้อมโดยไม่ทราบว่ารูปแบบพื้นฐานของเรื่องที่จะควบคุม ใน
นอกจากนี้การเรียนรู้วิธีการเสริมแรงดีสามารถหลีกเลี่ยงปัญหา
ที่เกี่ยวข้องกับขั้นตอนวิธีการเขียนโปรแกรมแบบไดนามิกที่ใช้ในบางส่วนของการปรับตัวที่มีอยู่
3
ระบบควบคุมสัญญาณไฟจราจร นอกจากนี้ก็เป็นที่พึงปรารถนาแนวคิดในการจำลองการจราจรแดง
ปัญหาการควบคุมสัญญาณโดยใช้การเรียนรู้และเสริมกรอบ MAS.
ในกรณีที่มีการควบคุมการจราจรสี่แยกที่แยกตัวแทนเป็นสัญญาณไฟจราจร
ควบคุมและสิ่งแวดล้อมประกอบด้วยการจราจรอื่น ๆ ทั้งหมดและปัจจัยที่เกี่ยวข้องกับรูปทรงเรขาคณิต
ที่จะ สี่แยก ความยาวคิวหรือความล่าช้าทั้งหมดสามารถนำมาใช้เป็นโทษ แนวความคิด
ของการใช้เสริมการเรียนรู้สำหรับการควบคุมการจราจรที่แยกสี่แยกแสดงใน
รูปที่ 1

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ภาพรวมของการนำเสนอวิธีการ
เป็นหนึ่งในองค์ประกอบหลักของปัญญาประดิษฐ์ เสริมการเรียนรู้ได้รับ
ใช้เรียบร้อยแล้วเพื่อการควบคุมปัญหาเช่นการดำเนินการของลิฟต์ ( 9 ) และเกมฟุตบอล
หุ่นยนต์ ( 10 ) มันยังถูกใช้อย่างกว้างขวางสำหรับการสร้างแบบจำลองซัพพลายเชน ( 11 ) ,
กิจกรรมท่องเที่ยวรูปแบบการวิเคราะห์ ( 12 ) , การจัดสรรทรัพยากรแบบไดนามิก ( 13 ) , และเวลาชุด
ทำนาย ( 14 )ในวิทยานิพนธ์นี้เสนอวิธีเรียนเสริม
ควบคุมไฟจราจรแดง . ในด้านการเสริมการเรียนรู้ควบคุมมัก
เรียกว่าตัวแทนซึ่งถูกกําหนดเป็นสิ่งที่สามารถสังเกตพระราชบัญญัติ
สิ่งแวดล้อมและเมื่อมัน , และสิ่งแวดล้อมเป็นหัวข้อที่ถูกควบคุม
เป็นระบบที่ประกอบด้วยกลุ่มของตัวแทนที่โต้ตอบกับแต่ละอื่น ๆ เรียกว่า ระบบ multiagent
( MAS ) ( 15 ) การตัดสินใจในแต่ละขั้นตอน เจ้าหน้าที่ใช้เป็นการกระทำเพื่อ
สภาพแวดล้อมในการตอบสนองต่อสภาพปัจจุบันของสภาพแวดล้อม ภายใต้ผลของการกระทำนี้
, สภาพแวดล้อมที่อาจเปลี่ยนแปลงตามความเหมาะสมและผลในรัฐใหม่และ
ป้อนกลับสัญญาณที่เรียกว่ารางวัล ( หรือลงโทษ )ขึ้นอยู่กับสภาพใหม่และผลตอบแทน
เจ้าหน้าที่สามารถปรับนโยบายและเรียนรู้วิธีที่จะบรรลุเป้าหมายบางอย่างจากการโต้ตอบ
กับสิ่งแวดล้อม ( 16 ) วิธีการเรียนรู้นี้จะเรียกว่าเสริมการเรียนรู้ หนึ่งประโยชน์ของการใช้แรงเสริมการเรียนรู้
สำหรับโปรแกรมควบคุมที่สามารถเรียนรู้
เหมาะสมนโยบายการควบคุมโดยตรงจากปฏิสัมพันธ์ระหว่างตัวควบคุมและ
สิ่งแวดล้อม โดยไม่ทราบถึงรูปแบบของเรื่องที่ถูกควบคุม ใน
2 , เสริมวิธีเรียนดีสามารถหลีกเลี่ยงปัญหาที่เกี่ยวข้องกับการเขียนโปรแกรมแบบไดนามิก
อัลกอริทึมที่ใช้ในบางส่วนของที่มีอยู่ได้
3
การจราจรสัญญาณควบคุมระบบ นอกจากนี้ยังเป็นที่พึงประสงค์แนวคิดแบบจำลอง
การจราจรหลอดเลือดแดงปัญหาการควบคุมสัญญาณการสอนเสริมและทำให้กรอบ
ในกรณีที่แยกการควบคุมการจราจรสี่แยก ตัวแทนคือสัญญาณ
ควบคุมการจราจรและสภาพแวดล้อมที่ประกอบด้วยการจราจรอื่น ๆและปัจจัยที่เกี่ยวข้องกับเรขาคณิต
จนถึงสี่แยก ความยาวคิวล่าช้าหรือทั้งหมดสามารถใช้เป็นโทษ แนวคิด
ใช้เสริมการเรียนรู้เพื่อแยกสี่แยกจราจรจะแสดงใน
1 รูป

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.