The methodology presented in this p

The methodology presented in this paper was able to allocate time and location information to sequences that consist of activities and transport modes. To the best of our knowledge, activity and location allocations have not yet been integrated and optimized in previous research in order to achieve maximal rewards for a given activity–travel pattern. The methodology was based on the reinforcement learning algorithm which has been used to help the agent search the optimal path in the huge number of states of given environments.

During learning, the Q-learning agent tries some actions (i.e., output values) on its environment. Then, it is reinforced by receiving a scalar evaluation (the reward) of its actions. In a first implementation, it has been assumed that time allocation is dependent on the type of activity, the starting time of the activity and the time already spent at that activity. Also, the sequence of different activities determined the time allocation. Indeed, two sequences that contain a similar activity which has the same starting time and the same time spent at that activity, do not have to (and often will not) receive the same time allocation for that particular activity, as a result of the different sequence order in which other activities occur in both diaries. Technically, the agent will come up with another optimal path, a different policy chart and as a result also a different time allocation for both sequences. The location allocation problem was initially also solved in the assumption that the allocation is dependent on the travel time between two locations and on the transport mode that has been chosen to reach these locations. Also in this case, it is obvious that the sequence information of activities and transport modes largely determines the allocation.

Then, in a final implementation, the idea to integrate time and location allocation simultaneously, has been conceived. Dealing with both allocations simultaneously, leads to some important advantages. The first advantage is that the reward is not only maximized in either the time or the location facet, but the total reward in a day (i.e., the reward that arises from determining optimal start and end times and the cost that arises from travelling between locations) will be maximized by means of an integrated approach, which is obviously more realistic. The second major advantage is that flexible travel times between two locations can be incorporated. In the first time allocation implementation, it was impossible to achieve this, due to the lack of location information.

The most important drawback of this integrated implementation, is that the magnitude of the importance between the time and location relationship cannot be immediately observed from the data. To this end, a simple conversion function has been proposed and tested in the empirical section. Further research could for instance use other alternative techniques (for instance, stated preference) to better specify and understand this relationship. It was also mentioned above that the reward tables used in the experiments can be derived from frequency information that is present in the data. Alternatively, one may also use reward functions or utility functions which include more parameters when determining the utility of an action. As such, apart from the starting time and the duration of the activity, the activity location, the position of the activity within the activity schedule and the activity history are also incorporated in these utility functions. An initial approach has been shown in [22].

As mentioned before, the approach presented in this paper largely relies upon a fixed sequence of activities and transport modes. Alternatively, one may also let the reinforcement algorithm determine this activity–travel sequence autonomously. An initial framework for this has been proposed in Vanhulsel et al. [23] in an application where a key event (obtaining a driver’s license) is simulated. However, the approach presented only some initial results and needs further investigation. In addition to this, one may also want to investigate the use of currently unexplored relational reinforcement learning approaches [7], [8] and [9] in this domain, which will employ a relational regression technique in cooperation with a Q-learning algorithm to build a relational, generalized Q-function. As such, it combines techniques from reinforcement learning with generalization techniques from inductive logic programming.

During learning, the Q-learning agent tries some actions (i.e., output values) on its environment. Then, it is reinforced by receiving a scalar evaluation (the reward) of its actions. In a first implementation, it has been assumed that time allocation is dependent on the type of activity, the starting time of the activity and the time already spent at that activity. Also, the sequence of different activities determined the time allocation. Indeed, two sequences that contain a similar activity which has the same starting time and the same time spent at that activity, do not have to (and often will not) receive the same time allocation for that particular activity, as a result of the different sequence order in which other activities occur in both diaries. Technically, the agent will come up with another optimal path, a different policy chart and as a result also a different time allocation for both sequences. The location allocation problem was initially also solved in the assumption that the allocation is dependent on the travel time between two locations and on the transport mode that has been chosen to reach these locations. Also in this case, it is obvious that the sequence information of activities and transport modes largely determines the allocation.

Then, in a final implementation, the idea to integrate time and location allocation simultaneously, has been conceived. Dealing with both allocations simultaneously, leads to some important advantages. The first advantage is that the reward is not only maximized in either the time or the location facet, but the total reward in a day (i.e., the reward that arises from determining optimal start and end times and the cost that arises from travelling between locations) will be maximized by means of an integrated approach, which is obviously more realistic. The second major advantage is that flexible travel times between two locations can be incorporated. In the first time allocation implementation, it was impossible to achieve this, due to the lack of location information.

The most important drawback of this integrated implementation, is that the magnitude of the importance between the time and location relationship cannot be immediately observed from the data. To this end, a simple conversion function has been proposed and tested in the empirical section. Further research could for instance use other alternative techniques (for instance, stated preference) to better specify and understand this relationship. It was also mentioned above that the reward tables used in the experiments can be derived from frequency information that is present in the data. Alternatively, one may also use reward functions or utility functions which include more parameters when determining the utility of an action. As such, apart from the starting time and the duration of the activity, the activity location, the position of the activity within the activity schedule and the activity history are also incorporated in these utility functions. An initial approach has been shown in [22].

As mentioned before, the approach presented in this paper largely relies upon a fixed sequence of activities and transport modes. Alternatively, one may also let the reinforcement algorithm determine this activity–travel sequence autonomously. An initial framework for this has been proposed in Vanhulsel et al. [23] in an application where a key event (obtaining a driver’s license) is simulated. However, the approach presented only some initial results and needs further investigation. In addition to this, one may also want to investigate the use of currently unexplored relational reinforcement learning approaches [7], [8] and [9] in this domain, which will employ a relational regression technique in cooperation with a Q-learning algorithm to build a relational, generalized Q-function. As such, it combines techniques from reinforcement learning with generalization techniques from inductive logic programming.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

วิธีการนำเสนอในเอกสารนี้ได้จัดสรรข้อมูลเวลาและสถานลำดับที่ประกอบด้วยกิจกรรม และวิธีการขนส่ง กับความรู้ของเรา การปันส่วนกิจกรรมและสถานได้ยังไม่ได้รวม และเหมาะในการวิจัยก่อนหน้านี้เพื่อให้บรรลุผลตอบแทนสูงสุดสำหรับรูปแบบกิจกรรม – การเดินทางที่กำหนด ระเบียบวิธีที่เป็นไปตามขั้นตอนวิธีการเรียนรู้เสริมซึ่งถูกใช้เพื่อช่วยตัวแทนค้นหาเส้นทางเหมาะสมที่สุดในจำนวนมากของอเมริกาของ สภาพแวดล้อมให้ในระหว่างเรียน ตัวแทนเรียนรู้ Q พยายามดำเนินการบางอย่าง (เช่น ออกค่า) ในสภาพแวดล้อม แล้ว มันจะเสริม ด้วยการรับการประเมินแบบสเกลา (สะสม) ของการดำเนินการของ ในการดำเนินการแรก มันสันนิษฐานนั้นจะขึ้นอยู่กับชนิดของกิจกรรม เวลาเริ่มต้นของกิจกรรม และเวลาที่ใช้แล้วในกิจกรรมนี้ ยัง ลำดับของกิจกรรมต่าง ๆ กำหนดการปันส่วนเวลา แน่นอน ลำดับที่สองที่ประกอบด้วยกิจกรรมคล้ายกันที่มีว่าเวลาเริ่มต้นและเวลาเดียวกันที่ใช้ในกิจกรรม ไม่มี (และมักจะไม่) ได้รับการปันส่วนเวลาเดียวกันสำหรับกิจกรรมเฉพาะ จากใบสั่งต่าง ๆ ลำดับกิจกรรมอื่น ๆ เกิดขึ้นในทั้งสองไดอารีส์ เทคนิค แทนจะเกิดขึ้นอื่นเหมาะสมเส้น ทาง ผังนโยบายแตกต่างกัน และ เป็นผลยังต่าง ๆ การปันส่วนเวลาสำหรับลำดับทั้งสอง ปัญหาการจัดสรรตำแหน่งเริ่มต้นยัง แก้ไขในอัสสัมชัญที่การปันส่วนขึ้นอยู่ กับเวลาเดินทางระหว่างสถานสอง และโหมดการขนส่งที่ได้รับเลือกถึงสถานเหล่านี้ นอกจากนี้ ในกรณีนี้ ได้ชัดเจนว่า ข้อมูลลำดับของกิจกรรมและวิธีการขนส่งส่วนใหญ่กำหนดการปันส่วนแล้ว ในการดำเนินการขั้นสุดท้าย ความคิดที่จะรวมการปันส่วนเวลาและสถานพร้อมกัน มีการรู้สึก จัดการกับการปันส่วนทั้งสองพร้อมกัน นำไปสู่ข้อได้เปรียบสำคัญ ประโยชน์แรกคือ รางวัลไม่เพียงขยายใหญ่สุดในเวลาหรือพได้ตั้ง แต่จะขยายใหญ่สุดรางวัลรวมในหนึ่งวัน (เช่น รางวัลที่เกิดจากการกำหนดเริ่มต้นที่ดีที่สุดและเวลาสิ้นสุดและต้นทุนที่เกิดขึ้นจากการเดินทางระหว่างสถาน) โดยการรวมวิธีการ ซึ่งเห็นได้ชัดยิ่ง ประโยชน์หลักที่สองคือ สามารถถูกรวมเวลาเดินทางแบบยืดหยุ่นระหว่างสถานที่สองแห่ง ในการดำเนินการปันส่วนแรกของเวลา มันเป็นไปไม่ได้เพื่อให้บรรลุนี้ เนื่องจากมีข้อมูลตำแหน่งที่ตั้งข้อเสียเปรียบสำคัญที่สุดของงานนี้รวม เป็นที่ขนาดของความสำคัญระหว่างความสัมพันธ์ของเวลาและสถานไม่สามารถทันทีสังเกตจากข้อมูล เพื่อการนี้ ฟังก์ชันแปลงง่ายถูกนำเสนอ และทดสอบในส่วนรวม วิจัยเพิ่มเติมเช่นใช้เทคนิคทางเลือกอื่น ๆ (เช่น ระบุชอบ) เพื่อระบุที่ดีขึ้น และเข้าใจความสัมพันธ์นี้ มันถูกยังกล่าวว่า ตารางสะสมที่ใช้ในการทดลองสามารถได้มาจากข้อมูลความถี่ที่มีอยู่ในข้อมูล หรือ หนึ่งอาจใช้รางวัลฟังก์ชันหรือฟังก์ชันอรรถประโยชน์ซึ่งรวมถึงพารามิเตอร์กำหนดอรรถประโยชน์ของการดำเนิน การ เช่น นอกเหนือจากเวลาเริ่มต้นและระยะเวลาของกิจกรรม สถานจัดกิจกรรม ตำแหน่งของกิจกรรมภายในกิจกรรม กำหนดการและประวัติของกิจกรรมจะยังรวมอยู่ในฟังก์ชันอรรถประโยชน์เหล่านี้ วิธีการเริ่มต้นได้รับการแสดงใน [22]ดังกล่าวก่อน วิธีการนำเสนอในเอกสารนี้เป็นส่วนใหญ่อาศัยตามลำดับคงของกิจกรรมและวิธีการขนส่ง หรือ หนึ่งอาจให้เสริมสร้างอัลกอริทึมกำหนดลำดับกิจกรรม – เดินทางนี้ autonomously กรอบการเริ่มต้นนี้ได้รับการเสนอชื่อใน Vanhulsel et al. [23] ในโปรแกรมประยุกต์ที่มีจำลองเหตุการณ์ที่สำคัญ (รับใบขับขี่) อย่างไรก็ตาม วิธีการแสดงเฉพาะผลลัพธ์บางอย่างเริ่มต้น และต้องสอบสวนเพิ่มเติม นอกจากนี้ หนึ่งอาจต้องการตรวจสอบการใช้ unexplored ในปัจจุบันเสริมเชิงเรียนรู้แนวทาง [7], [8] [9] และในโดเมนนี้ ซึ่งจะใช้เทคนิคการถดถอยเชิงร่วมกับอัลกอริทึม Q-เรียนรู้การสร้างความสัมพันธ์ ฟังก์ชัน Q ที่ตั้งค่าทั่วไปได้ เช่น จะรวมเทคนิคเสริมในการเรียนรู้ ด้วยเทคนิค generalization จากโปรแกรมตรรกะเชิงอุปนัย

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

วิธีการที่นำเสนอในบทความนี้ก็สามารถที่จะจัดสรรเวลาและข้อมูลสถานที่ในลำดับที่ประกอบด้วยกิจกรรมและรูปแบบการขนส่ง ที่ดีที่สุดของความรู้กิจกรรมและการจัดสรรสถานที่ตั้งของเราได้รับยังไม่บูรณาการและเพิ่มประสิทธิภาพในการวิจัยก่อนหน้านี้ในการสั่งซื้อเพื่อให้บรรลุผลตอบแทนสูงสุดสำหรับรูปแบบกิจกรรมการท่องเที่ยวที่ได้รับ วิธีการก็ขึ้นอยู่กับการเสริมแรงขั้นตอนวิธีการเรียนรู้ที่ได้ถูกนำมาใช้เพื่อช่วยให้ตัวแทนการค้นหาเส้นทางที่ดีที่สุดในจำนวนมากของรัฐของสภาพแวดล้อมที่ได้รับ. ในช่วงการเรียนรู้ตัวแทน Q-learning พยายามกระทำบางอย่าง (เช่นค่าการส่งออก) ในตัวของมัน สภาพแวดล้อม จากนั้นก็จะเสริมโดยได้รับการประเมินผลสเกลาร์ (รางวัล) ของการกระทำของตน ในการดำเนินการครั้งแรกจะได้รับการสันนิษฐานว่าการจัดสรรเวลานั้นจะขึ้นอยู่กับประเภทของกิจกรรมที่เวลาเริ่มต้นของกิจกรรมและเวลาที่ใช้แล้วในกิจกรรมที่ นอกจากนี้ลำดับของกิจกรรมต่างๆที่กำหนดจัดสรรเวลา อันที่จริงลำดับสองที่มีกิจกรรมที่คล้ายกันซึ่งมีเวลาเริ่มต้นเดียวกันและเวลาเดียวกันที่ใช้ในกิจกรรมที่ไม่ต้อง (และมักจะไม่ได้) ได้รับการจัดสรรเวลาเดียวกันกิจกรรมโดยเฉพาะอย่างยิ่งที่เป็นผลมาจากการที่แตกต่างกัน การสั่งซื้อลำดับที่กิจกรรมอื่น ๆ ที่เกิดขึ้นในไดอารี่ทั้ง เทคนิค, ตัวแทนจะเกิดขึ้นกับเส้นทางที่ดีที่สุดอีกแผนภูมินโยบายที่แตกต่างกันและเป็นผลนอกจากนี้ยังมีการจัดสรรเวลาที่แตกต่างกันสำหรับลำดับทั้งสอง ปัญหาการจัดสรรสถานที่ได้รับการแก้ไขในขั้นต้นยังอยู่ในสมมติฐานที่ว่าการจัดสรรจะขึ้นอยู่กับระยะเวลาการเดินทางระหว่างสองสถานที่และโหมดการขนส่งที่ได้รับเลือกให้ไปถึงสถานที่เหล่านี้ นอกจากนี้ในกรณีนี้มันเป็นที่ชัดเจนว่าข้อมูลลำดับของกิจกรรมและรูปแบบการขนส่งส่วนใหญ่จะกำหนดจัดสรร. จากนั้นในการดำเนินการขั้นสุดท้ายความคิดที่จะบูรณาการการจัดสรรเวลาและสถานที่พร้อมกันได้รับการตั้งครรภ์ การรับมือกับการจัดสรรทั้งสองพร้อมกันนำไปสู่การได้เปรียบที่สำคัญบางอย่าง ประโยชน์แรกที่ได้รับรางวัลที่ไม่ได้ขยายเฉพาะในทั้งเวลาหรือในแง่สถานที่ แต่รางวัลรวมในหนึ่งวัน (เช่นรางวัลที่เกิดขึ้นจากการกำหนดจุดเริ่มต้นที่ดีที่สุดและเวลาสิ้นสุดและค่าใช้จ่ายที่เกิดขึ้นจากการเดินทางระหว่างสถานที่ ) จะขยายโดยใช้วิธีการแบบบูรณาการซึ่งจะเห็นได้ชัดสมจริงมากขึ้น ได้เปรียบที่สำคัญที่สองคือการเดินทางครั้งที่มีความยืดหยุ่นระหว่างสองสถานที่สามารถรวม ในการดำเนินการเป็นครั้งแรกที่การจัดสรรมันเป็นไปไม่ได้ที่จะบรรลุเป้าหมายนี้เกิดจากการขาดข้อมูลสถานที่. ข้อเสียเปรียบที่สำคัญที่สุดของการดำเนินงานแบบบูรณาการนี้ก็คือว่าขนาดของความสำคัญในระหว่างช่วงเวลาและความสัมพันธ์ของสถานที่ที่ไม่สามารถสังเกตเห็นได้ทันทีจาก ข้อมูล ด้วยเหตุนี้ฟังก์ชั่นการแปลงง่ายได้รับการเสนอและผ่านการทดสอบในส่วนของการทดลอง นอกจากนี้การวิจัยเช่นอาจใช้เทคนิคทางเลือกอื่น ๆ (เช่นการตั้งค่าที่ระบุไว้) ที่ดีกว่าการระบุและเข้าใจความสัมพันธ์นี้ มันก็ยังกล่าวถึงข้างต้นที่ตารางรางวัลที่ใช้ในการทดลองจะได้รับจากข้อมูลความถี่ที่มีอยู่ในข้อมูล อีกทางเลือกหนึ่งที่อาจจะใช้ฟังก์ชั่นได้รับรางวัลหรือฟังก์ชั่นยูทิลิตี้ซึ่งรวมถึงค่าพารามิเตอร์ที่มากขึ้นเมื่อพิจารณาประโยชน์ของการกระทำ เช่นนอกเหนือจากเวลาเริ่มต้นและระยะเวลาของกิจกรรมที่ตั้งกิจกรรมตำแหน่งของกิจกรรมภายในตารางกิจกรรมและประวัติกิจกรรมจะรวมยังอยู่ในฟังก์ชั่นเหล่านี้ยูทิลิตี้ วิธีการเริ่มต้นได้รับการแสดงใน [22]. ดังกล่าวก่อนวิธีการที่นำเสนอในบทความนี้ส่วนใหญ่ขึ้นอยู่กับลำดับคงที่ของกิจกรรมและรูปแบบการขนส่ง อีกทางเลือกหนึ่งยังอาจช่วยให้ขั้นตอนวิธีการเสริมแรงกำหนดลำดับการเดินทางกิจกรรมนี้ด้วยตนเอง กรอบการเริ่มต้นสำหรับการนี้ได้รับการเสนอใน Vanhulsel et al, [23] ในโปรแกรมประยุกต์ที่เป็นเหตุการณ์สำคัญ (ได้รับใบอนุญาตขับรถ) จะถูกจำลอง แต่วิธีการที่นำเสนอเพียงบางส่วนผลเบื้องต้นและความต้องการตรวจสอบต่อไป นอกจากนี้แล้วยังอาจต้องการที่จะตรวจสอบการใช้การเสริมแรงเชิงสัมพันธ์การสำรวจในปัจจุบันวิธีการเรียนรู้ [7] [8] และ [9] ในโดเมนนี้ซึ่งจะจ้างเทคนิคการถดถอยเชิงสัมพันธ์ในความร่วมมือกับอัลกอริทึม Q-การเรียนรู้ ที่จะสร้างความสัมพันธ์ทั่วไป Q-ฟังก์ชั่น เช่นนี้มันรวมเทคนิคการเสริมแรงจากการเรียนรู้ด้วยเทคนิคทั่วไปจากโปรแกรมตรรกะอุปนัย

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

วิธีการที่นำเสนอในงานวิจัยนี้ สามารถจัดสรรเวลาและข้อมูลสถานที่ลำดับที่ประกอบด้วยกิจกรรมและโหมดการขนส่ง เพื่อที่ดีที่สุดของความรู้ของเรา กิจกรรมและการจัดสรรสถานที่ยังไม่มีการบูรณาการและเพิ่มประสิทธิภาพในการวิจัยก่อนหน้านี้เพื่อให้บรรลุรางวัลสูงสุดสำหรับกิจกรรมนั้นๆ โดยเดินทางในรูปแบบวิธีการที่ใช้เสริมการเรียนรู้ขั้นตอนวิธีที่ถูกใช้เพื่อช่วยให้ตัวแทนการค้นหาเส้นทางที่เหมาะสมในตัวเลขขนาดใหญ่ของรัฐได้รับจากสภาพแวดล้อม .

ระหว่างการเรียนรู้ q-learning เจ้าหน้าที่พยายามกระทำบางอย่าง ( เช่น ออกค่า ) ในสภาพแวดล้อมของ จากนั้นก็เสริมด้วยการรับด้านการประเมินผล ( รางวัล ) การกระทำของ ในการใช้งานครั้งแรกมันถูกสันนิษฐานว่า การจัดสรรเวลา ขึ้นอยู่กับชนิดของกิจกรรม เริ่มเวลาของกิจกรรม และถึงเวลาแล้วที่ใช้ในกิจกรรมที่ นอกจากนี้ลำดับของกิจกรรมต่าง ๆ กำหนดเวลาจัดสรรงบประมาณ จริงๆ สองลำดับที่ประกอบด้วยกิจกรรมที่คล้ายกันซึ่งมีเหมือนกันเวลาเริ่มต้นและเวลาเดียวกันที่ใช้ในกิจกรรมที่ไม่ต้อง ( และมักจะไม่ ) ได้รับจัดสรรเวลาเดียวกัน สำหรับกิจกรรมที่เฉพาะเจาะจง ผลของคำสั่งในลำดับต่าง ๆซึ่งกิจกรรมอื่นๆ เกิดขึ้นได้ทั้งในบันทึก ในทางเทคนิคแล้ว ตัวแทนจะมาอัพอีกที่เหมาะสมกับเส้นทางที่แตกต่างกันนโยบายกราฟและผลยังแตกต่างกัน การจัดสรรเวลาทั้งลำดับสถานที่แรกในการแก้ไขปัญหาและสมมติฐานที่การจัดสรรขึ้นอยู่กับเวลาเดินทางระหว่างสองสถานที่และในโหมดการขนส่งที่ได้รับเลือกถึงสถานที่เหล่านี้ นอกจากนี้ในกรณีนี้ มันชัดเจนว่าข้อมูลลำดับของกิจกรรมต่างๆและโหมดการขนส่ง ส่วนใหญ่จะกำหนดจัดสรร

แล้วในการใช้งานขั้นสุดท้ายความคิดที่จะรวมเวลาและจัดสรรตำแหน่งพร้อมกัน ได้รู้สึก การจัดการกับการจัดสรรพร้อมกัน ทำให้เกิดข้อดีที่สำคัญบางอย่าง ประโยชน์แรกคือ รางวัลไม่เพียงขยายทั้งในแง่เวลา หรือสถานที่ แต่รวมรางวัลในวัน ( เช่นรางวัลที่เกิดจากการเริ่มต้นที่เหมาะสมและเวลาสิ้นสุดและต้นทุนที่เกิดขึ้นจากการเดินทางระหว่างสถานที่ ) จะถูกขยายโดยการสอนแบบบูรณาการ ซึ่งจะเห็นได้ชัดเจนกว่า ประโยชน์หลักสองคือความยืดหยุ่นเดินทางครั้งระหว่างสองสถานที่สามารถจัดตั้งขึ้น ในการใช้ครั้งแรก มันเป็นไปไม่ได้เพื่อให้บรรลุนี้เนื่องจากขาดข้อมูลสถานที่

ข้อเสียที่สำคัญที่สุดของการใช้ คือ ขนาดของความสำคัญ ระหว่าง เวลา และสถานที่ที่ไม่ความสัมพันธ์ทันทีสังเกตได้จากข้อมูล จบเรื่องนี้ ฟังก์ชันการแปลงง่ายมีการเสนอ และทดสอบในส่วนของเชิงประจักษ์การวิจัยได้ใช้เทคนิคอื่น เช่น ( ตัวอย่าง ด้วยวิธี Stated Preference ) ดีขึ้น และเข้าใจความสัมพันธ์นี้ มันเป็นยังกล่าวว่า รางวัลที่ตารางที่ใช้ในการทดลองได้มาจากความถี่ของข้อมูลที่อยู่ในข้อมูล อีกวิธีหนึ่งคือหนึ่งอาจใช้ฟังก์ชันหรือฟังก์ชันอรรถประโยชน์รางวัลซึ่งรวมถึงพารามิเตอร์เพิ่มเติมเมื่อพิจารณาประโยชน์ของการกระทำ เช่น นอกจากเวลาเริ่มต้นและระยะเวลาของกิจกรรม สถานที่ กิจกรรม ตำแหน่งของกิจกรรมภายในตารางกิจกรรมและประวัติกิจกรรมยังรวมอยู่ในฟังก์ชันอรรถประโยชน์เหล่านี้วิธีการเริ่มต้นได้ถูกแสดงใน [ 22 ] .

ดังกล่าวก่อน วิธีการที่นำเสนอในบทความนี้ส่วนใหญ่อาศัยถาวร ลำดับของกิจกรรมและโหมดการขนส่ง อีกวิธีหนึ่งคือ หนึ่งสามารถให้การเสริมแรงขั้นตอนวิธีการตรวจสอบกิจกรรมนี้–ท่องเที่ยวลำดับอัตโนมัติ . กรอบเริ่มต้นนี้ได้ถูกนำเสนอใน vanhulsel et al .[ 23 ] ซึ่งเป็นเหตุการณ์สำคัญในใบสมัคร ( ขอรับใบขับขี่ ) จำลอง อย่างไรก็ตาม วิธีการนำเสนอเพียงบางส่วน ผลเบื้องต้นและต้องทำการสืบสวนต่อไป นอกจากนี้ , หนึ่งอาจต้องการที่จะศึกษาการใช้การเสริมแรงในการเรียนรู้วิธีการ unexplored สัมพันธ์ [ 7 ] , [ 8 ] และ [ 9 ] ในโดเมนนี้ซึ่งจะใช้เทคนิคเชิงสัมพันธ์ความร่วมมือกับ q-learning ขั้นตอนวิธีการสร้างสัมพันธ์แบบ q-function . เช่น มันรวมเทคนิคจากการเรียนรู้แบบเสริมกำลังด้วยการเทคนิคจากการโปรแกรมตรรกะเชิงอุปนัย

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.