obtaining a sample of test subjects

obtaining a sample of test subjects that would faithfully represent
the real user population is virtually impossible. In
addition to the biased sample problem, conducting a user
study to evaluate a large scale video recommendation system
has several other disadvantages.
First, even given a very detailed set of instructions, it
would be difficult for the test subject to judge what would
be the best related video to suggest, since this decision is
very subjective and may be influenced by factors such as
user demographics, geographic location, emotional state and
cultural preferences. Even for relatively objective evaluation
tasks, such as document retrieval [6] the inter-judge agreement
is low. We expect the agreement rate to be even lower
for rating video relatedness, which is highly subjective.
Second, as research shows [22], there is often a disconnect
between what the subjects really want to watch and
what they would like to have watched. This leads to a situation
where there is little correlation between the explicitly
solicited judgments and the observed user behavior in the
system.
Therefore, in the next sections we evaluate the performance
of the proposed methods using user simulations and
a large scale online experiment, and forego evaluation of our
methods on manually labeled data.
7.1.2 Metrics
Given the user-centric evaluation method of our system,
in this section we address the question of what is the most
suitable evaluation metric in this particular setting.
One possible choice of a metric is a click-through rate on
the related video suggestions presented to the user by the
system. However, research shows that the click-through rate
can be highly biased by factors such as position and attractiveness
of the presentation [32]. We expect this bias to be
very strong in our setting, where the results are presented in
ranked order, and each related result is presented as a small
snapshot from the video.
Another choice of metric is based on the main functionality
of the related video suggestion system, and it measures
the watch times of the related videos. Intuitively, a
systematic improvement in functionality will generate more
relevant suggestions, which will result in a higher user engagement
with the system, and lead to longer watch times
of the suggested related videos.
Following this intuition, we choose a watch time metric,
which estimates how much time the user spends watching
videos during the session following a click on a related video
suggestion. While the watch time metric has its limitations
(e.g. it might prefer videos with longer watch times), it is

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

รับตัวอย่างของหัวข้อทดสอบที่จะ faithfully แทนประชากรผู้ใช้จริงไม่จริง ในนอกจากนี้ปัญหาอย่าง biased ทำผู้ใช้ศึกษาเพื่อประเมินผลระบบแนะนำวิดีโอขนาดใหญ่มีข้อเสียอื่น ๆ หลายครั้งแรก ได้รับชุดคำสั่ง รายละเอียดมากนั้นจะยากที่จะทดสอบมีผู้พิพากษาที่จะเป็นส่วนที่เกี่ยวข้องกับวิดีโอแนะนำ เนื่องจากการตัดสินใจนี้ตามอัตวิสัยมาก และอาจเป็นผลจากปัจจัยต่าง ๆ เช่นผู้ใช้ข้อมูลประชากร ที่ตั้งทางภูมิศาสตร์ สถานะทางอารมณ์ และลักษณะทางวัฒนธรรม สำหรับการประเมินวัตถุประสงค์ค่อนข้างงาน เช่นเอกสารข้อตกลงระหว่างผู้พิพากษาเรียก [6]ต่ำ เราคาดว่าอัตราตกลงจะต่ำลงอันดับวิดีโอ relatedness ซึ่งเป็นอย่างมากตามอัตวิสัยประการที่สอง เป็นการแสดงงานวิจัย [22], มีมักจะเป็นการยกระหว่างที่เรื่องอยากดู และพวกเขาต้องการได้ดู นี้นำไปสู่สถานการณ์ที่มีความสัมพันธ์เพียงเล็กน้อยระหว่างการอย่างชัดเจนร้องขอคำพิพากษาและผู้ใช้สังเกตพฤติกรรมในการระบบดังนั้น ในส่วนถัดไป เราประเมินประสิทธิภาพวิธีนำเสนอที่ใช้จำลองผู้ใช้ และขนาดใหญ่ออนไลน์ทดลอง และนำการประเมินของเราวิธีการข้อมูลป้ายด้วยตนเอง7.1.2 การวัดกำหนดวิธีการประเมินผลเกี่ยวกับผู้ใช้ของระบบของเราในส่วนนี้ เราได้คำถามที่เป็นที่สุดวัดประเมินผลที่เหมาะในการตั้งค่านี้เฉพาะหนึ่งทางเลือกที่เป็นไปได้ของการวัดอยู่คลิกผ่านแนะนำวีดีโอที่เกี่ยวข้องกับผู้ใช้โดยการระบบ อย่างไรก็ตาม การวิจัยแสดงให้เห็นว่าการคลิกผ่านสามารถสูงลำเอียงจากปัจจัยต่าง ๆ เช่นตำแหน่งและศิลปะเสนอ [32] เราคาดว่าความโน้มเอียงนี้จะแข็งแรงมากในการตั้งค่าของเรา ซึ่งมีแสดงผลในลำดับ และแต่ละผลลัพธ์ที่เกี่ยวข้องจะแสดงเป็นขนาดเล็กภาพรวมจากวิดีโออีกทางเลือกของการวัดขึ้นอยู่กับการทำงานหลักคำแนะนำวิดีโอที่เกี่ยวข้องของ ระบบ และวัดเวลาดูวิดีโอที่เกี่ยวข้อง สังหรณ์ใจ การปรับปรุงระบบในการทำงานจะสร้างขึ้นข้อเสนอแนะที่เกี่ยวข้อง ซึ่งจะทำการหมั้นผู้สูงระบบ และรอดูครั้งต่อไปของที่แนะนำที่เกี่ยวข้องกับวิดีโอต่อสัญชาตญาณนี้ เราเลือกการวัดเวลานาฬิกาประเมินที่ว่าเวลาผู้ใช้ดูวิดีโอในระหว่างการเซสชันต่อคลิบนวิดีโอที่เกี่ยวข้องคำแนะนำ ในขณะเวลาชม วัดมีข้อจำกัดของ(เช่นมันอาจชอบวิดีโอเวลาดูยาว), เป็น

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ได้รับตัวอย่างของการทดสอบวิชาความนับถือที่จะเป็นตัวแทนของประชากรผู้ใช้จริงเป็นไปไม่ได้จริง ในนอกจากปัญหาตัวอย่างลำเอียง, การดำเนินการใช้การศึกษาเพื่อประเมินระบบแนะนำวิดีโอขนาดใหญ่มีข้อเสียอื่นๆ อีกหลาย. ครั้งแรกให้ได้ชุดที่มีรายละเอียดมากของคำสั่งก็จะเป็นเรื่องยากสำหรับเรื่องการทดสอบในการตัดสินสิ่งที่จะเป็นวิดีโอที่ดีที่สุดที่เกี่ยวข้องกับการแนะนำตั้งแต่การตัดสินใจครั้งนี้เป็นอัตนัยมากและอาจจะได้รับอิทธิพลจากปัจจัยต่างๆเช่นประชากรผู้ใช้ที่ตั้งทางภูมิศาสตร์ของรัฐทางอารมณ์และทางวัฒนธรรม แม้สำหรับการประเมินผลวัตถุประสงค์ค่อนข้างงานเช่นการดึงเอกสาร [6] ข้อตกลงระหว่างผู้พิพากษาอยู่ในระดับต่ำ เราคาดว่าอัตราการทำข้อตกลงที่จะต่ำลงสำหรับการจัดอันดับความสัมพันธ์วิดีโอที่เป็นส่วนตัวสูง. ประการที่สองการแสดงการวิจัย [22] มีมักจะตัดการเชื่อมต่อระหว่างสิ่งที่อาสาสมัครต้องการที่จะดูและสิ่งที่พวกเขาต้องการที่จะได้ดู นี้นำไปสู่สถานการณ์ที่มีความสัมพันธ์ระหว่างอย่างชัดเจนตัดสินร้องขอและพฤติกรรมของผู้ใช้ที่สังเกตในระบบ. ดังนั้นในส่วนต่อไปเราประเมินผลการปฏิบัติงานในวิธีการที่นำเสนอโดยใช้การจำลองการใช้งานและการทดสอบออนไลน์ขนาดใหญ่และนำการประเมินผลของเราวิธีการกับข้อมูลที่มีข้อความด้วยตนเอง. 7.1.2 ตัวชี้วัดที่กำหนดวิธีการประเมินผลผู้ใช้เป็นศูนย์กลางของระบบของเราในส่วนนี้เราอยู่ที่คำถามของสิ่งที่เป็นส่วนใหญ่การประเมินผลตัวชี้วัดที่เหมาะสมในการตั้งค่านี้โดยเฉพาะ. หนึ่งทางเลือกที่เป็นไปได้ของตัวชี้วัด เป็นอัตราการคลิกผ่านข้อเสนอแนะที่เกี่ยวข้องกับวิดีโอที่นำเสนอให้กับผู้ใช้โดยระบบ อย่างไรก็ตามการวิจัยแสดงให้เห็นว่าอัตราการคลิกผ่านสามารถลำเอียงอย่างสูงจากปัจจัยต่างๆเช่นตำแหน่งและความน่าสนใจของงานนำเสนอ[32] เราคาดว่าอคตินี้จะมีความแข็งแรงมากในการตั้งค่าของเราซึ่งผลลัพธ์ที่ถูกนำเสนอในการสั่งซื้อการจัดอันดับและแต่ละผลที่เกี่ยวข้องจะนำเสนอเป็นขนาดเล็กภาพรวมจากวิดีโอ. ทางเลือกของตัวชี้วัดอีกจะขึ้นอยู่กับการทำงานหลักของข้อเสนอแนะวิดีโอที่เกี่ยวข้องระบบและมาตรการเวลานาฬิกาของวิดีโอที่เกี่ยวข้อง สังหรณ์ใจที่มีการปรับปรุงระบบในการทำงานที่จะสร้างเพิ่มเติมข้อเสนอแนะที่เกี่ยวข้องซึ่งจะส่งผลให้เกิดการมีส่วนร่วมของผู้ใช้ที่สูงขึ้นกับระบบและนำไปสู่อีกต่อไปเวลาที่นาฬิกาของที่แนะนำวิดีโอที่เกี่ยวข้อง. ต่อไปนี้สัญชาตญาณนี้เราเลือกเวลาในการดูตัวชี้วัดที่ประมาณการเท่าใดเวลาที่ผู้ใช้ใช้เวลาดูวิดีโอในช่วงเซสชั่นดังต่อไปนี้คลิกที่วิดีโอที่เกี่ยวข้องกับข้อเสนอแนะ ในขณะที่ตัวชี้วัดเวลานาฬิกามีข้อ จำกัด ของมัน(เช่นมันอาจจะชอบวิดีโอที่มีนาฬิกาอีกต่อครั้ง) มันเป็น

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ได้รับตัวอย่างของการทดสอบนั้นจะนับถือเป็นตัวแทน
ผู้ใช้ที่แท้จริงของประชากรเป็นสิ่งที่แทบจะเป็นไปไม่ได้ ใน
นอกจากจะลำเอียงตัวอย่างปัญหา ทำการศึกษาเพื่อประเมินผู้ใช้
ขนาดใหญ่ระบบวิดีโอแนะนำ

มีข้อเสียหลาย ๆ แรก จะได้รับชุดละเอียดมากของคำแนะนำมัน
คงจะยากสำหรับการทดสอบที่จะตัดสินอะไร
เป็นวิดีโอที่ดีที่สุดที่เกี่ยวข้อง เพื่อเสนอแนะ เนื่องจากการตัดสินใจครั้งนี้
อัตนัยมาก และอาจจะได้รับอิทธิพลจากปัจจัยต่างๆเช่น
ประชากรผู้ใช้ที่ตั้งทางภูมิศาสตร์ , อารมณ์
ทางวัฒนธรรมและการตั้งค่า แม้แต่งานประเมินผล
วัตถุประสงค์ค่อนข้าง เช่น สืบค้นเอกสาร [ 6 ] ระหว่างผู้พิพากษาข้อตกลง
น้อย เราคาดว่าสัญญาอัตราจะลดลง
รวมสัมพันธ์วิดีโอ ,ซึ่งส่วนตัวสูง .
2 การวิจัยแสดง [ 22 ] มักจะมีการเชื่อมต่อระหว่างสิ่งที่กลุ่มตัวอย่างจริงๆ

อยากดู และสิ่งที่พวกเขาต้องการจะเห็น นี้จะนำไปสู่สถานการณ์
ที่ไหนมีความสัมพันธ์ระหว่างอย่างชัดเจน
ร้องขอคำตัดสิน และสังเกตพฤติกรรมของผู้ใช้ในระบบ
.
ดังนั้นในส่วนถัดไปเราประเมินสมรรถนะ
ของผู้ใช้และการเสนอวิธีการจำลอง
ขนาดใหญ่ออนไลน์ ทดลอง และสละการประเมินวิธีการของเรา

ในข้อความด้วยตนเองข้อมูล การขอวัด
ให้ผู้ใช้เป็นศูนย์กลางวิธีการประเมินผลของระบบของเรา
ในส่วนนี้ เราอยู่คำถามของสิ่งที่เป็นที่สุด
เหมาะประเมินผลเมตริกในการตั้งค่านี้โดยเฉพาะ
ทางเลือกหนึ่งที่เป็นไปได้ของเมตริกเป็นคลิกผ่านอัตราใน
วิดีโอที่เกี่ยวข้องข้อเสนอแนะที่นำเสนอให้กับผู้ใช้โดย
ระบบ อย่างไรก็ตาม การวิจัยแสดงให้เห็นว่าคลิกผ่านอัตรา
สามารถขอลำเอียง โดยปัจจัยต่างๆ เช่น ตำแหน่ง และความน่าสนใจของการนำเสนอ
[ 32 ] เราคาดหวังว่าอคตินี้จะ
ที่แข็งแกร่งมากในการตั้งค่าของเรา ซึ่งผลจะแสดงใน
อันดับการสั่งซื้อและแต่ละที่เกี่ยวข้องผลจะแสดงเป็นภาพเล็ก ๆ

จากวิดีโออีกหนึ่งทางเลือกของระบบเมตริก คือตามหลักของวิดีโอที่เกี่ยวข้องการทำงาน
ระบบข้อเสนอแนะและมาตรการ
นาฬิกาเวลาของวิดีโอที่เกี่ยวข้อง . สังหรณ์ใจ , การพัฒนาระบบในการทำงานจะสร้างข้อเสนอแนะเกี่ยวข้องมากขึ้น
ซึ่งจะส่งผลให้สูงกว่าผู้ใช้หมั้น
กับระบบ และนำไปสู่อีกครั้ง
ดูของแนะนำวิดีโอที่เกี่ยวข้อง .
ตามสัญชาตญาณนี้ เราเลือกดูเวลาวัด ,
ซึ่งประมาณการเท่าใดเวลาที่ผู้ใช้ใช้ดู
วิดีโอในช่วงต่อไปนี้คลิกที่เกี่ยวข้องวิดีโอ
คำแนะนำ ในขณะที่นาฬิกาเวลาเมตริกมีข้อจำกัด
( เช่นมันอาจชอบวิดีโอกับเวลาดูอีกต่อไป ) นั้น

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.