The time scale of our A/B tests mig

The time scale of our A/B tests might seem long, especially compared to those used by
many other companies to optimize metrics, such as click-through rates. This is partly
addressed by testing multiple variants against a control in each test; thus, rather
than having two variants, A and B, we typically include 5 to 10 algorithm variants in
each test, for example, using the same new model but different signal subsets and/or
parameters and/or model trainings. This is still slow, however, too slow to help us find
the best parameter values for a model with many parameters, for example. For new
members, more test cells also means more days to allocate new signups into the test to
have the same sample size in each cell.
Another option to speed up testing is to execute many different A/B tests at once
on the same member population. As long as the variations in test experience are
compatible with each other, and we judge them not to combine in a nonlinear way on
the experience, we might allocate each new member into several different tests at once
– for example, a similars test, a PVR algorithm test, and a search test. Accordingly, a
single member might get similars algorithm version B, PVR algorithm version D, and
search results version F. Over perhaps 30 sessions during the test period, the member’s
experience is accumulated into metrics for each of the three different tests.
But to really speed up innovation, we also rely on a different type of experimentation
based on analyzing historical data. This offline experimentation changes from algorithm
to algorithm, but it always consists of computing a metric for every algorithm variant
tested that describes how well the algorithm variants fit previous user engagement.
For example, for PVR, we might have 100 different variants that differ only in the
parameter values used, and that relied on data up to two days ago in their training.
We then use each algorithm variant to rank the catalog for a sample of members using
data up to two days ago, then find the ranks of the videos played by the members
in the sample in the last two days. These ranks are then used to compute metrics
for each user across variants—for example, the mean reciprocal rank, precision, and
recall—that are then averaged across the members in the sample, possibly with some
normalization. For a different and detailed offline metric example, used for our page
construction algorithm, see Alvino and Basilico [2015]. Offline experiments allow us to
iterate quickly on algorithm prototypes, and to prune the candidate variants that we
use in actual A/B experiments. The typical innovation flow is shown in Figure 8.
As appealing as offline experiments are, they have a major drawback: they assume
that members would have behaved the same way, for example, playing the same videos,
if the new algorithm being evaluated had been used to generate the recommendations.
Thus, for instance, a new algorithm that results in very different recommendations
from the production algorithm is unlikely to find that its recommendations have been
played more than the corresponding recommendations from the production algorithm
that actually served the recommendations to our members. This suggests that offline
experiments need to be interpreted in the context of how different the algorithms
being tested are from the production algorithm. However, it is unclear what distance
metric across algorithms can lead to better offline experiment interpretations that will
correlate better with A/B test outcomes, since the latter is what we are after. Thus,
while we do rely on offline experiments heavily, for lack of a better option, to decide
when to A/B test a new algorithm and which new algorithms to test, we do not find
them to be as highly predictive of A/B test outcomes as we would like.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

มาตราส่วนเวลาของเรา A / B ทดสอบอาจดูเหมือนยาว โดยเฉพาะอย่างยิ่งเมื่อเทียบกับผู้ใช้โดยบริษัทอื่นเพื่อเพิ่มประสิทธิภาพการวัด เช่นคลิกผ่านอัตรา นี่คือบางส่วนแก้ไขได้ โดยการทดสอบหลายตัวแปรกับตัวควบคุมในแต่ละการทดสอบ ดังนั้น การกว่ามีสองสายพันธุ์ A และ B เรามักจะรวมตัวแปรของอัลกอริทึม 5 ถึง 10 ในแต่ละทดสอบ เช่น โดยใช้รูปแบบใหม่เหมือนกันแต่สัญญาณย่อย หรือพารามิเตอร์และ/หรือรูปแบบการอบรม นี่คือยังคงช้า อย่างไรก็ตาม ช้าเกินไปที่จะช่วยให้เราค้นหาค่าพารามิเตอร์ที่ดีที่สุดสำหรับรุ่นที่มีพารามิเตอร์มากมาย ตัวอย่าง สำหรับใหม่สมาชิก เพิ่มเติมทดสอบเซลล์ยังหมายถึงวันในการปันส่วนใหม่ลงทะเบียนเข้าทดสอบเพื่อมีขนาดตัวอย่างเท่ากันในแต่ละเซลล์ตัวเลือกอื่นเพื่อเพิ่มความเร็วการทดสอบคือ A แตกต่างกันมากมาย / B ทดสอบครั้งจากประชากรเดียวกันสมาชิก ตราบใดที่มีการเปลี่ยนแปลงในการทดสอบประสบการณ์เข้ากันได้กับแต่ละอื่น ๆ และเราตัดสินพวกเขาไม่ได้รวมในลักษณะเชิงเส้นบนประสบการณ์ เราอาจจัดสรรสมาชิกใหม่ลงในการทดสอบแตกต่างกันหลายครั้ง– ตัว การทดสอบ similars ทดสอบอัลกอริทึมเครื่อง PVR และแบบทดสอบค้นหา ดังนั้น การเดี่ยวสมาชิกอาจได้รับ similars รุ่นอัลกอริทึม B, PVR รุ่นอัลกอริทึม D และค้นหาผลลัพธ์รุ่นเอฟ ผ่านช่วงทดสอบ สมาชิกของบางที 30 ครั้งจะสะสมประสบการณ์ในการวัดสำหรับแต่ละการทดสอบแตกต่างกันสามแต่จริง ๆ เร่งนวัตกรรม เรายังพึ่งทดลองชนิดอื่นคะแนนจากการวิเคราะห์ข้อมูลในอดีต การทดลองนี้แบบออฟไลน์เปลี่ยนจากอัลกอริทึมอัลกอริทึม การ แต่มักจะประกอบด้วยคอมพิวเตอร์การวัดสำหรับทุกตัวแปรของอัลกอริทึมผ่านการทดสอบที่อธิบายว่า ตัวแปรของอัลกอริทึมพอดีก่อนหน้านี้ผู้ใช้มีส่วนร่วมตัวอย่างเช่น สำหรับ PVR เราอาจมี 100 สายพันธุ์ต่าง ๆ ที่แตกต่างเท่านั้นในการใช้ค่าพารามิเตอร์ และที่พึ่งข้อมูลขึ้น 2 วันในการฝึกอบรมของพวกเขาเราใช้ตัวแปรแต่ละอัลกอริทึมในการจัดลำดับในแค็ตตาล็อกสำหรับตัวอย่างของสมาชิกข้อมูลถึงสองวันที่ผ่านมา แล้วค้นหาการจัดอันดับวิดีโอที่เล่น โดยสมาชิกในตัวอย่างในช่วงสองวัน ยศเหล่านี้ถูกใช้ในการคำนวณเมตริกสำหรับแต่ละผู้ใช้ในตัวแปร — ตัวอย่างเช่น ความหมายถึงพันธมิตรอันดับ แม่นยำ และเรียกคืน — ที่มีเฉลี่ยระหว่างสมาชิกในตัวอย่าง อาจจะมีบางส่วนแล้วฟื้นฟู เช่นความแตกต่าง และรายละเอียดออฟไลน์เมตริก ใช้สำหรับหน้าของเราก่อสร้างอัลกอริทึม ดู Alvino และ Basilico [2015] การทดลองที่ออฟไลน์ช่วยให้เราสามารถทำซ้ำ ในอัลกอริทึมแบบรวดเร็ว และที่ตัวแปรผู้สมัครที่เราใช้ในจริง A / B ทดลองการ การไหลทั่วไปนวัตกรรมจะแสดงในรูปที่ 8เป็นที่น่าสนใจเป็นการทดลองออฟไลน์ มีอุปสรรคสำคัญ: พวกเขาสมมติที่สมาชิกจะได้ประพฤติตัวเหมือน เช่น เล่นวิดีโอเดียวกันถ้ามีการใช้อัลกอริทึมใหม่ที่มีการประเมินเพื่อสร้างคำแนะนำดังนั้น เช่น อัลกอริธึมใหม่ที่ส่งผลให้คำแนะนำที่แตกต่างกันมากจากการผลิต อัลกอริทึมไม่น่าค้นหาว่า ได้รับคำแนะนำของเล่นมากกว่าคำแนะนำที่สอดคล้องกันจากขั้นตอนวิธีการผลิตที่จริงให้บริการคำแนะนำแก่สมาชิกของเรา นี้แสดงให้เห็นว่า ออฟไลน์การทดลองที่จำเป็นต้องตีความในบริบทของอัลกอริทึมวิธีแตกต่างกันการทดสอบได้จากอัลกอริทึมการผลิต อย่างไรก็ตาม เป็นที่ชัดเจนว่าระยะทางวัดผ่านอัลกอริทึมสามารถนำดี ทดลองตีจะออฟไลน์เชื่อมโยงที่ดีกับ A B ทดสอบผล หลังเป็น สิ่งที่เราเป็นหลัง ดังนั้นในขณะที่เราพึ่งทดลองออฟไลน์มาก ขาดตัวเลือกที่ดี การตัดสินใจเมื่อ A B ทดสอบอัลกอริธึมใหม่ และขั้นตอนวิธีใหม่ซึ่งการทดสอบ เราไม่พบพวกเขาจะคาดการณ์สูงเป็นของ B ทดสอบผลลัพธ์ ตามที่เราต้องการ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ระดับเวลาของการทดสอบ A / B ของเราอาจจะดูเหมือนยาวโดยเฉพาะอย่างยิ่งเมื่อเทียบกับผู้ใช้โดย
บริษัท อื่น ๆ อีกมากมายเพื่อเพิ่มประสิทธิภาพตัวชี้วัดเช่นอัตราการคลิกผ่าน นี่คือส่วนหนึ่ง
ที่ส่งโดยการทดสอบหลายสายพันธุ์กับการควบคุมในแต่ละการทดสอบ; จึงค่อนข้าง
กว่ามีสองสายพันธุ์ A และ B เรามักจะรวมถึง 5 ถึง 10 สายพันธุ์อัลกอริทึมใน
การทดสอบแต่ละตัวอย่างเช่นการใช้รูปแบบใหม่เหมือนกัน แต่ส่วนย่อยสัญญาณที่แตกต่างกันและ / หรือ
พารามิเตอร์และ / หรือการฝึกอบรมรุ่น นี้ยังคงช้า แต่ช้าเกินไปที่จะช่วยให้เราหา
สิ่งที่ดีที่สุดค่าพารามิเตอร์สำหรับรุ่นที่มีปัจจัยหลายประการเช่น ใหม่
สมาชิกเซลล์ทดสอบมากขึ้นยังหมายถึงวันที่จะจัดสรรการสมัครใหม่ในการทดสอบเพื่อให้
มีขนาดของกลุ่มตัวอย่างเดียวกันในแต่ละเซลล์.
ตัวเลือกในการเพิ่มความเร็วในการทดสอบก็คือการดำเนินการหลายการทดสอบ A / B ที่แตกต่างกันในครั้งเดียว
ในประชากรสมาชิกเดียวกัน . ตราบใดที่การเปลี่ยนแปลงในประสบการณ์การทดสอบมีความ
เข้ากันได้กับแต่ละอื่น ๆ และเราตัดสินพวกเขาไม่ได้ที่จะรวมในทางที่ไม่เป็นเชิงเส้นใน
ประสบการณ์ของเราอาจจัดสรรแต่ละสมาชิกใหม่เข้าสู่การทดสอบที่แตกต่างกันในครั้งเดียว
- ยกตัวอย่างเช่นการทดสอบ similars เป็น ขั้นตอนวิธีการทดสอบ PVR และการทดสอบการค้นหา ดังนั้นเป็น
สมาชิกอาจได้รับ similars รุ่นอัลกอริทึม B, PVR อัลกอริทึมรุ่น D, และ
รุ่นผลการค้นหาเอฟกว่าบางที 30 การประชุมในช่วงระยะเวลาการทดสอบของสมาชิก
ประสบการณ์สะสมเข้าไปในตัวชี้วัดสำหรับแต่ละแห่งที่สามการทดสอบที่แตกต่างกัน.
แต่จริงๆ เพิ่มความเร็วในการนวัตกรรมเรายังพึ่งพาประเภทที่แตกต่างกันของการทดลอง
อยู่บนพื้นฐานของการวิเคราะห์ข้อมูลทางประวัติศาสตร์ นี้เปลี่ยนแปลงแบบออฟไลน์ทดลองจากขั้นตอนวิธีการ
ขั้นตอนวิธีการ แต่ก็มักจะประกอบด้วยการคำนวณตัวชี้วัดสำหรับตัวแปรขั้นตอนวิธีการทุก
การทดสอบที่อธิบายถึงวิธีการที่ดีสายพันธุ์อัลกอริทึมพอดีกับการมีส่วนร่วมของผู้ใช้ก่อนหน้านี้.
ตัวอย่างเช่นสำหรับ PVR เราอาจจะมี 100 สายพันธุ์ที่แตกต่างกันที่แตกต่างกันเฉพาะใน
ค่าพารามิเตอร์ที่ใช้และที่อาศัยในข้อมูลได้ถึงสองวันที่ผ่านมาในการฝึกอบรมของพวกเขา.
นั้นเราจะใช้อัลกอริทึมแต่ละตัวแปรในการจัดอันดับแคตตาล็อกตัวอย่างของสมาชิกในการใช้
ข้อมูลได้ถึงสองวันที่ผ่านมาแล้วพบว่าการจัดอันดับของวิดีโอที่เล่น โดยสมาชิก
ในกลุ่มตัวอย่างในช่วงสองวันที่ผ่านมา การจัดอันดับเหล่านี้ถูกนำมาใช้ในการคำนวณตัวชี้วัด
สำหรับผู้ใช้แต่ละสายพันธุ์ทั่วตัวอย่างเช่นตำแหน่งซึ่งกันและกันหมายถึงความแม่นยำและ
จำที่นำมาเฉลี่ยแล้วระหว่างสมาชิกในตัวอย่างที่อาจจะมีบางส่วน
ฟื้นฟู สำหรับตัวอย่างตัวชี้วัดที่แตกต่างกันและมีรายละเอียดแบบออฟไลน์ที่ใช้สำหรับหน้าของเรา
ขั้นตอนวิธีการก่อสร้างและดู Alvino Basilico [2015] การทดลองออฟไลน์ให้เรา
ย้ำต้นแบบได้อย่างรวดเร็วในขั้นตอนวิธีการและการตัดสายพันธุ์ผู้สมัครที่เรา
ใช้ในการทดลอง A / B ที่เกิดขึ้นจริง การไหลของนวัตกรรมโดยทั่วไปจะแสดงในรูปที่ 8
ในฐานะที่เป็นที่น่าสนใจเป็นการทดสอบแบบออฟไลน์ที่พวกเขามีอุปสรรคสำคัญ: พวกเขาคิด
ว่าสมาชิกจะได้ประพฤติในลักษณะเดียวกันเช่นการเล่นวิดีโอเดียวกัน
ถ้าอัลกอริทึมใหม่ที่ได้รับการประเมิน ใช้ในการสร้างข้อเสนอแนะ.
ดังนั้นสำหรับตัวอย่างเช่นขั้นตอนวิธีการใหม่ที่จะส่งผลในคำแนะนำที่แตกต่างกันมาก
จากขั้นตอนวิธีการผลิตไม่น่าจะพบว่าคำแนะนำที่ได้รับการ
เล่นมากกว่าคำแนะนำที่สอดคล้องกันจากขั้นตอนวิธีการผลิต
ที่จริงทำหน้าที่คำแนะนำของเรา สมาชิก. นี้แสดงให้เห็นว่าออฟไลน์
ทดลองจะต้องมีการตีความในบริบทของวิธีการที่แตกต่างกันขั้นตอนวิธี
การทดสอบจากขั้นตอนวิธีการผลิต แต่ก็เป็นสิ่งที่ไม่ชัดเจนระยะ
เมตริกข้ามขั้นตอนวิธีการสามารถนำไปสู่การตีความที่ดีกว่าการทดลองแบบออฟไลน์ที่จะ
มีความสัมพันธ์ดีขึ้นด้วยผลทดสอบ / B ตั้งแต่หลังเป็นสิ่งที่เรามีอยู่หลังจากที่ ดังนั้น
ในขณะที่เราจะพึ่งพาการทดลองแบบออฟไลน์อย่างหนักสำหรับการขาดตัวเลือกที่ดีกว่าที่จะตัดสินใจ
เมื่อมีการทดสอบ A / B ขั้นตอนวิธีการใหม่และขั้นตอนวิธีการใหม่ในการทดสอบเราจะไม่พบ
ว่าพวกเขาจะเป็นอย่างมากคาดการณ์ของ A / B ทดสอบผลลัพธ์ตามที่เราต้องการ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.