The inverted index structure enables efficient scoring of
the related candidate videos in response to a watch video.
Since we are only interested in a limited number of highest
scoring related videos for a given watch video, we employ the
WeakAnd query optimization technique first proposed by
Broder et al. [8]. WeakAnd query optimization fully scores
only a small fraction of the videos with score upper bound
greater than a given threshold. This threshold is revised
at query runtime as more videos are scored. To avoid fully
scoring the document, the WeakAnd optimization maintains
an upper bound of a document score, based on the maximum
weight in each of the posting lists evaluated in response to
the query. For more detailed description of the WeakAnd
algorithm see [8, 14].
3. RETRIEVAL WITH WEIGHTED TOPICS
In Section 2.3 we described the topic indexing process.
In this section, we use this topic index to develop a related
video suggestion algorithm that is based on the standard
information retrieval practices.
Recall that the videos in our system are represented as
vectors of topic weights. Given this representation, for a
watch video and related video pair hVW , VRi we derive the
following score
sc(VW , VR) = q(VR)
X
τ∈VW ∩VR
Is(τ )
c(τ, VW )
log(1 + df(τ )) c(τ, VR).
(1)
The score in Equation 1 has several components that are
based on standard information retrieval practices.
First, the topic count function c(τ, V ) returns a normalized
count of videos that are annotated with the topic τ and
are co-viewed with the video V . The topic count function
estimates the topicality of video V with respect to topic τ .
Second, log(1 + df(τ )) is an inverse document frequency
component that penalizes frequently occuring topics. Inverse
document frequency demotes overly broad, vague and
non specific topics, similarly to the idf term weighting in
information retrieval applications.
Third, Equation 1 includes an indicator function
Is(τ ) = (
1 df(τ ) < dfmax
0 else,
where dfmax is set to some large constant. The indicator
function Is(τ ) is inspired by the stopword removal in information
retrieval applications, which removes very frequent
stopwords at either indexing time or query time. We found
that such stopword removal technique is useful for disregarding
noisy and redundant topic matches from score computation,
and improves both efficiency and effectiveness at query
time.
Finally, Equation 1 takes into account the overall quality
of the related video q(VR). Function q(VR) is based, among
other factors on the video age, uploader, “thumbs up” and
“thumbs down” counts, video popularity and freshness.
Note that since all the videos have roughly the same (small)
number of topics associated with them, we do not apply
any document length normalization method such as cosine
similarity or pivoted length normalization [26]. Instead we
simply use an unnormalized vector dot product as a scoring
function in Equation 1.
โครงสร้างดัชนีคว่ำช่วยให้การให้คะแนนที่มีประสิทธิภาพของวิดีโอที่ผู้สมัครที่เกี่ยวข้องในการตอบสนองต่อวิดีโอนาฬิกา.
เนื่องจากเรามีความสนใจเฉพาะในจำนวน จำกัด
สูงสุดให้คะแนนวิดีโอที่เกี่ยวข้องกับวิดีโอนาฬิกาก็ตามที่เราจ้างเทคนิคการเพิ่มประสิทธิภาพการค้นหา
WeakAnd
เสนอครั้งแรกโดยพี่ชายet al, [8] เพิ่มประสิทธิภาพการค้นหา WeakAnd
คะแนนอย่างเต็มที่เพียงเศษเล็กๆ
ของวิดีโอที่มีคะแนนที่ถูกผูกไว้บนที่สูงกว่าเกณฑ์ที่กำหนด
เกณฑ์นี้จะปรับปรุงที่รันไทม์แบบสอบถามเป็นวิดีโอมากขึ้นมีการทำแต้ม เพื่อหลีกเลี่ยงการอย่างเต็มที่คะแนนเอกสารการเพิ่มประสิทธิภาพ WeakAnd รักษาขอบเขตบนของคะแนนเอกสารตามสูงสุดน้ำหนักในแต่ละรายการโพสต์การประเมินในการตอบสนองต่อการค้นหา สำหรับรายละเอียดเพิ่มเติมเกี่ยว WeakAnd อัลกอริทึมเห็น [8, 14]. 3 การสืบค้นที่มีหัวข้อถ่วงน้ำหนักในมาตรา 2.3 เราอธิบายขั้นตอนการจัดทำดัชนีหัวข้อ. ในส่วนนี้เราจะใช้ดัชนีหัวข้อนี้ในการพัฒนาที่เกี่ยวข้องกับขั้นตอนวิธีการวิดีโอข้อเสนอแนะที่เป็นไปตามมาตรฐานการปฏิบัติที่ดึงข้อมูล. จำได้ว่าวิดีโอในระบบของเราจะแสดงเป็นพาหะของน้ำหนักหัวข้อ ได้รับการแสดงนี้เป็นวิดีโอนาฬิกาและคู่วิดีโอที่เกี่ยวข้อง hVW, VRI เราได้รับมาคะแนนดังต่อไปนี้SC (VW, VR) = Q (VR) ที่X τ∈VW∩VRคือ (τ) ค (τ, VW) เข้าสู่ระบบ (1 + DF (τ)) ค (τ, VR). (1) คะแนนในสมการที่ 1 มีองค์ประกอบหลายอย่างที่อยู่บนพื้นฐานของการปฏิบัติที่ดึงข้อมูลมาตรฐาน. ครั้งแรกนับหัวข้อคฟังก์ชัน (τ, V) ส่งกลับปกตินับวิดีโอที่มีการบันทึกย่อτหัวข้อและจะร่วมดูด้วยวิดีโอ V ฟังก์ชั่นการนับหัวข้อประมาณการความทันสมัยของ V วิดีโอที่เกี่ยวกับหัวข้อτ. ประการที่สองเข้าสู่ระบบ (1 + DF (τ)) เป็นความถี่เอกสารผกผันองค์ประกอบที่เกิดขึ้นบ่อยpenalizes หัวข้อ ผกผันความถี่เอกสาร demotes สุดเหวี่ยงกว้างคลุมเครือและไม่หัวข้อที่เฉพาะเจาะจงเช่นเดียวกันกับน้ำหนักระยะIDF ในการใช้งานการดึงข้อมูล. ประการที่สามสมการที่ 1 รวมถึงฟังก์ชั่นตัวบ่งชี้คือ(τ) = (1 DF (τ) <dfmax 0 อื่นที่dfmax มีการตั้งค่าบางอย่างต่อเนื่องขนาดใหญ่. ตัวบ่งชี้ฟังก์ชั่นคือ(τ) แรงบันดาลใจจากการกำจัด stopword ข้อมูลการใช้งานดึงที่เอาบ่อยมากstopwords ที่ทั้งเวลาการจัดทำดัชนีหรือเวลาแบบสอบถาม. เราพบว่าเทคนิคการกำจัดstopword ดังกล่าวจะเป็นประโยชน์สำหรับการไม่คำนึงถึงที่มีเสียงดังและหัวข้อที่ซ้ำซ้อนตรงจากการคำนวณคะแนนและช่วยเพิ่มทั้งประสิทธิภาพและประสิทธิผลในการสอบถามเวลา. สุดท้ายสมการที่ 1 คำนึงถึงคุณภาพโดยรวมของวิดีโอที่เกี่ยวข้องคิว(VR). คิวฟังก์ชั่น (VR) ที่จะขึ้นท่ามกลางปัจจัยอื่นๆ ใน อายุวิดีโออัพโหลด "นิ้วหัวแม่มือขึ้น" และ"นิ้วหัวแม่มือลง" นับความนิยมวิดีโอและความสด. ทราบว่าตั้งแต่วิดีโอทั้งหมดมีประมาณเดียวกัน (เล็ก) จำนวนของหัวข้อที่เกี่ยวข้องกับพวกเขาเราไม่ใช้ความยาวของเอกสารวิธีการฟื้นฟูใด ๆ เช่นโคไซน์คล้ายคลึงกันหรือหมุนฟื้นฟูความยาว[26] แต่เราเพียงแค่ใช้เวกเตอร์คูณจุด unnormalized เป็นเกณฑ์การให้คะแนนการทำงานในสมการที่1
การแปล กรุณารอสักครู่..

คว่ำโครงสร้างช่วยให้คะแนนของดัชนีที่เกี่ยวข้องกับผู้สมัคร
วิดีโอในการตอบสนองเพื่อดูวิดีโอที่มีประสิทธิภาพ .
เพราะเราสนใจแค่จำนวนจำกัดสูงสุด
คะแนนวิดีโอที่เกี่ยวข้องสำหรับการดูวิดีโอ , เราจ้าง weakand query optimization
เทคนิคแรกที่เสนอโดย
ความกว้าง et al . [ 8 ] การเพิ่มประสิทธิภาพแบบสอบถามคะแนน
weakand อย่างเต็มที่เพียงเศษเล็ก ๆของวิดีโอกับคะแนนบนผูกพัน
มากกว่าที่กำหนดเกณฑ์ เกณฑ์นี้จะแก้ไขแบบสอบถาม Runtime เป็นวิดีโอมากขึ้น
ที่มีคะแนน เพื่อหลีกเลี่ยงเต็มที่
คะแนนเอกสาร , การรักษา weakand
ขอบเขตบนของเอกสารคะแนนขึ้นอยู่กับน้ำหนักสูงสุด
ในแต่ละโพสต์รายการประเมินในการตอบสนอง
แบบสอบถามสำหรับรายละเอียดเพิ่มเติมของ weakand
ขั้นตอนวิธีดู [ 8 , 14 ] .
3 สืบค้นด้วยหัวข้อที่ถ่วงน้ำหนัก
ในส่วน 2.3 เราอธิบายหัวข้อการกระบวนการ .
ในส่วนนี้เราใช้หัวข้อนี้ดัชนีการพัฒนาที่เกี่ยวข้องวิดีโอคำแนะนำขั้นตอนวิธี
ที่อยู่บนพื้นฐานของมาตรฐาน
สืบค้นแนวทางปฏิบัติ .
จำได้ว่าวิดีโอในระบบของเราจะแสดงเป็น
เวกเตอร์ของหัวข้อรวมได้รับการเป็นตัวแทนนี้ สำหรับดูวิดีโอ และที่เกี่ยวข้องกับ hvw
คู่วิดีโอ vri เราให้ได้
ต่อไปนี้คะแนน วท ม ( VW VR ( VR ) = Q )
x
τ∈ VW ∩ VR
( τ )
c ( τ VW เข้าสู่ระบบ ( 1 )
df ( τ ) ) C ( τ VR )
.
( 1 ) คะแนนในสมการที่ 1 มีองค์ประกอบหลายที่
ขึ้นอยู่กับการปฏิบัติการค้นคืนสารสนเทศมาตรฐาน
แรกหัวข้อนับฟังก์ชัน c ( τ , V )
) มาตรฐานจำนวนของวิดีโอที่บันทึกย่อกับหัวข้อและτ
เป็น CO ดูด้วยวิดีโอของ V หัวข้อนับฟังก์ชัน
ประมาณหัวข้อวีดีโอวี ด้วยความเคารพτหัวข้อ .
2 log ( 1 df ( τ ) เป็นตรงกันข้ามความถี่
เอกสารส่วนที่ penalizes บ่อยขึ้นหัวข้อ ความถี่เอกสารผกผัน
demotes สุดเหวี่ยงกว้างและคลุมเครือ
ไม่ใช่หัวข้อที่เฉพาะเจาะจงในทํานองเดียวกันกับ IDF ระยะน้ำหนักโปรแกรมการค้นคืนสารสนเทศ
.
3 สมการที่ 1 รวมถึงการทำงาน
( τ ) = (
1 df ( τ ) < dfmax
0
dfmax อื่น ที่เป็นชุดใหญ่คง การทำงาน
( τ ) ได้รับแรงบันดาลใจจาก stopword เอาในโปรแกรมการดึงข้อมูลที่ลบ stopwords บ่อยมาก
ที่ให้ดัชนีเวลา หรือสอบถาม เราพบ
เช่น stopword เอาเทคนิคที่เป็นประโยชน์สำหรับไม่ใส่ใจ
เสียงดังและตรงกับหัวข้อซ้ำซ้อนจากการคำนวณคะแนน
และช่วยเพิ่มทั้งประสิทธิภาพและประสิทธิผลในเวลา query
.
ในที่สุด สมการที่ 1 จะพิจารณาคุณภาพโดยรวมของวิดีโอที่เกี่ยวข้อง
Q ( VR ) ฟังก์ชัน Q ( VR ) ขึ้นอยู่ในหมู่
ปัจจัยอื่น ๆในวิดีโออายุ , อัพโหลด , " Thumbs up "
" นิ้วหัวแม่มือลง " นับความนิยมวิดีโอและความสดชื่น
หมายเหตุ ตั้งแต่วิดีโอทั้งหมดมีประมาณเดียวกัน ( เล็ก )
หมายเลขของหัวข้อที่เกี่ยวข้องกับพวกเขา เราไม่ได้ใช้
ความยาวใด ๆเอกสารปกติวิธี เช่น โคไซน์ ความเหมือนหรือ pivoted
ความยาวปกติ [ 26 ] แทนเรา
เพียงแค่ใช้ unnormalized เวกเตอร์ dot ผลิตภัณฑ์เป็นฟังก์ชันในสมการคะแนน
1 .
การแปล กรุณารอสักครู่..
