25.4.1 Evaluation Metrics
Since the objective of push and nuke attacks is to promote and demote target items,
we need to evaluate how successfully they do so. Evaluation metrics for robustness
need to capture the differences in the predicted ratings and recommended status (i.e.
whether or not the target item in included in a top N recommended list) of target
items pre- and post-attack.
Many researchers have used average prediction shift to evaluate the changes in
predicted ratings. Let UT and IT be the sets of users and items, respectively, in the
test data. For each user-item pair (u, i), the prediction shift denoted by ∆u,i can be
measured as ∆u,i = pu,i − pu,i, where p and p′ are the pre- and post-attack predic-
tions, respectively. A positive value means, for example, that the attack has suc-
ceeded in making a pushed item more positively rated. The average prediction shift
for an item i over all users can be computed as ∆i = ∑u∈UT ∆u,i/|UT |. Similarly the
average prediction shift for all items tested can be computed as ∆ = ∑i∈IT ∆i/|IT |.
Prediction shift is a good indicator that an attack is having the desired effect
of making a pushed (or nuked) item appear more (or less) desirable. However, it
is possible that a pushed item, for example, could be strongly shifted on average
but still not make it onto a recommendation list. Such a situation could arise if the
item’s initial average prediction is so low that even a strong boost is insufficient. To
capture the impact of an attack on prediction lists, another metric has been proposed:
hit ratio. Let Ru be the set of top N recommendations for user u. If the target item
appears in Ru, for user u, the scoring function Hui has value 1; otherwise it is zero.
Hit ratio for an item i is given by HitRatioi = ∑u∈UT Hui/|UT |. Average hit ratio can
then calculated as the sum of the hit ratio for each item i following an attack on i
across all items divided by the number of items: HitRatio = ∑i∈IT HitRatioi/|IT |.
Many experimenters make use of the publicly available MovieLens 100K dataset5.
This dataset consists of 100,000 ratings made by 943 users on 1,682 movies. Ratings are expressed on an integer rating scale of 1 to 5 (the higher the score, the more
liked an item is). Results below should be assumed to be relative to this dataset
unless otherwise stated.
ตัวชี้วัดการประเมินผล 25.4.1
ตั้งแต่วัตถุประสงค์ผลักดันและการโจมตีนิวเคลียร์เพื่อส่งเสริมและถอดถอนรายการเป้าหมาย
เราต้องประเมินว่าประสบความสำเร็จ พวกเขาทำเช่นนั้น ตัวชี้วัดเพื่อประเมินความแข็งแกร่ง
ต้องจับความแตกต่างในการทำนายคะแนนและแนะนำสถานะ ( เช่น
หรือไม่เป้าหมายรายการที่รวมอยู่ในรายการด้านบน ( แนะนำ ) ของเป้าหมาย
รายการก่อนและหลังการโจมตี
นักวิจัยหลายคนได้ใช้กะเดาเฉลี่ยเพื่อประเมินการเปลี่ยนแปลง
ทำนายคะแนน ขอ UT และมันเป็นชุดของผู้ใช้และรายการตามลำดับใน
ข้อมูลทดสอบ สำหรับสินค้าแต่ละรายการผู้ใช้คู่ ( U , I ) การทำนาย Shift แทน โดย∆ u , ฉันสามารถวัดได้เป็น∆
U , I = PU , − PU , ผมที่ P และ P นั้นคือก่อนและหลังการโจมตี predic -
ยินดีด้วย ตามลำดับ ค่าเป็นบวก หมายความว่า ตัวอย่างที่โจมตีได้ซัค -
ceeded ในการผลักดันรายการมีการจัดอันดับ มีทำนายกะ
สำหรับรายการที่ผมมากกว่าผู้ใช้ทั้งหมดสามารถคำนวณเป็น∆ = ∑ u ∈ UT ∆ U , I / | UT | . ในทำนองเดียวกัน
กะคำทำนายเฉลี่ยสำหรับรายการทั้งหมดทดสอบที่สามารถคำนวณเป็น∆ = ∑ผม∈มัน∆ฉัน / | มัน | กะ
ทำนายเป็นตัวบ่งชี้ที่ดีว่า การโจมตีจะมีผลที่ต้องการ
ทำผลัก ( หรือระเบิด ) รายการปรากฏมากขึ้น ( หรือน้อยกว่า ) ที่พึงประสงค์ อย่างไรก็ตาม มันเป็นไปได้ที่ผลัก
รายการ เช่น อาจจะขอย้ายเฉลี่ย
แต่ยังไม่ให้ลงในรายการแนะนำ สถานการณ์ดังกล่าวอาจเกิดขึ้นหาก
รายการเริ่มต้นเฉลี่ยต่ำมาก แม้คำทำนายจะเพิ่มที่แข็งแกร่งเป็น insuf จึง cient .
จับภาพผลกระทบของการโจมตีในรายการพยากรณ์ตัวชี้วัดอื่นได้รับการเสนอ :
กดปุ่มอัตราส่วน ให้เกมเป็นชุดของคำแนะนำสำหรับผู้ใช้สูงสุด n U . ถ้าสินค้าเป้าหมาย
ปรากฏในรู สำหรับผู้ใช้ U ฟังก์ชันฮุยมีค่า 1 คะแนน มิฉะนั้นมันเป็นศูนย์ .
ตีสัดส่วนรายการที่ฉันได้รับจาก hitratioi = ∑ u ∈ UT ฮุย / | UT | . อัตราส่วนตีเฉลี่ยสามารถ
แล้วคำนวณเป็นผลรวมของอัตราส่วนแต่ละรายการตามตีโจมตีผม
ผ่านรายการทั้งหมดหารด้วยจำนวนรายการ : hitratio = ∑ผม∈มัน hitratioi / | มัน | .
มีผู้ทดลองใช้ของที่มีอยู่ทั่วไป movielens 100k dataset5 .
ชุดข้อมูลนี้ประกอบด้วย 100000 คะแนนโดยรอบผู้ใช้คนจะดูหนัง การจัดอันดับจะถูกแสดงบนจำนวนเต็มที่ระดับ 1 ถึง 5 ( สูงกว่าคะแนนยิ่ง
ชอบสินค้า )ผลลัพธ์ด้านล่างควรจะถือว่าเป็นญาติกับข้อมูล
ยกเว้นที่ระบุเป็นอย่างอื่น
การแปล กรุณารอสักครู่..
