While traditional visual recognition approaches map
low-level image features directly to object category labels,
recent work proposes models using visual attributes [1–
8]. Attributes are properties observable in images that have
human-designated names (e.g., ‘striped’, ‘four-legged’),
and they are valuable as a new semantic cue in various
problems. For example, researchers have shown their impact
for strengthening facial verification [5], object recognition
[6, 8, 16], generating descriptions of unfamiliar objects
[1], and to facilitate “zero-shot” transfer learning [2],
where one trains a classifier for an unseen object simply by
specifying which attributes it has.
Problem: Most existing work focuses wholly on attributes
as binary predicates indicating the presence (or absence)
of a certain property in an image [1–8, 16]. This may
suffice for part-based attributes (e.g., ‘has a head’) and some binary properties (e.g., ‘spotted’). However, for a large variety
of attributes, not only is this binary setting restrictive,
but it is also unnatural. For instance, it is not clear if in Figure
1(b) Hugh Laurie is smiling or not; different people are
likely to respond inconsistently in providing the presence
or absence of the ‘smiling’ attribute for this image, or of the
‘natural’ attribute for Figure 1(e).
Indeed, we observe that relative visual properties are a
semantically rich way by which humans describe and compare
objects in the world. They are necessary, for instance,
to refine an identifying description (“the ‘rounder’ pillow”;
“the same except ‘bluer”’), or to situate with respect to reference
objects (“‘brighter’ than a candle; ‘dimmer’ than a
flashlight”). Furthermore, they have potential to enhance
active and interactive learning—for instance, offering a better
guide for a visual search (“find me similar shoes, but
‘shinier’.” or “refine the retrieved images of downtown
Chicago to those taken on ‘sunnier’ days”).
ในขณะที่การรับรู้ภาพดั้งเดิมวิธีแผนที่คุณลักษณะภาพระดับต่ำโดยตรงในการป้ายชื่อประเภทวัตถุรุ่นที่ใช้แอตทริบิวต์ visual [1 – เสนอผลงานล่าสุด8] สังเกตคุณสมบัติได้ในภาพที่มีแอตทริบิวต์เป็นมนุษย์กำหนดชื่อ (เช่น 'ลาย' 'จตุ'),และจะมีค่าเป็นสัญลักษณ์ทางตรรกใหม่ในที่ต่าง ๆปัญหา ตัวอย่างเช่น นักวิจัยได้แสดงให้เห็นผลกระทบสำหรับการเสริมสร้างการตรวจสอบผิวหน้า [5], การรู้จำวัตถุ[6, 8, 16], สร้างคำอธิบายของวัตถุที่ไม่คุ้นเคย[1], และ เพื่อความสะดวกในการโอน "ศูนย์ภาพ" การเรียนรู้ [2],ซึ่ง รถไฟลักษณนามสำหรับวัตถุที่มองไม่เห็นก็ตามระบุซึ่งคุณลักษณะได้ปัญหา: งานที่มีอยู่ส่วนใหญ่เน้นทั้งแอตทริบิวต์เป็นเพรดิเคตที่ไบนารีที่ระบุว่า มี (หรือไม่)มีทรัพย์สินบางอย่างในภาพ [1-8, 16] พฤษภาคมนี้ พอเพียงสำหรับแอตทริบิวต์ตามส่วน (เช่น, 'มีหัว') และบางคุณสมบัติไบนารี (เช่น, 'ด่าง') อย่างไรก็ตาม สำหรับความหลากหลายแอตทริบิวต์ ไม่เพียงแต่เป็นไบนารีนี้ตั้งค่าจำกัดแต่ก็ยังดูไม่เป็นธรรมชาติ เช่น มันไม่ชัดเจนถ้าในรูป1(b) Hugh Laurie ยิ้ม หรือ ไม่ ผู้คนที่แตกต่างกันแนวโน้มการตอบสนองนานในการปรากฏตัวของการ 'รอยยิ้ม' แอตทริบิวต์ สำหรับรูปนี้ หรือของแอตทริบิวต์ 'ธรรมชาติ' สำหรับรูป 1(e)แน่นอน เราสังเกตเห็นว่า แห่งภาพที่สัมพันธ์กันเป็นวิธีรวยประโยคที่มนุษย์อธิบาย และเปรียบเทียบวัตถุในโลก พวกเขาจำเป็น เช่นเพื่อกำหนดคำอธิบายที่ระบุ ("'หัว' หมอน""เดียวกันยกเว้น ' bluer "') หรือตั้งอยู่ตามอ้างอิงวัตถุ (" 'สว่าง' กว่าเทียน; ' หรี่ ' กว่าไฟฉาย") นอกจากนี้ พวกเขามีศักยภาพที่จะเพิ่มการเรียนรู้แบบโต้ตอบ และใช้งานอยู่ — เช่น สิ่งที่ดีกว่าคู่มือสำหรับการค้นหาภาพ ("เจอรองเท้าที่คล้ายกัน แต่'เงา' "หรือ"ปรับแต่งภาพดึงความชิคาโกที่ถ่ายในวันที่ 'sunnier' ")
การแปล กรุณารอสักครู่..

ในขณะที่แบบดั้งเดิม การรับรู้ภาพ วิธีพิเศษภาพโดยตรงคุณสมบัติในวัตถุฉลากประเภทผลงานล่าสุด นำเสนอรูปแบบการใช้แอตทริบิวต์ [ 1 –ภาพ8 ] คุณลักษณะคุณสมบัติที่สังเกตในรูปว่ามีชื่อของเขต เช่น ลาย " " , " " สี่ขา )และพวกเขาจะมีคุณค่าเป็นคิวของความหมายใหม่ในต่าง ๆปัญหา ตัวอย่างเช่น นักวิจัยได้แสดงผลกระทบของพวกเขาสำหรับการเพิ่มการตรวจสอบผิวหน้า [ 5 ] , รับรู้[ 6 , 8 , 16 ) การสร้างรายละเอียดของวัตถุที่ไม่คุ้นเคย[ 1 ] และ " ศูนย์ยิง " เพื่อความสะดวกในการถ่ายโอนการเรียนรู้ [ 2 ]ที่รถไฟลักษณนามสําหรับวัตถุที่มองไม่เห็น เพียงโดยซึ่งคุณลักษณะที่ระบุได้ปัญหา : ส่วนใหญ่ที่มีอยู่ทำงานมุ่งเน้นทั้งหมดแอตทริบิวต์เป็นภาคแสดงเลขฐานสองแสดงตน ( หรือขาด )จากคุณสมบัติบางอย่างในรูป [ 1 – 8 , 16 ) นี้อาจพอเพียงส่วนหนึ่งจากคุณลักษณะ ( เช่น " หัว " ) และไบนารี คุณสมบัติ ( เช่น " พบ " ) อย่างไรก็ตาม สำหรับหลากหลายลักษณะที่ไม่เพียง แต่นี้คือการตั้งค่าแบบเข้มงวดแต่ก็ยังกระแดะ ตัวอย่าง มันไม่ชัดเจนถ้าในรูป1 ( ข ) ฮิวจ์ลอรียิ้มหรือไม่ คนต่างกัน คืออาจจะตอบไม่สอดคล้องในการให้สถานะหรือขาด " ยิ้ม " คุณลักษณะ สำหรับภาพนี้ หรือของ" " สำหรับแอตทริบิวต์ธรรมชาติ รูปที่ 1 ( E )แน่นอน เราสังเกตว่า คุณสมบัติภาพญาติเป็นเพื่อที่อุดมไปด้วยวิธีการที่มนุษย์อธิบายและเปรียบเทียบวัตถุในโลก มีความจําเป็น เช่นเพื่อปรับปรุงการระบุรายละเอียด ( " " กลม " หมอน "" เหมือนกัน ยกเว้น bluer " ) , หรืออยู่ส่วนอ้างอิงวัตถุ ( " "brighter " กว่าเทียน " หรี่ " มากกว่าไฟฉาย " ) นอกจากนี้ พวกเขามีศักยภาพที่จะเพิ่มที่ใช้งานและการเรียนรู้แบบโต้ตอบ เช่น เสนอดีกว่าคู่มือสำหรับการค้นหาภาพ ( " หารองเท้าที่คล้ายกันแต่" เงา " . " หรือ " ปรับแต่งการดึงภาพของเมืองชิคาโกที่ถ่ายใน sunnier " " วัน " )
การแปล กรุณารอสักครู่..
