As described in Chapter 6, sponsored search and content match are two different
advertising models widely used by commercial search engines. The former
matches advertisements to queries, whereas the latter matches advertisements to
web pages. Both sponsored search and content match use a pay per click pricing
model, which means that advertisers must pay the search engine only if a user
clicks on the advertisement. A user may click on an advertisement for a number
of reasons. Clearly, if the advertisement is “topically relevant,” which is the standard
notion of relevance discussed in the rest of this book, then the user may click
on it. However, this is not the only reason why a user may click. If a user searches
for “tropical fish”, she may click on advertisements for pet stores, local aquariums,
or even scuba diving lessons. It is less likely, however, that she would click on advertisements
for fishing, fish restaurants, or mercury poisoning. The reason for
this is that the concept “tropical fish” has a certain semantic scope that limits the
type of advertisements a user may find interesting.
Although it is possible to use standard information retrieval techniques such
as query expansion or query reformulation analysis to find these semantic matches
for advertising, it is also possible to use a classifier that maps queries (and web
pages) into semantic classes. Broder et al. (2007) propose a simple yet effective
technique for classifying textual items, such as queries and web pages, into a semantic
hierarchy. The hierarchy was manually constructed and consists of over
6,000 nodes, where each node represents a single semantic class. As one moves
deeper down the hierarchy, the classes become more specific. Human judges manually
placed thousands of queries with commercial intent into the hierarchy based
on each query’s intended semantic meaning.
Given such a hierarchy and thousands of labeled instances, there are many possible
ways to classify unseen queries or web pages. For example, one could learn a
Naïve Bayes model or use SVMs. Since there are over 6,000 classes, however, there
could be data sparsity issues, with certain classes having very few labeled instances
associated with them. A bigger problem, however, would be the efficiency of this
approach. Both Naïve Bayes and SVMs would be very slow to classify an item into
one of 6,000 possible classes. Since queries must be classified in real time, this is
not an option. Instead, Broder et al. propose using cosine similarity with tf.idf
ตามที่อธิบายในบทที่ 6 การค้นหาการสนับสนุนและตรงกับเนื้อหาที่แตกต่างกันสอง
รูปแบบการโฆษณาที่ใช้กันอย่างแพร่หลายโดยเครื่องมือค้นหาในเชิงพาณิชย์ อดีต
ตรงกับการโฆษณาการสอบถามในขณะที่การแข่งขันหลังการโฆษณาเพื่อให้
หน้าเว็บ ทั้งการค้นหาและเนื้อหาการแข่งขันได้รับการสนับสนุนการใช้จ่ายต่อการกำหนดราคาคลิก
รุ่นซึ่งหมายความว่าผู้ลงโฆษณาจะต้องจ่ายเครื่องมือค้นหาเฉพาะในกรณีที่ผู้ใช้
คลิกที่โฆษณา ผู้ใช้อาจคลิกที่โฆษณาสำหรับจำนวน
ของเหตุผล เห็นได้ชัดว่าถ้าโฆษณาคือ "หัวข้อที่เกี่ยวข้อง" ซึ่งเป็นมาตรฐาน
ความคิดของความสัมพันธ์กันกล่าวถึงในส่วนที่เหลือของหนังสือเล่มนี้แล้วผู้ใช้สามารถคลิก
ที่มัน แต่นี้ไม่ได้เป็นเหตุผลเดียวที่ผู้ใช้อาจคลิก หากผู้ใช้ค้นหา
สำหรับ "ปลาเขตร้อน" เธออาจจะคลิกโฆษณาสำหรับร้านค้าสัตว์เลี้ยงสัตว์น้ำในท้องถิ่น
หรือแม้กระทั่งการเรียนดำน้ำ มันมีโอกาสน้อย แต่ที่เธอจะคลิกโฆษณา
สำหรับการตกปลา, ร้านอาหารปลาหรือเป็นพิษปรอท เหตุผลในการ
นี้ก็คือแนวคิด "ปลาเขตร้อน" มีขอบเขตความหมายบางอย่างที่ จำกัด
ประเภทของการโฆษณาผู้ใช้อาจพบที่น่าสนใจ.
แม้ว่ามันจะเป็นไปได้ที่จะใช้เทคนิคการดึงข้อมูลมาตรฐานเช่น
การขยายตัวแบบสอบถามหรือการวิเคราะห์แบบสอบถาม reformulation เพื่อหาสิ่งเหล่านี้ ตรงกับความหมาย
สำหรับการโฆษณาก็ยังเป็นไปได้ที่จะใช้ลักษณนามที่แมคำสั่ง (และเว็บ
หน้า) ในชั้นเรียนความหมาย พี่ชาย, et al (2007) เสนอที่เรียบง่าย แต่มีประสิทธิภาพ
เทคนิคในการแบ่งประเภทของรายการต้นฉบับเดิมเช่นแบบสอบถามและหน้าเว็บเป็นความหมาย
ลำดับชั้น ลำดับชั้นถูกสร้างขึ้นด้วยตนเองและประกอบด้วยมากกว่า
6,000 โหนดซึ่งแต่ละโหนดแสดงให้เห็นถึงระดับความหมายเดียว ในฐานะที่เป็นหนึ่งย้าย
ลึกลงลำดับชั้นเรียนกลายเป็นเฉพาะเจาะจงมากขึ้น ผู้พิพากษามนุษย์ด้วยตนเอง
วางพันของคำสั่งที่มีเจตนาในเชิงพาณิชย์เข้ามาในลำดับชั้นตาม
ในแต่ละแบบสอบถามความหมายที่ตั้งใจไว้.
ป.ร. ให้ไว้ดังกล่าวเป็นลำดับชั้นและจำนวนของกรณีที่มีป้ายกำกับมีความเป็นไปได้หลาย
วิธีในการจัดหมวดหมู่ข้อความที่มองไม่เห็นหรือหน้าเว็บ ตัวอย่างเช่นหนึ่งสามารถเรียนรู้
ไร้เดียงสา Bayes รุ่นหรือใช้ SVMs เนื่องจากมีกว่า 6,000 ชั้นเรียน แต่มี
อาจจะเป็นข้อมูลที่เป็นปัญหา sparsity กับชั้นเรียนบางกรณีมีการติดป้ายชื่อน้อยมากที่
เกี่ยวข้องกับพวกเขา เป็นปัญหาใหญ่ แต่จะมีประสิทธิภาพในการนี้
วิธีการ ทั้งไร้เดียงสา Bayes และ SVMs จะช้ามากที่จะจัดรายการออกเป็น
หนึ่งใน 6,000 เรียนที่เป็นไปได้ เนื่องจากคำสั่งจะต้องจัดในเวลาจริงนี้เป็น
ไม่ได้ตัวเลือก แต่พี่ et al, นำเสนอโดยใช้ความคล้ายคลึงกันกับโคไซน์ tf.idf
การแปล กรุณารอสักครู่..
