B. Collecting retailer content for augmented reality
Most of the existing applications, such as Junaio and
Navvis, require manual editing to provide the content for
augmented reality. However, when a new application just
launches, there is often very limited user generated content
(i.e., cold start), which stops people from using that application.
We try to address this cold start issue by automatically
crawling online content for the retailers. To avoid bias, we
aim to crawl content from diverse sources from the Web and
social media (e.g., public Facebook pages).
Our crawling is largely inspired by search engine users.
Suppose the target is a hair salon. Users often start with
a target identifier query like salon name + branch
(e.g.,“Salon Vim in Orchard”), and obtain a few initial pages.
From these pages, they learn more about the salon; e.g., it is
famous for some stylist. Then next time, users can use the
stylist name (e.g., “Alice”) together with the salon identifier
to search for more reviews. In summary, users iteratively
gather relevant information until they run out some budget
of iteration number. The key to our crawling is to ask right
queries, and we aim to learn these queries automatically.
Our crawling setting complements the traditional surface
Web crawling [2] with a novel query-driven approach. Traditional
crawling has to follow links from the already gathered
pages. In contrast, by exploiting a search engine, we
can intelligently formulate queries to universally locate the
useful information. Our crawling also differs from deep Web
[7], which only deals with structured records and queries,
instead of unstructured Web texts. Moreover, although there
exist some approaches for crawling text databases using free
queries [3], [8], they often miss the domain awareness and
context awareness, which we will discuss later.
Problem. We formulate the retailer content crawling task as
a learning to query problem. Specifically, since our crawling
task is to use queries to find relevant pages for a target
retailer (e.g., a hair salon) w.r.t. a target content type (e.g.,
reviews), we first define a relevance function Y : P →
{1, 0} which maps each page p ∈ P to relevant (1, if a page
contains reviews for the salon) or irrelevant (0, otherwise).
In implementation, we can employ a pre-trained classifier to
materialize Y . Then, in each querying iteration, we aim to
select the best query, which maximizes some utility based on
the relevance of its retrieved pages. In crawling, we generally
consider precision and recall (or some combination of them)
as the utility. Formally, denote a query q’s utility (w.r.t. the
relevance function Y ) as U(q). In each iteration, we form
the candidate query set Q, and then select the best query
B. เก็บจำหน่ายเนื้อหาความเป็นจริงที่สุดของโปรแกรมประยุกต์ที่มีอยู่ เช่น Junaio และNavvis ต้องแก้ไขด้วยตนเองเพื่อให้เนื้อหาของความเป็นจริง อย่างไรก็ตาม เมื่อโปรแกรมใหม่เพียงเปิดตัว มักจะมีการจำกัดผู้ใช้สร้างเนื้อหา(เช่น เย็นเริ่มต้น), ซึ่งหยุดคนจากการใช้โปรแกรมประยุกต์เราพยายามอยู่เย็นนี้เริ่มปัญหาโดยอัตโนมัติการตระเวนเนื้อหาออนไลน์สำหรับร้านค้าปลีกที่ เพื่อหลีกเลี่ยงความโน้มเอียง เราจุดมุ่งหมายเพื่อรวบรวมข้อมูลเนื้อหาจากแหล่งต่าง ๆ จากเว็บ และสื่อสังคมออนไลน์ (เช่น สาธารณะ Facebook หน้า)ส่วนใหญ่บันดาลใจเราตระเวน โดยผู้ใช้เครื่องมือค้นหาสมมติว่า เป้าหมายคือ ร้านทำผม ผู้ใช้มักจะเริ่มต้นด้วยแบบสอบถามระบุเป้าหมายเช่นชื่อร้าน + สาขา(e.g.,"Salon Vim ในออร์ชาร์ด"), และรับกี่หน้าแรกจากหน้านี้ พวกเขาเรียนรู้เพิ่มเติมเกี่ยวกับร้านเสริมสวย เช่น มันเป็นมีชื่อเสียงสำหรับนักออกแบบบาง แล้วครั้งต่อไป ผู้ใช้สามารถใช้การนักออกแบบชื่อ (เช่น, "อลิซ") พร้อมกับตัวร้านการค้นหาความคิดเห็น ในสรุป ผู้ใช้ซ้ำ ๆรวบรวมข้อมูลที่เกี่ยวข้องจนกว่าจะหมดงบประมาณบางจำนวนการเกิดซ้ำ สำคัญในการรวบรวมข้อมูลของเราคือ ถามอยู่แบบสอบถาม และเรามุ่งมั่นที่จะเรียนสอบถามเหล่านี้โดยอัตโนมัติการตั้งค่าของเราตระเวนช่วยเติมเต็มผิวดั้งเดิมเว็บ [2] ด้วยวิธีแบบสอบถามใหม่ แบบดั้งเดิมได้ตระเวนตามลิงค์จากรวบรวมแล้วหน้า โดยใช้เครื่องมือค้นหา เปรียบ เราอย่างชาญฉลาดสามารถกำหนดแบบสอบถามการค้นหาข้อมูลการข้อมูลที่เป็นประโยชน์ เราตระเวนยังแตกต่างจากเว็บลึก[7], ซึ่งเพียงเกี่ยวข้องกับระเบียนที่มีโครงสร้างและแบบสอบถามแทนข้อความเว็บไม่ นอกจากนี้ แม้ว่าจะมีมีบางแนวทางสำหรับการตระเวนฐานข้อมูลข้อความที่ใช้ฟรีสอบถาม [3], [8], พวกเขามักจะพลาดการรับรู้โดเมน และบริบทของการรับรู้ ซึ่งเราจะกล่าวถึงในภายหลังปัญหา เรากำหนดเนื้อหาร้านค้าตระเวนงานเป็นเรียนสอบถามปัญหา เฉพาะ ตั้งแต่เราตระเวนงานคือการ ใช้แบบสอบถามการค้นหาที่เกี่ยวข้องหน้าเป้าหมายการร้านค้าปลีก (เช่น ร้านทำผม) น้อย ๆ wrt กำหนดเป้าหมายเนื้อหาพิมพ์ (เช่นความคิดเห็น), เรากำหนดฟังก์ชันความสัมพันธ์ Y ก่อน: P →{1, 0 } ซึ่งแผนที่แต่ละหน้า p ∈ P ที่เกี่ยวข้อง (1 ถ้าหน้าประกอบด้วยความคิดเห็นสำหรับร้านเสริมสวย) หรือไม่เกี่ยวข้อง (0 อื่น ๆ)ในการใช้งาน เราสามารถใช้ลักษณนามที่ผ่านการฝึกอบรมก่อนการจริง Y แล้ว แผนการสอบถาม มุ่งมั่นเลือกแบบสอบถามที่ดีที่สุด ซึ่งเพิ่มอรรถประโยชน์บางอย่างตามความเกี่ยวข้องของการดึงหน้า ในตระเวน เราโดยทั่วไปพิจารณาความเที่ยงตรง และเรียกคืน (หรือรวมกันของพวกเขา)เป็นโปรแกรมอรรถประโยชน์ อย่างเป็นทางการ แสดงอรรถประโยชน์สอบถาม q's (น้อย ๆ wrtความสัมพันธ์ฟังก์ชัน Y) เป็น U(q) แผน แบบสอบถามผู้สมัครตั้ง Q และจากนั้นแบบสอบถามที่ดีที่สุด
การแปล กรุณารอสักครู่..
