On the Integration of Structure Indexes and Inverted Lists
Raghav Kaushik Rajasekar Krishnamurthy Jeffrey F Naughton Raghu Ramakrishnan
University of Wisconsin, Madison
{raghav,sekar,naughton,raghu}@cs.wisc.edu
Recently, there has been a great deal of interest in the development
of techniques to evaluate path expressions over
collections of XML documents. In general, these path expressions
contain both structural and keyword components.
Several methods have been proposed for processing path
expressions over graph/tree-structured XML data. These
methods can be classified into two broad classes. The first
involves graph traversal where the input query is evaluated
by traversing the data graph or some compressed representation.
The other class involves information-retrieval style
processing using inverted lists. In this framework, structure
indexes have been proposed to be used as a substitute
for graph traversal. These structure indexes are proven to
be very effective when applied to queries that examine the
“coarse” structure of documents. For example, for many
documents, a query //section/figure/title would be evaluated
very efficiently by a structure index. Unfortunately, the
structure indexing approach is much less successful when
we consider queries on “values” or text words in the documents.
This is roughly because any summary that retains
enough detail to answer such queries has to be big (it has
to encode a lot of details about specific values), so running
queries over the summary will be no more efficient than running
them over the original data. On the other hand, while
inverted list processing has proven very effective for keyword
searches in the information retrieval (IR) community,
when applied to path expression queries over XML documents
they are less universally effective. The problem is
that evaluating a path may require many joins over large inverted
lists, and these joins can be expensive. To the best of
our knowledge, no published literature addresses the problem
of combining these two forms of auxiliary indexes.
This paper bridges this gap by proposing a strategy that
combines structure indexes and inverted lists and a query
evaluation algorithm for branching path expressions based
on this strategy. Our algorithmdoes not assume any specific
property of these indexes and is applicable for a wide range
of structure indexes and inverted list join algorithms. We
have implemented our approach in the Niagara native XML
data management system [3] and our experiments demonstrate
that we can derive substantial benefits by integrating
the two forms of indexes.
While finding all documents or elements that satisfy a
given path expression is a common use of path expression
querying, users who specify keyword-based IR queries typically
want just the k most relevant answers. Several proposals
have been made to incorporate the IR notion of relevance
to XML queries. As described in [2], XML search tasks can
be divided into Content-Only (CO) tasks where XML documents
are searched only using keywords, and Content-and-
Structure (CAS) tasks where both structure and content is
queried.
In this paper, we focus on a subclass of CAS queries
consisting of simple path expressions. We study algorithmic
issues in integrating structure indexes with inverted
lists for the evaluation of these queries, where we rank all
documents that match the query and return the top k documents
in order of relevance. We allow a broad class of
relevance functions that covers the standard tf-idf notion of
ranking and propose instance-optimal methods of pushing
down top k computation by combining the forms of indexes.
Our approach is based on Fagin et al.’s Threshold Algorithm(
TA) [1]. Our setting poses novel challenges, since the
ranking function we allow is not necessarily monotonic [1].
Also, unlike TA which is a middleware algorithm, our focus
is on the database server where additional access paths are
available. This violates the assumptions under which TA
is shown to be instance optimal. We show that a structure
index can be used in conjunction with the ranked inverted
lists to design a new algorithm that is instance optimal even
in the presence of these access paths.
References
[1] R. Fagin, A. Lotem, and M. Naor. Optimal aggregation algorithms for
middleware. In Proceedings of PODS, 2001.
[2] N. Fuhr, M. Lalmas, and S. Malik. INEX:
initiative for evaluation of XML retrieval.
http://inex.is.informatik.uni-duisburg.de:2003.
[3] Niagara query engine. http://www.cs.wisc.edu/niagara.
Proceedings of the 20th International Conference on Data Engineering (ICDE’04)
1063-6382/04 $ 20.00 © 2004 IEEE
ในการบูรณาการของดัชนีโครงสร้างและรายชื่อฤๅษี
Raghav Kaushik rajasekar krishnamurthy เจฟฟรีย์เอ Naughton รัค Ramakrishnan
มหาวิทยาลัยวิสคอนซิน
{Raghav, sekar, Naughton, รัค} @
cs.wisc.edu เมื่อเร็ว ๆ นี้ได้มีการจัดการที่ดี ที่น่าสนใจในการพัฒนา
เทคนิคการประเมินการแสดงออกเส้นทางผ่านคอลเลกชัน
เอกสาร xml ที่ โดยทั่วไปเส้นทางเหล่านี้นิพจน์
มีทั้งโครงสร้างและส่วนประกอบของคำหลัก.
หลายวิธีที่ได้รับการเสนอสำหรับเส้นทางการประมวลผลการแสดงออก
กว่ากราฟ / ต้นไม้โครงสร้างข้อมูล xml ที่
วิธีการเหล่านี้สามารถแบ่งได้เป็นสองชั้นเรียนในวงกว้าง ครั้งแรกที่เกี่ยวข้องกับการสำรวจเส้นทาง
กราฟที่แบบสอบถามเข้ารับการประเมิน
โดย traversing กราฟข้อมูลหรือการแสดงบางอย่างที่ถูกบีบอัด.
ชั้นอื่น ๆ ที่เกี่ยวข้องกับรูปแบบการดึงข้อมูล
การประมวลผลการใช้รายการคว่ำ ในกรอบนี้โครงสร้าง
ดัชนีได้รับการเสนอที่จะนำมาใช้แทน
กราฟ traversal ดัชนีโครงสร้างเหล่านี้จะพิสูจน์ให้
จะมีประสิทธิภาพมากเมื่อนำไปใช้แบบสอบถามที่ตรวจสอบ
"หยาบ" โครงสร้างของเอกสาร เช่นสำหรับเอกสารจำนวนมาก
แบบสอบถาม / / / ส่วนรูป / ชื่อจะได้รับการประเมิน
อย่างมีประสิทธิภาพโดยดัชนีโครงสร้างแต่น่าเสียดายที่วิธีการจัดทำดัชนี
โครงสร้างมากที่ประสบความสำเร็จน้อยกว่าเมื่อ
เราพิจารณาคำสั่งที่ "ค่า" หรือคำข้อความในเอกสาร.
นี้คือประมาณเพราะสรุปว่าคง
รายละเอียดมากพอที่จะตอบแบบสอบถามดังกล่าวจะต้องมีขนาดใหญ่ (มี
การเข้ารหัสจำนวนมากของรายละเอียดเกี่ยวกับค่าเฉพาะ) ดังนั้นการทำงาน
คำสั่งในช่วงสรุปจะไม่มีประสิทธิภาพมากขึ้นกว่าที่ใช้
พวกเขามากกว่าข้อมูลเดิม ในทางกลับกันการประมวลผลรายการในขณะที่
กลับได้พิสูจน์แล้วว่ามีประสิทธิภาพมากสำหรับคำหลักในการค้นหา
การดึงข้อมูล (ir) ชุมชน
เมื่อนำไปใช้กับการค้นหาเส้นทางการแสดงออกเอกสาร xml ที่
พวกเขาจะไม่เป็นที่แพร่หลายที่มีประสิทธิภาพ ปัญหาคือว่าการประเมิน
เส้นทางอาจต้องใช้จำนวนมากเข้าร่วมกว่าขนาดใหญ่คว่ำ
รายการและการเชื่อมโยงนี้อาจมีราคาแพงที่ดีที่สุดของ
ความรู้ของเราไม่มีเอกสารตีพิมพ์อยู่ปัญหา
ของการรวมทั้งสองรูปแบบของดัชนีที่ช่วย.
บทความนี้สะพานช่องว่างด้วยการเสนอกลยุทธ์ที่
รวมดัชนีโครงสร้างและรายชื่อกลับและการประเมินผลแบบสอบถาม
ขั้นตอนวิธีการแยกนี้ การแสดงออกตามเส้นทาง
ในกลยุทธ์นี้ algorithmdoes เราไม่คิดที่เฉพาะเจาะจงใด ๆ
สถานที่ให้บริการของดัชนีเหล่านี้และมีผลบังคับใช้สำหรับหลากหลาย
ของดัชนีโครงสร้างและรายชื่อกลับเข้าร่วมขั้นตอนวิธีการ
เราได้ดำเนินการวิธีการของเราอยู่ในระบบการจัดการแบบ xml
ข้อมูลพื้นเมือง Niagara [3] และการทดลองของเราแสดงให้เห็นถึง
ที่เราสามารถได้รับประโยชน์อย่างมากโดยบูรณาการ
สองรูปแบบของดัชนี.
ขณะที่การหาเอกสารหรือองค์ประกอบทั้งหมดที่ตอบสนอง
ได้รับการแสดงออกเส้นทางคือการใช้ร่วมกันในการแสดงออกเส้นทาง
สอบถามผู้ใช้ที่ระบุการค้นหา ir คำหลักที่มักจะต้องการเพียงแค่
k คำตอบที่เกี่ยวข้องมากที่สุด หลายข้อเสนอ
ได้รับการทำเพื่อรวมความคิดของความเกี่ยวข้อง ir
จะ xml คำสั่ง ตามที่อธิบายไว้ใน [2] งานค้นหา xml ที่สามารถ
แบ่งออกเป็นเนื้อหาอย่างเดียว (ร่วม) งานที่เอกสาร XML
จะค้นหาเฉพาะการใช้คำหลักและเนื้อหาและโครงสร้าง
(CAS) งานที่ทั้งโครงสร้างและเนื้อหาเป็น
สอบถาม.
ในบทความนี้เราจะมุ่งเน้นไปที่ประเภทรองของการสืบค้น CAS
ประกอบด้วยการแสดงเส้นทางที่ง่าย เราศึกษาปัญหาขั้นตอนวิธีการในการรวม
ดัชนีโครงสร้างที่มีฤๅษี
รายการสำหรับการประเมินผลการค้นหาเหล่านี้ที่เราจัดอันดับทั้งหมด
เอกสารที่ตรงกับคำค้นหาและกลับ k
บนเอกสารในลำดับของความเกี่ยวข้องเราอนุญาตให้ชั้นเรียนในวงกว้างของฟังก์ชั่น
ความเกี่ยวข้องที่ครอบคลุมความคิด tf-IDF มาตรฐาน
การจัดอันดับและนำเสนอวิธีการอินสแตนซ์ที่ดีที่สุดของการผลักดันการคำนวณลง
k ด้านบนโดยการรวมรูปแบบของดัชนี.
วิธีการของเราจะขึ้นอยู่กับ Fagin ตอัล ของขั้นตอนวิธีการเกณฑ์ (
ta) [1] การตั้งค่าของเราความท้าทายใหม่เนื่องจากฟังก์ชัน
การจัดอันดับให้เราไม่จำเป็นต้องต่อเนื่อง [1].
ยังซึ่งแตกต่างจากตาซึ่งเป็นขั้นตอนวิธีการมิดเดิลแวร์ของเรามุ่งเน้น
อยู่บนเซิร์ฟเวอร์ฐานข้อมูลที่เส้นทางการเข้าถึงที่เพิ่มขึ้นนี้สามารถใช้ได้
นี้ละเมิดสมมติฐานตามที่ ta
แสดงให้เห็นว่าเป็นตัวอย่างที่ดีที่สุด เราแสดงให้เห็นว่าโครงสร้าง
ดัชนีสามารถนำมาใช้ร่วมกับการจัดอันดับคว่ำ
รายการการออกแบบขั้นตอนวิธีการใหม่ที่เป็นตัวอย่างที่ดีที่สุดแม้
ในที่ที่มีเส้นทางการเข้าถึงเหล่านี้.
อ้างอิง[1] r Fagin, Lotem และเมตร Naor ขั้นตอนวิธีการที่ดีที่สุดสำหรับการรวมตัว
ตัวกลาง ในการดำเนินการของฝัก, 2001.
[2] n Fuhr, m lalmas และ s มาลิก Inex..
ความคิดริเริ่มสำหรับการประเมินผลของการดึง xml ที่
http://inex.is.informatik.uni-duisburg.de:2003 [3] เครื่องยนต์แบบสอบถามไนแอการา http://www.cs.wisc.edu/niagara.
ดำเนินคดีของการประชุมระหว่างประเทศที่ 20 ในวิศวกรรมข้อมูล (icde'04)
การแปล กรุณารอสักครู่..
รวมโครงสร้างดัชนีและกลับรายการ
กรีนพาร์ครี Kaushik Rajasekar Krishnamurthy เจฟฟรีย์ F นอตัน Raghu Ramakrishnan
มหาวิทยาลัยวิสคอนซิน Madison
{raghav,sekar,naughton,raghu}@cs.wisc.edu
Recently มีมากที่น่าสนใจในการพัฒนา
เทคนิคประเมินนิพจน์เส้นทางผ่าน
ชุดของเอกสาร XML โดยทั่วไป นิพจน์เส้นทางเหล่านี้
ประกอบด้วยโครงสร้างและคำสำคัญคอมโพเนนต์
ได้รับการเสนอวิธีการต่าง ๆ สำหรับประมวลผลเส้นทาง
นิพจน์มากกว่าโครงกราฟ/แผนภูมิสร้างข้อมูล XML เหล่านี้
วิธีสามารถแบ่งได้ 2 ชั้นกว้าง แรก
เกี่ยวข้องข้ามกราฟซึ่งประเมินแบบสอบถามนำเข้า
โดยข้ามสิ่งกีดขวางกราฟข้อมูลหรือบางบีบแทน
ประเภทอื่น ๆ เกี่ยวข้องกับการเรียกข้อมูลลักษณะ
โดยใช้กระบวนกลับรายการ ในกรอบนี้ โครงสร้าง
ดัชนีได้รับการเสนอชื่อที่จะใช้ทดแทน
สำหรับข้ามกราฟ มีพิสูจน์โครงสร้างดัชนีเหล่านี้
มีผลมากเมื่อใช้กับแบบสอบถามที่ตรวจสอบ
"หยาบ" โครงสร้างของเอกสาร ตัวอย่าง สำหรับหลาย
จะประเมินเอกสาร //section/figure/title สอบถาม
โดยดัชนีโครงสร้างได้อย่างมีประสิทธิภาพมากขึ้น อับ
โครงสร้างดัชนีวิธีจะประสบความสำเร็จมากน้อยเมื่อ
เราพิจารณาแบบสอบถามบนคำ "ค่า" หรือข้อความในเอกสาร
นี้เป็นประมาณ เพราะสรุปใด ๆ ที่ยังคง
มีรายละเอียดพอที่จะตอบคำถามดังกล่าวจะมีขนาดใหญ่ (มี
การเข้ารหัสของรายละเอียดเกี่ยวกับค่าเฉพาะ), ทำให้
สอบถามผ่านสรุปจะไม่มีประสิทธิภาพมากกว่าทำงาน
พวกเขาได้ผ่านข้อมูลต้นฉบับ บนมืออื่น ๆ ขณะ
ประมวลผลรายการกลับได้พิสูจน์ประสิทธิภาพมากสำคัญ
ค้นหาชุมชนเรียกข้อมูล (IR),
เมื่อใช้แบบสอบถามนิพจน์เส้นทางผ่านเอกสาร XML
จะมีประสิทธิภาพน้อยเกลียดชัง ปัญหาคือ
ว่า ประเมินเส้นทางอาจต้องใช้หลายรวมกว่าใหญ่กลับ
รายการ และรวมเหล่านี้จะมีราคาสูงขึ้น กับ
ความรู้ของเรา ไม่เผยแพร่เอกสารประกอบการปัญหา
การรวมแบบฟอร์มเหล่านี้สองของเสริมดัชนี
กระดาษนี้สะพานช่องว่างนี้ โดยเสนอกลยุทธ์ที่
รวมโครงสร้างดัชนี และกลับรายการ และแบบสอบถาม
ประเมินอัลกอริทึมสำหรับนิพจน์เส้นทางโยงหัวข้อที่ใช้
ในกลยุทธ์นี้ Algorithmdoes ของเราคิดเฉพาะใด ๆ
คุณสมบัติของดัชนี และใช้สำหรับหลากหลาย
โครงสร้างดัชนีและอัลกอริทึมรวมกลับรายการ เรา
ได้ใช้วิธีการของเราในไนแองการาภาษา XML
ระบบการจัดการข้อมูล [3] และการทดลองของเราแสดง
ว่า เราสามารถได้รับประโยชน์ โดยรวม
สองรูปแบบของดัชนี
ขณะค้นหาเอกสารทั้งหมดหรือองค์ประกอบที่ตอบสนองการ
ให้เส้น นิพจน์เป็นการใช้นิพจน์เส้นทาง
สอบถาม ผู้ใช้ที่ระบุคำสำคัญที่ใช้สอบถาม IR ปกติ
ต้องเพียง k มากที่สุดตอบ ข้อเสนอหลาย
ได้ทำการรวบรวมความ IR ความเกี่ยวข้อง
แบบสอบถามแบบ XML ตามที่อธิบายไว้ใน [2], งานค้นหา XML สามารถ
แบ่งงาน Content-Only (CO) ซึ่งเอกสาร XML
ค้นหาเท่านั้น โดยใช้คำสำคัญ และเนื้อหา - และ -
งานโครงสร้าง (CAS) โครงสร้างและเนื้อหา
สอบถาม
ในกระดาษนี้ เรามุ่งเน้นในระดับชั้นย่อยของ CAS ถาม
ประกอบด้วยนิพจน์เส้นทางง่าย ๆ เราศึกษา algorithmic
ปัญหาในโครงสร้างดัชนีโดยรวมกลับ
รายการสำหรับการประเมินแบบสอบถามเหล่านี้ ที่เราจัดอันดับทั้งหมด
เอกสารที่ตรงกับแบบสอบถาม และส่งคืนเอกสารบน k
ลำดับความเกี่ยวข้อง เราอนุญาตให้ระดับกว้างของ
หน้าที่เกี่ยวข้องที่ครอบคลุมแนวคิดมาตรฐาน tf-idf ของ
จัดอันดับ และเสนอวิธีการผลักดันอย่างสุด
ลง k สุดคำนวณ โดยรวมรูปแบบของดัชนี
Fagin et al. Algorithm(
TA) จำกัด [1] ใช้วิธีการของเรา การตั้งค่าของเรามาสร้างความท้าทายนวนิยาย ตั้งแต่การ
จัดอันดับเราให้ฟังก์ชันไม่จำเป็นต้อง monotonic [1] .
ยัง ต่างจาก TA ที่เป็นมิดเดิลแวร์อัลกอริทึม โฟกัสของเรา
บนเซิร์ฟเวอร์ฐานข้อมูลซึ่งมีเส้นทางเข้าเพิ่มเติม
ว่าง นี้ละเมิดสมมติฐานภายใต้ที่ TA
แสดงเป็น อินสแตนซ์ที่เหมาะสม เราแสดงว่าโครงสร้าง
ดัชนีสามารถใช้ร่วมกับการจัดอันดับกลับ
รายการในการออกแบบขั้นตอนวิธีการใหม่ที่เป็นอินสแตนซ์ที่เหมาะสมที่สุดแม้
ในต่อหน้าของเหล่านี้เข้าถึงเส้นทางได้
อ้างอิง
[1] R. Fagin, A. Lotem และ M. Naor อัลกอริทึมรวมดีที่สุดสำหรับ
มิดเดิลแวร์ ในตอนของฝัก 2001.
Fuhr ตอนเหนือ [2] Lalmas เมตร และมาลิ ค s ได้ด้วย INEX:
ริเริ่มประเมินผลของ XML เรียก
http://inex.is.informatik.uni-duisburg.de:2003.
[3] ไนแองการาสอบถามโปรแกรม http://www.cs.wisc.edu/niagara.
วิชาการการประชุมวิชาการนานาชาติ 20 บนข้อมูลวิศวกรรม (ICDE'04)
1063-6382/04 $ 20.00 © 2004 IEEE
การแปล กรุณารอสักครู่..
ในการประกอบโครงสร้างของดัชนีชี้วัดและกลับด้านรายการ
raghav kaushik rajasekar krishnamurthy ตั้งแต่บ๊อบเกลด๊ F naughton raghu ramakrishnan
University of Wisconsin , Madison
{ raghav , sekar , naughton , raghu }@ cs.wisc.edu
recently, มีข้อตกลงที่ดีเยี่ยมของความสนใจในการพัฒนา
ซึ่งจะช่วยด้านเทคนิคในการประเมินเส้นทางถ่ายทอดผ่าน
คอลเลคชั่นของ XML เอกสาร นิพจน์ทั่วไปในพาธ
ตามมาตรฐานเหล่านี้ประกอบด้วยส่วนประกอบโครงสร้างและคำว่าทั้ง.
หลายวิธีได้รับการเสนอสำหรับการประมวลผลพาธ
ซึ่งจะช่วยถ่ายทอดผ่านกราฟ/ข้อมูล XML ทรี - โครงสร้าง
วิธีใดวิธีหนึ่งต่อไปนี้สามารถแบ่งออกเป็นสองชั้นเรียนอย่างกว้างขวาง เป็นครั้งแรกที่มีส่วนเกี่ยวข้องกับ
ข้ามกราฟที่ป้อนคำถามได้รับการประเมินผล
ซึ่งจะช่วยโดยผ่านกราฟข้อมูลหรือการแสดงแบบบีบอัดบางส่วน.
Class อื่นๆที่เกี่ยวข้องกับสไตล์ข้อมูล - เรียกดู
การประมวลผลโดยใช้รายการยุบเข้าไป ในกรอบนี้โครงสร้าง
ดัชนีชี้วัดได้รับการเสนอให้ใช้เป็นอุปกรณ์ที่ใช้แทน
สำหรับข้ามกราฟ เหล่านี้เป็นโครงสร้างดัชนีชี้วัดได้รับการพิสูจน์แล้วว่าสามารถ
ซึ่งจะช่วยให้มี ประสิทธิภาพ เป็นอย่างมากเมื่อนำไปประยุกต์ใช้ในการค้นหาข้อมูลที่ตรวจสอบได้
"หยาบ"โครงสร้างของเอกสาร ยกตัวอย่างเช่นสำหรับจำนวนมาก
เอกสารชื่อ/รูป/การสืบค้น//ส่วนที่จะมีการพิจารณา
ซึ่งจะช่วยเป็นอย่างมากได้อย่างมี ประสิทธิภาพ โดยดัชนีโครงสร้างแต่เป็นที่น่าเสียดายที่
โครงสร้างการจัดทำดัชนีหรือไม่มาประสบความสำเร็จน้อยมากเมื่อ
ซึ่งจะช่วยเราพิจารณาว่าการค้นหาใน"ค่า"หรือข้อความคำในเอกสาร.
แห่งนี้คือประมาณเพราะได้สรุปที่ยังคงรักษาไว้ซึ่งรายละเอียด
ไม่เพียงพอกับการตอบคำถามดังกล่าวจะต้องเป็นขนาดใหญ่(มี
ซึ่งจะช่วยในการเข้ารหัสเป็นจำนวนมากในรายละเอียดเกี่ยวกับเฉพาะค่า)ดังนั้นการทำงาน
ซึ่งจะช่วยในการค้นหาข้อมูลที่สรุปจะไม่มีมี ประสิทธิภาพ มากกว่าการใช้
ให้ข้อมูลมากกว่าเดิม อีกด้านหนึ่งที่ในขณะที่
การประมวลผลรายการกลับด้านได้พิสูจน์แล้วว่ามี ประสิทธิภาพ เป็นอย่างมากสำหรับการค้นหาคำหลัก
ซึ่งจะช่วยในการกู้คืนข้อมูล(อินฟราเรด)ชุมชน
เมื่อนำมาใช้กับพาธการแสดงออกในการค้นหาเอกสาร XML
ไม่อยู่โดยทั่วไปแล้วมีผลบังคับใช้ ปัญหาที่เป็น
ซึ่งจะช่วยให้การประเมินเส้นทางที่อาจจำเป็นต้องใช้จำนวนมากเข้าร่วมมากกว่าขนาดใหญ่ติดตั้งแบบกลับด้าน
รายการและเข้าร่วมเหล่านี้อาจเป็นงานที่ต้องเสียค่าใช้จ่ายมากการที่ดีที่สุดของ
ของเราความรู้,ไม่มีเผยแพร่เอกสารแอดเดรสที่มีปัญหา
ซึ่งจะช่วยในการผสมผสานทั้งสองรูปแบบของเสริมดัชนี.
รายงานนี้ช่องว่างระหว่างสะพานแห่งนี้โดยเสนอกลยุทธ์ที่
ประกอบด้วยโครงสร้างดัชนีชี้วัดและกลับด้านรายการและการสืบค้นพื้นฐาน
ซึ่งจะช่วยการประเมินผลอัลกอริธึมการแสดงออกให้เห็นโครงข่ายเส้นทางใช้
บนกลยุทธ์นี้. algorithmdoes ของเราไม่ได้จะต้องเป็นผู้รับผิดชอบใดเป็นการเฉพาะ
ตามมาตรฐานที่พักแห่งนี้และเป็นดัชนีชี้วัดที่มีผลบังคับใช้กับการใช้งานได้อย่างหลากหลายทั้ง
ของดัชนีชี้วัดและโครงสร้างกลับด้านรายการเข้าร่วมอัลกอริธึม
ซึ่งจะช่วยเราได้ใช้วิธีการของเราใน Niagara พื้นเมือง XML
ซึ่งจะช่วยการจัดการข้อมูลระบบ[ 3 ]และการทดลองของเราแสดงให้เห็นถึง
ซึ่งจะช่วยให้เราสามารถได้รับสิทธิประโยชน์เป็นอย่างมากโดยการรวม
สองรูปแบบของดัชนี.
ในขณะที่การค้นหาเอกสารทั้งหมดหรือองค์ประกอบที่สร้างความพึงพอใจที่
การแสดงออกทางความคิดเห็นพาธให้เป็นการใช้ร่วมกันของพาธการแสดงออกทางความคิดเห็น
ซึ่งจะช่วยสอบถามผู้ใช้ที่ระบุการค้นหาคำว่าอินฟราเรดใช้โดยทั่วไปแล้ว
ต้องการคำตอบเพียงกม.ที่เกี่ยวข้องมากที่สุด ข้อเสนอหลาย
ซึ่งจะช่วยได้มีการทำขึ้นเพื่อรวมความคิดอินฟราเรดที่มีการค้นหาความสัมพันธ์
XML เช่นที่อธิบายไว้ใน[ 2 ]งานการค้นหา XML สามารถ
ซึ่งจะช่วยแบ่งออกเป็นงาน content-only ( CO )ในกรณีที่เอกสาร XML
จะถูกค้นหาเท่านั้นโดยใช้คีย์เวิร์ดและเนื้อหาและ
โครงสร้าง( CA )งานที่เนื้อหาและโครงสร้างทั้งสองมี
ซึ่งจะช่วยได้ถาม.
ในเอกสารนี้เรามุ่งเน้นที่การค้นหาลำดับชั้นย่อยของ CA ที่ประกอบด้วย
ซึ่งจะช่วยการพาธแบบเรียบง่าย เราศึกษาอัลกอริธึม
ซึ่งจะช่วยแก้ไขปัญหาในดัชนีชี้วัดการประกอบโครงสร้างด้วยรายการกลับด้าน
ซึ่งจะช่วยในการประเมินผลของการค้นหาข้อมูลเหล่านี้ซึ่งเราจัดอันดับทั้งหมด
เอกสารที่มีอยู่และตรงกับที่สอบถามและส่งคืนเอกสารต่างๆ K ด้านบน
ซึ่งจะช่วยในการสั่งซื้อของความสัมพันธ์เราช่วยให้กว้างระดับของความสัมพันธ์
ซึ่งจะช่วยการทำงานที่ครอบคลุมที่มาตรฐาน TF - IDF ความคิดของการจัดอันดับและเสนอ
ซึ่งจะช่วยยกตัวอย่างเช่นที่ได้ผลดีที่สุดวิธีในการผลักดัน
ลงด้านบน K มารวมกันโดยการผสมผสานระหว่างรูปแบบของดัชนี.
ของเราวิธีการใช้ fagin et al .เกณฑ์ขั้นต่ำของอัลกอริทึม(
ตา)[ 1 ]. การตั้งค่าของเราเป็นความท้าทายใหม่นับตั้งแต่ฟังก์ชัน
ซึ่งจะช่วยให้เราได้อนุญาตให้การจัดอันดับไม่จำเป็นต้อง monotonic [ 1 ].
ยังไม่เหมือนกับตาซึ่งเป็นอัลกอริธึมซอฟแวร์ตัวกลางที่ให้ความสำคัญของเรา
ซึ่งจะช่วยอยู่บนเซิร์ฟเวอร์ฐานข้อมูลที่พาธการเข้าระบบเพิ่มเติมมี
ซึ่งจะช่วยจัดให้บริการ โรงแรมแห่งนี้ฝ่าฝืนสมมุติฐานที่ตามที่มีการแสดงมาบตาพุด
ซึ่งจะช่วยให้ได้รับ ประสิทธิภาพ สูงสุดยกตัวอย่างเช่น เราแสดงให้เห็นว่าดัชนีโครงสร้าง
ซึ่งจะช่วยให้สามารถใช้งานร่วมกับอันดับกลับด้าน
รายการให้กับอัลกอริธึมการออกแบบใหม่ที่เป็นดีที่สุดแม้จะ
ซึ่งจะช่วยในการมีอยู่ของพาธการเชื่อมต่อเหล่านี้.
ตามมาตรฐานการอ้างอิง[ 1 ]. R . A . fagin lotem และ M . naor . อัลกอริธึมการผนวกรวมอย่างมี ประสิทธิภาพ สูงสุดสำหรับ
ซอฟแวร์ตัวกลาง ในการประชุมของพ็อด 2001 .
[ 2 ]. N . fuhr m . lalmas วิวัฒนาการและ S .. โครงการ:
inex เพื่อใช้ในการประเมินการ XML Niagara ,การเรียกข้อมูลจาก.
http://inex.is.informatik.uni-duisburg.de:2003.
[3] สืบค้นเครื่องยนต์ http://www.cs.wisc.edu/niagara.
proceedings ของการประชุมนานาชาติที่ 20 กับข้อมูลทางวิศวกรรม( icde ' 04 )
1063-6382/04 $ 20.00 © 2004 IEEE
การแปล กรุณารอสักครู่..