Modern document collections such as

Modern document collections such as e-mail, newsgroups and Web pages, can contain groups of documents with largely overlapping content. On the Web, for example, studies have shown that up to 45% of the pages are duplicates – pages with (nearly) identical content that are replicated in many diﬀerent sites [6, 8, 22]. In e-mail collections, individual documents with signiﬁcant amounts of overlapping content are naturally created as people reply to (or forward) messages while keeping the original content intact. E-mail exchanges often contain long chains or threads of replies to replies, causing early messages in the thread to be replicated over and over. Similar threading patterns are also common in newsgroup discussions. Information Retrieval (IR) systems typically use an inverted text index to evaluate free-text queries. During indexing, most IR systems process each document separately, causing overlapping content to be indexed multiple times. This, in turn, leads to larger indexes that take longer to build and longer to query. In this paper, we describe a scheme where overlapping content is indexed just once

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

คอลเลกชันเอกสารสมัยใหม่เช่นอีเมล กลุ่มข่าวสารและเว็บเพจ สามารถประกอบด้วยกลุ่มของเอกสารที่มีเนื้อหาส่วนใหญ่ทับซ้อนกัน บนเว็บ เช่น การศึกษาแสดงให้เห็นขึ้นเป็น 45% ของหน้าซ้ำ – หน้าที่ มี (เกือบ) เหมือนเนื้อหาที่ถูกจำลองแบบในเว็บไซต์จึงแตกต่างกันจำนวนมาก [6, 8, 22] ในคอลเลกชันอีเมล์ เอกสารแต่ละฉบับ มีเนื้อหาเหลื่อมงมากธรรมชาติสร้างเป็นคน (หรือ ตอบกลับไปข้างหน้า) ข้อความในขณะที่เก็บเนื้อหาต้นฉบับเหมือนเดิม แลกเปลี่ยนอีเมล์มักจะประกอบด้วยโซ่ยาวหรือเธรดของการตอบกลับการตอบกลับ การทำให้ข้อความแรกในเธรดถูกจำลองแบบซ้ำ ๆ ซาก ๆ รูปแบบการเธรดที่คล้ายกันไว้ในการสนทนากลุ่มข่าวสารทั่วไป ระบบการเรียกข้อมูล (IR) โดยทั่วไปใช้ดัชนีข้อความเป็นการประเมินแบบสอบถามความ ในระหว่างการทำดัชนี ระบบ IR ส่วนใหญ่กระบวนการเอกสารแต่ละฉบับแยกต่างหาก ซ้อนทับเนื้อหาดัชนีหลายครั้งก่อให้เกิด นี้ ในการนำไปสู่ขนาดใหญ่ เปิดดัชนีที่ใช้ในการสร้าง และในการสอบถาม ในกระดาษนี้ เราอธิบายแบบที่ซ้อนเนื้อหาการจัดทำดัชนีเพียงครั้งเดียว

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

คอลเลกชันเอกสารที่ทันสมัยเช่น E-mail, กลุ่มข่าวและหน้าเว็บสามารถมีกลุ่มของเอกสารที่มีเนื้อหาส่วนใหญ่ที่ทับซ้อนกัน บนเว็บตัวอย่างเช่นการศึกษาได้แสดงให้เห็นว่าถึง 45% ของหน้าเว็บที่มีการซ้ำกัน - หน้าเว็บที่มี (เกือบ) เนื้อหาเหมือนกันที่มีการจำลองแบบในดิ FF เว็บไซต์ต่างกันจำนวนมาก [6, 8, 22] ในคอลเลกชันอีเมลเอกสารแต่ละที่มีจำนวน Fi ลาดเทนัยสำคัญของการทับซ้อนกันเนื้อหาที่ถูกสร้างขึ้นตามธรรมชาติเป็นคนที่ตอบกลับ (หรือส่ง) ข้อความในขณะที่การรักษาเนื้อหาเดิมเหมือนเดิม การแลกเปลี่ยนทาง E-mail มักจะมีโซ่ยาวหรือหัวข้อของการตอบกลับตอบกลับข้อความที่ก่อให้เกิดต้นในหัวข้อที่จะจำลองแบบซ้ำไปซ้ำมา รูปแบบเกลียวคล้ายกันนอกจากนี้ยังมีการร่วมกันในการอภิปรายกลุ่มข่าวสาร ดึงข้อมูล (IR) ระบบมักจะใช้ดัชนีข้อความกลับเพื่อประเมินแบบสอบถามข้อความอิสระ ในระหว่างการจัดทำดัชนีมากที่สุดระบบ IR ดำเนินการเอกสารแต่ละแยกที่ก่อให้เกิดเนื้อหาที่ทับซ้อนกันจะจัดทำดัชนีหลายครั้ง นี้ในการเปิดนำไปสู่การจัดทำดัชนีขนาดใหญ่ที่ต้องใช้เวลานานในการสร้างและอีกต่อไปเพื่อสอบถาม ในบทความนี้เราจะอธิบายโครงการที่มีเนื้อหาที่ทับซ้อนกันเป็นดัชนีเพียงครั้งเดียว

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

เก็บเอกสารที่ทันสมัยเช่น e - mail , กลุ่มข่าวและหน้าเว็บจะประกอบด้วยกลุ่มของเอกสารส่วนใหญ่ทับซ้อนกับเนื้อหา บนเว็บ ตัวอย่าง การศึกษาได้แสดงว่า ถึง 45% ของหน้าเว็บที่ซ้ำกัน ( เกือบ ) และหน้าเว็บที่มีเนื้อหาที่ซ้ำกันหลาย ดิ ﬀ erent ไซต์ [ 6 , 8 , 22 ) ในคอลเลกชันของ e - mail , เอกสารส่วนบุคคลกับ signi จึงไม่สามารถสร้างเนื้อหาปริมาณซ้อนกันโดยธรรมชาติเป็นคนตอบกลับไป ( หรือไปข้างหน้า ) ข้อความในขณะที่การรักษายังคงเนื้อหาเดิม อีเมล์การแลกเปลี่ยนมักจะประกอบด้วยโซ่ยาวหรือหัวข้อตอบตอบ ทำให้ข้อความเร็วในหัวข้อจะซ้ำมากกว่า เกลียวรูปแบบคล้ายกันยังพบบ่อยในการสนทนากลุ่มข่าว การสืบค้นข้อมูล ( IR ) โดยทั่วไปจะใช้ระบบแบบประเมินแบบสอบถามดัชนีข้อความข้อความฟรี ในระหว่างการ กระบวนการ ระบบ IR ส่วนใหญ่เอกสารแต่ละแยกต่างหาก สาเหตุที่ทับซ้อนกัน เนื้อหาเป็นหลายครั้ง การจัดทำดัชนี นี้ในการเปิดจะนำไปสู่ขนาดใหญ่ที่ใช้เวลานานในการสร้างดัชนีและการค้นหาอีกต่อไป . ในกระดาษนี้เราอธิบายรูปแบบเนื้อหาที่ซ้อนกันเป็นดัชนีเพียงครั้งเดียว

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.