Blocked sort-based indexing has exc

Blocked sort-based indexing has excellent scaling properties, but it needs
a data structure for mapping terms to termIDs. For very large collections,
this data structure does not fit into memory. A more scalable alternative is
single-pass in-memory indexing or SPIMI. SPIMI uses terms SINGLE-PASS instead of termIDs,
IN-MEMORY INDEXING writes each block’s dictionary to disk, and then starts a newdictionary for the
next block. SPIMI can index collections of any size as long as there is enough
disk space available.
The SPIMI algorithm is shown in Figure 4.4. The part of the algorithm that
parses documents and turns them into a stream of term–docID pairs, which
we call tokens here, has been omitted. SPIMI-INVERT is called repeatedly on
the token stream until the entire collection has been processed.
Tokens are processed one by one (line 4) during each successive call of
SPIMI-INVERT. When a term occurs for the first time, it is added to the
dictionary (best implemented as a hash), and a new postings list is created
(line 6). The call in line 7 returns this postings list for subsequent occurrences
of the term.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ทำดัชนีเรียงตามบล็อคมีคุณสมบัติมาตราส่วน แต่ต้องโครงสร้างข้อมูลสำหรับการแม็ปเงื่อนไข termIDs สำหรับคอลเลกชันมีขนาดใหญ่มากโครงสร้างข้อมูลนี้ไม่พอดีลงในหน่วยความจำ เป็นทางเลือกสามารถต่อขยายเพิ่มเติมการจัดทำดัชนีในรอบเดียวหรือ SPIMI SPIMI ใช้เงื่อนไขเดียวผ่านแทน termIDsหน่วยความจำในดัชนีเขียนพจนานุกรมของบล็อกแต่ละดิสก์ แล้ว เริ่ม newdictionary สำหรับการบล็อกถัดไป SPIMI สามารถทำดัชนีคอลเลกชันขนาดใดก็ได้ตราบเท่าที่มีอยู่เพียงพอเนื้อที่ดิสก์ที่พร้อมใช้งานอัลกอริทึม SPIMI จะแสดงในรูปที่ 4.4 ส่วนหนึ่งของขั้นตอนวิธีการที่วิเคราะห์เอกสาร และเปลี่ยนให้เป็นกระแสของคู่คำ – docID ซึ่งเราเรียกสัญญาณที่นี่ มีการละเว้นการ SPIMI-กลับถูกเรียกซ้ำในกระแสโทเคนจนกว่าจะมีการประมวลผลทั้งหมดสัญญาณประมวลผลทีละ (4 เส้น) ในระหว่างการเรียกแต่ละต่อเนื่องSPIMI-กลับ คำที่เกิดขึ้นเป็นครั้งแรก จะถูกเพิ่มเข้าไปพจนานุกรม (ส่วนใช้เป็นแฮ), และรายการบัญชีใหม่ถูกสร้าง(บรรทัด 6) การเรียกบรรทัด 7 ส่งกลับรายการลงรายการบัญชีนี้เกิดขึ้นตามมาของคำ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

บล็อคการจัดทำดัชนีเรียงตามมีคุณสมบัติปรับดี แต่ก็ต้อง
โครงสร้างข้อมูลสำหรับคำทำแผนที่เพื่อ termIDs สำหรับคอลเลกชันขนาดใหญ่มาก
โครงสร้างข้อมูลนี้ไม่ได้ใส่ลงในหน่วยความจำ ทางเลือกที่สามารถปรับขนาดได้มากขึ้น
เพียงครั้งเดียวผ่านในหน่วยความจำหรือการจัดทำดัชนี SPIMI SPIMI ใช้คำ SINGLE-PASS แทน termIDs,
INDEXING ในหน่วยความจำเขียนพจนานุกรมบล็อกแต่ละดิสก์และจากนั้นก็เริ่ม newdictionary สำหรับ
บล็อกถัดไป SPIMI สามารถดัชนีคอลเลกชันที่มีขนาดใด ๆ ตราบเท่าที่มีเพียงพอ
พื้นที่ดิสก์ที่ใช้ได้.
ขั้นตอนวิธี SPIMI แสดงในรูปที่ 4.4 ส่วนหนึ่งของขั้นตอนวิธีการที่
จะแยกวิเคราะห์เอกสารและเปลี่ยนไปเป็นกระแสของคู่ระยะ docid ซึ่ง
เราเรียกว่าสัญญาณที่นี่ได้รับการละเว้น SPIMI-INVERT เรียกว่าซ้ำ
กระแส token จนถึงคอลเลกชันทั้งหมดได้รับการประมวลผล.
มีการประมวลผลสัญญาณหนึ่งโดยหนึ่ง (สาย 4) ในระหว่างการโทรแต่ละครั้งต่อเนื่องของ
SPIMI-INVERT เมื่อระยะที่เกิดขึ้นเป็นครั้งแรกก็จะถูกเพิ่มใน
พจนานุกรม (การดำเนินการที่ดีที่สุดเป็นกัญชา) และรายการโพสต์ใหม่ถูกสร้างขึ้น
(สาย 6) โทรในสาย 7 รายการนี้ผลตอบแทนสำหรับการโพสต์ที่เกิดขึ้นตามมา
ของคำว่า

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

บล็อกเรียงตามดัชนีมีการปรับคุณสมบัติที่ยอดเยี่ยม , แต่ความต้องการ
เป็นโครงสร้างข้อมูลสำหรับการทำแผนที่ข้อตกลง termids . สำหรับคอลเลกชันที่มีขนาดใหญ่มาก
ข้อมูลโครงสร้างไม่ได้ พอดีเข้าไปในหน่วยความจำ เป็นทางเลือกที่ยืดหยุ่นมากขึ้น
ผ่านเดียวในความทรงจำอื่นๆ หรือ spimi . spimi ใช้เงื่อนไขเดียวผ่านแทน termids
ดัชนี , หน่วยความจำของพจนานุกรมเขียนบล็อกแต่ละดิสก์แล้วเริ่ม newdictionary สำหรับ
หน้าบล็อก spimi สามารถดัชนีคอลเลกชันของขนาดใด ๆตราบเท่าที่มีพื้นที่ดิสก์เพียงพอ

spimi ใช้ได้ วิธีที่แสดงในรูปที่ 4.4 . ส่วนของขั้นตอนวิธีที่
วิเคราะห์เอกสารและเปลี่ยนไปเป็นกระแสในระยะ– docid คู่ซึ่ง
เราเรียกสัญญาณนี้ได้รับการละเว้น spimi-invert ซ้ำๆใน
เรียกว่าสัญลักษณ์กระแสจนกระทั่งคอลเลกชันทั้งหมดจะถูกประมวลผล .
สัญญาณประมวลผลหนึ่งโดยหนึ่ง ( สาย 4 ) ในระหว่างการโทรแต่ละครั้งต่อเนื่อง
spimi-invert . เมื่อเงื่อนไขเกิดขึ้นครั้งแรก มันเพิ่ม
พจนานุกรม ( ที่ดีที่สุดที่ใช้เป็นสับ ) , และรายการใหม่จะถูกสร้างขึ้น
( บรรทัดที่ 6 ) โทรในบรรทัดที่ 7 จะโพสต์รายการสำหรับเหตุการณ์นี้ตามมา
ของระยะ

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.