The algorithm parses documents into

The algorithm parses documents into termID–docID pairs and accumulates the pairs inmemory until a block of a fixed size is full (PARSENEXTBLOCKin Figure 4.2). We choose the block size to fit comfortably into memory to permit a fast in-memory sort. The block is then inverted and written to disk. Inversion involves two steps. First, we sort the termID–docID pairs. Next, we collect all termID–docID pairs with the same termID into a postings list, where a posting is simply a docID.
The result, an inverted index for the block we have just read, is then written to disk. Applying this to Reuters-RCV1 and
assuming we can fit 10 million termID–docID pairs into memory, we end up with ten blocks, each an inverted index of one part of the collection.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ขั้นตอนวิธีการแยกวิเคราะห์เอกสารที่เป็นคู่ termID-docid และสะสมคู่ inmemory จนกว่าบล็อกขนาดคงเต็ม (PARSENEXTBLOCKin รูปที่ 4.2) เราเลือกบล็อกขนาดเพื่อให้พอดีกับความสะดวกสบายในหน่วยความจำจะอนุญาตให้มีการจัดเรียงอย่างรวดเร็วในหน่วยความจำ บล็อกจะกลับแล้วและเขียนไปยังดิสก์ ผกผันเกี่ยวข้องกับขั้นตอนที่สอง ครั้งแรกที่เราจัดเรียงคู่ termID-docid ต่อไปเราจะเก็บทุกคู่ termID-docid กับ termID เดียวกันในการโพสต์รายชื่อที่โพสต์เป็นเพียง docid.
ผล, ดัชนีกลับสำหรับบล็อกที่เราได้เพียงแค่อ่านแล้วจะถูกเขียนไปยังดิสก์ ใช้นี้รอยเตอร์-RCV1 และ
สมมติว่าเราสามารถใส่ 10 ล้านคู่ termID-docid ในหน่วยความจำเราจบลงด้วยสิบบล็อกแต่ละดัชนีคว่ำของส่วนหนึ่งของคอลเลกชัน

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

วิธีวิเคราะห์เอกสารใน termid – docid คู่และสะสมคู่ inmemory จนกว่าบล็อกของขนาดคงที่เต็ม ( parsenextblockin รูปที่ 4.2 ) เราเลือกบล็อกขนาดเพื่อให้พอดีกับความสะดวกสบายในหน่วยความจำเพื่อให้รวดเร็วในการจัดเรียงหน่วยความจำ บล็อกเป็นแล้วเอามาเขียนลงดิสก์ การเกี่ยวข้องกับสองขั้นตอน ครั้งแรกที่เราเรียง termid – docid คู่ ต่อไปเรารวบรวมทั้งหมด termid – docid คู่กับ termid ลงในรายการการโพสต์ที่โพสต์เป็นเพียง docid .
ผลกลับดัชนีบล็อกเราได้แค่อ่าน แล้วเขียนไปยังดิสก์ ใช้สิ่งนี้เพื่อ reuters-rcv1 และ
สมมติว่าเราสามารถให้ 10 ล้าน termid – docid คู่เข้าไปในหน่วยความจำ เราลงเอยกับสิบบล็อก แต่ละกลับดัชนีส่วนหนึ่งของคอลเลกชัน

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.