(Chapter 6 explains this in more de

(Chapter 6 explains this in more detail). In order to get this kind of information,
the text of the document needs to be retrieved.
In Chapter 3, we saw some ways that documents can be stored for fast access.
There are many ways to approach this problem, but in the end, a separate system is
necessary to convert search engine results from numbers into something readable
by people.
5.6 Index Construction
Before an index can be used for query processing, it has to be created from the text
collection. Building a small index is not particularly difficult, but as input sizes
grow, some index construction tricks can be useful. In this section, we will look at
simple in-memory index construction first, and then consider the case where the
input data does not fit in memory. Finally, we will consider how to build indexes
using more than one computer.
5.6.1 Simple Construction
Pseudocode for a simple indexer is shown in Figure 5.8. The process involves only
a few steps. A list of documents is passed to the BuildIndex function, and the
function parses each document into tokens, as discussed in Chapter 4. These to
kens are words, perhaps with some additional processing, such as downcasing or
stemming. The function removes duplicate tokens, using, for example, a hash ta
ble. Then, for each token, the function determines whether a new inverted list
needs to be created in I , and creates one if necessary. Finally, the current docu
ment number, n, is added to the inverted list.
The result is a hash table of tokens and inverted lists. The inverted lists are
just lists of integer document numbers and contain no special information. This
is enough to do very simple kinds of retrieval, as we saw in section 5.3.1.
As described, this indexer can be used for many small tasks—for example, in
dexing less than a few thousand documents. However, it is limited in two ways.
First, it requires that all of the inverted lists be stored in memory, which may not
be practical for larger collections. Second, this algorithm is sequential, with no
obvious way to parallelize it. The primary barrier to parallelizing this algorithm is
the hash table, which is accessed constantly in the inner loop. Adding locks to the
hash table would allow parallelism for parsing, but that improvement alone will

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

(บทที่ 6 อธิบายนี้รายละเอียดเพิ่มเติม) เพื่อให้ได้รับข้อมูล ชนิดนี้ข้อความของเอกสารต้องการดึงในบทที่ 3 เราเห็นวิธีที่เอกสารสามารถจัดเก็บสำหรับการเข้าถึงอย่างรวดเร็วมีหลายวิธีในการเข้าหาปัญหานี้ แต่ในท้ายที่สุด เป็นระบบแยกต่างหากจำเป็นต้องแปลงผลลัพธ์เครื่องมือการค้นหาจากหมายเลขเป็นสิ่งที่อ่านได้โดยคน5.6 ก่อสร้างดัชนีก่อนที่ดัชนีสามารถใช้สำหรับการประมวลผลแบบสอบถาม มันมีการสร้างจากข้อความคอลเลกชัน สร้างดัชนีเล็กไม่ ยากโดยเฉพาะอย่างยิ่ง แต่ เป็นขนาดของอินพุตเติบโต เทคนิคก่อสร้างดัชนีบางอย่างจะมีประโยชน์ ในส่วนนี้ เราจะมาดูง่ายหน่วยดัชนีก่อสร้างครั้งแรก แล้ว พิจารณากรณีที่การข้อมูลที่ป้อนไม่พอดีในหน่วยความจำ ในที่สุด เราจะพิจารณาวิธีการสร้างดัชนีใช้คอมพิวเตอร์มากกว่าหนึ่งเครื่อง5.6.1 ก่อสร้างง่ายรหัสเทียมสำหรับการทำดัชนีแบบธรรมดาจะแสดงในรูปที่ 5.8 กระบวนการเกี่ยวข้องเท่านั้นไม่กี่ขั้นตอน รายการของเอกสารจะถูกส่งผ่านไปยังฟังก์ชัน BuildIndex และฟังก์ชันวิเคราะห์เอกสารแต่ละฉบับเป็นราชสกุล ตามที่กล่าวไว้ในบทที่ 4 การเหล่านี้เคนส์เป็นคำ อาจจะ มีบางอย่างเพิ่มเติมการประมวลผล เช่น downcasing หรือเกิด ฟังก์ชันการเอาออกโทเค็นที่ซ้ำ ใช้ เช่น แฮตาble จากนั้น สำหรับแต่ละโทเค็น ฟังก์ชันกำหนดว่า ใหม่กลับรายการต้องสร้างในฉัน และสร้างหนึ่งถ้าจำเป็น อมูลปัจจุบันในที่สุดหมายเลข ment, n ถูกเพิ่มลงในรายการที่คว่ำผลลัพธ์เป็นตารางแฮโทเค็น และกลับรายการ รายการคว่ำคือจำนวนเต็มเพียงรายการเอกสารหมายเลข และประกอบด้วยข้อมูลไม่มีพิเศษ นี้เพียงพอที่จะทำชนิดเรียก ง่ายมากเราเห็นในหัวข้อ 5.3.1ดังที่ระบุไว้ สร้างดัชนีนี้สามารถใช้สำหรับงานขนาดเล็กจำนวนมาก — ตัวอย่าง ในdexing น้อยกว่าเอกสารกี่พัน อย่างไรก็ตาม มันจะถูกจำกัดดังนี้ครั้งแรก มันต้องว่า ทั้งหมดของรายการกลับเก็บไว้ในหน่วยความจำ ซึ่งอาจไม่เหมาะสำหรับคอลเลกชันขนาดใหญ่ได้ ที่สอง อัลกอริทึมนี้เป็นลำดับ ไม่มีเห็นได้ชัดทางไป parallelize มัน อุปสรรคหลักการ parallelizing อัลกอริทึมนี้คือแฮตาราง การใช้อย่างต่อเนื่องในวงด้านในอยู่ เพิ่มระบบล็อคเพื่อการตารางแฮจะอนุญาตให้สำหรับการแยกวิเคราะห์ แต่ที่จะปรับปรุงเพียงอย่างเดียว

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

(บทที่ 6 อธิบายในรายละเอียดเพิ่มเติม) เพื่อที่จะได้รับชนิดของข้อมูลนี้
ข้อความของเอกสารจะต้องมีการดึง.
ในบทที่ 3 ที่เราได้เห็นวิธีการบางอย่างว่าเอกสารที่สามารถเก็บไว้สำหรับการเข้าถึงอย่างรวดเร็ว.
มีหลายวิธีที่จะเข้าถึงปัญหานี้ แต่ในท้ายที่สุดแล้ว ระบบที่แยกต่างหากเป็น
สิ่งที่จำเป็นในการแปลงผลการค้นหาจากตัวเลขที่เป็นสิ่งที่สามารถอ่านได้
โดยคน.
ดัชนี 5.6 ก่อสร้าง
ก่อนที่ดัชนีสามารถนำมาใช้สำหรับการประมวลผลแบบสอบถามจะต้องมีการสร้างขึ้นจากข้อความที่
คอลเลกชัน การสร้างดัชนีขนาดเล็กไม่ยากโดยเฉพาะอย่างยิ่ง แต่เป็น input ขนาด
เติบโตบางเทคนิคดัชนีการก่อสร้างจะมีประโยชน์ ในส่วนนี้เราจะดูที่
ง่ายในหน่วยความจำก่อสร้างดัชนีแรกและจากนั้นพิจารณากรณีที่
ป้อนข้อมูลไม่พอดีในหน่วยความจำ สุดท้ายเราจะพิจารณาวิธีการสร้างดัชนี
ใช้มากกว่าหนึ่งเครื่องคอมพิวเตอร์.
5.6.1 ก่อสร้างง่าย
pseudocode สำหรับทำดัชนีง่ายแสดงในรูปที่ 5.8 กระบวนการเกี่ยวกับการเพียง
ไม่กี่ขั้นตอน รายชื่อของเอกสารจะถูกส่งผ่านไปยังฟังก์ชั่น BuildIndex และ
ฟังก์ชั่นแยกวิเคราะห์เอกสารลงในราชสกุลแต่ละที่กล่าวไว้ในบทที่ 4 เหล่านี้
Kens เป็นคำอาจจะมีการประมวลผลเพิ่มเติมบางอย่างเช่น downcasing หรือ
กั้น ฟังก์ชั่นลบราชสกุลที่ซ้ำกันโดยใช้ตัวอย่างเช่นกัญชา TA
BLE จากนั้นแต่ละโทเค็น, ฟังก์ชั่นกำหนดว่ารายการคว่ำใหม่
จะต้องมีการสร้างขึ้นในผมและสร้างหนึ่งในกรณีที่จำเป็น สุดท้าย docu ปัจจุบัน
จำนวน ment, N จะถูกเพิ่มลงในรายการคว่ำ.
ผลที่ได้คือตารางแฮชของสัญญาณและรายการคว่ำ รายการกลับมี
เพียงรายการเลขที่เอกสารจำนวนเต็มและไม่มีข้อมูลพิเศษ นี้
ก็เพียงพอที่จะทำชนิดง่ายมากของการดึงอย่างที่เราเห็นในส่วน 5.3.1.
ตามที่อธิบายไว้, ทำดัชนีนี้สามารถใช้สำหรับงานสำหรับขนาดเล็กจำนวนมากตัวอย่างเช่นใน
Dexing น้อยกว่าไม่กี่พันเอกสาร แต่ก็มีข้อ จำกัด ในสองวิธี.
ครั้งแรกก็ต้องว่าทั้งหมดของรายการกลับถูกเก็บไว้ในหน่วยความจำที่ไม่อาจ
เป็นจริงสำหรับคอลเลกชันขนาดใหญ่ ประการที่สองขั้นตอนวิธีนี้เป็นลำดับโดยไม่มี
วิธีที่ชัดเจนที่จะคู่ขนานมัน อุปสรรคหลักในการ parallelizing ขั้นตอนวิธีนี้เป็น
ตารางแฮชซึ่งสามารถเข้าถึงได้อย่างต่อเนื่องในภายในวง เพิ่มล็อคกับ
ตารางแฮชจะช่วยให้ขนานสำหรับการแยก แต่การปรับปรุงที่อยู่คนเดียวจะ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

( บทที่ 6 อธิบายนี้ในรายละเอียดเพิ่มเติม ) เพื่อที่จะได้รับข้อมูลนี้ข้อความของเอกสารที่ต้องถูกดึงในบทที่ 3 เราเห็นบางวิธีที่เอกสารจะถูกเก็บไว้สำหรับการเข้าถึงอย่างรวดเร็วมีหลายวิธีที่จะเข้าถึง ปัญหานี้ แต่ในที่สุดระบบที่แยกต่างหากคือต้องแปลงผลลัพธ์ของเครื่องมือค้นหาเป็นสิ่งที่สามารถอ่านได้จาก หมายเลขโดยคนสร้างดัชนีดอลลาร์ก่อนที่ดัชนีที่สามารถใช้สำหรับการประมวลผลแบบสอบถาม , มันถูกสร้างขึ้นจากข้อความคอลเลกชัน สร้างดัชนีเล็กไม่ยาก แต่เป็นขนาดข้อมูลดัชนีการเติบโต บางเทคนิคที่สามารถเป็นประโยชน์ ในส่วนนี้เราจะดูที่ความง่ายในการสร้างดัชนีก่อน แล้วพิจารณาคดีที่ข้อมูลไม่พอในหน่วยความจำ สุดท้าย เราจะพิจารณาวิธีการสร้างดัชนีการใช้คอมพิวเตอร์มากกว่าหนึ่งเครื่อง5.6.1 ง่ายก่อสร้างรหัสเทียมสำหรับดัชนีอย่างง่ายที่แสดงในรูปที่ 8 . กระบวนการที่เกี่ยวข้องกับเท่านั้นไม่กี่ขั้นตอน รายการเอกสารที่ส่งผ่านไปยังฟังก์ชัน buildindex , และฟังก์ชันวิเคราะห์เอกสารแต่ละเป็นสัญญาณตามที่กล่าวถึงในบทที่ 4 พวกนี้เคนซ์เป็นคำพูด บางทีของบางอย่างเพิ่มเติม เช่น downcasing หรือกั้น . ฟังก์ชันลบสัญญาณซ้ำ ใช้ ตัวอย่าง แฮช ทาble . แล้ว สำหรับแต่ละ โทเค็น ฟังก์ชันกำหนดว่ารายการใหม่กลับหัวความต้องการที่จะสร้างขึ้นในชั้น และสร้างหนึ่งถ้าจำเป็น ในที่สุด , โทรทัศน์ปัจจุบันment จำนวน n เพิ่มกลับรายการผลที่ได้คือตารางแฮชของสัญญาณและกลับรายการ กลับรายการแค่รายชื่อเอกสารและตัวเลขจำนวนเต็มไม่มีข้อมูลพิเศษ นี้พอทำง่ายมาก ประเภทของการสืบค้น ตามที่เราเห็นในส่วน 5.3.1 .ไว้ ดัชนีนี้สามารถใช้สำหรับงานขนาดเล็กมาก ตัวอย่างเช่น ในเอกสาร Dexing น้อยกว่าไม่กี่พัน อย่างไรก็ตาม มันมีข้อจำกัดในสองวิธีแรก มันมีทั้งหมดของฤๅษีรายการถูกเก็บไว้ในหน่วยความจำซึ่งอาจจะไม่เป็นประโยชน์สำหรับคอลเลกชันที่มีขนาดใหญ่ ประการที่สอง ขั้นตอนวิธีนี้จะต่อเนื่องกับไม่มีวิธีที่ชัดเจนที่จะ parallelize . อุปสรรคหลักในการ parallelizing ขั้นตอนวิธีนี้เป็นตารางแฮชซึ่งเข้าถึงได้ตลอดเวลาในการวนรอบภายใน เพิ่มล็อคไปตารางแฮชจะอนุญาตให้ขนานสำหรับการ แต่จะปรับปรุงคนเดียว

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.