In this chapter, we look at how to

In this chapter, we look at how to construct an inverted index. We call this
process index construction or indexing; the process or machine INDEXING that performs it
INDEXER the indexer. The design of indexing algorithms is governed by hardware constraints.
We therefore begin this chapter with a review of the basics of computer
hardware that are relevant for indexing. We then introduce blocked
sort-based indexing (Section 4.2), an efficient single-machine algorithm designed
for static collections that can be viewed as a more scalable version of
the basic sort-based indexing algorithm we introduced in Chapter 1. Section
4.3 describes single-pass in-memory indexing, an algorithm that has
even better scaling properties because it does not hold the vocabulary in
memory. For very large collections like the web, indexing has to be distributed
over computer clusters with hundreds or thousands of machines.
We discuss this in Section 4.4. Collections with frequent changes require dy-
namic indexing introduced in Section 4.5 so that changes in the collection are
immediately reflected in the index. Finally, we cover some complicating issues
that can arise in indexing – such as security and indexes for ranked
retrieval – in Section 4.6.
Index construction interacts with several topics covered in other chapters.
The indexer needs raw text, but documents are encoded in many ways (see
Chapter 2). Indexers compress and decompress intermediate files and the
final index (see Chapter 5). In web search, documents are not on a local
file system, but have to be spidered or crawled (see Chapter 20). In enterprise
search, most documents are encapsulated in varied content management
systems, email applications, and databases. We give some examples
in Section 4.7. Although most of these applications can be accessed via http,
native Application Programming Interfaces (APIs) are usuallymore efficient.
The reader should be aware that building the subsystem that feeds raw text
to the indexing process can in itself be a challenging problem.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ในบทนี้ เราค้นหาวิธีการสร้างดัชนีกลับ เราเรียกนี้ก่อสร้างดัชนีกระบวนการหรือการทำดัชนี กระบวนการหรือเครื่องจักรที่ทำดัชนีที่ทำตัวสร้างดัชนีของตัวทำดัชนี การออกแบบของอัลกอริทึมดัชนีเป็นไปตามข้อจำกัดของฮาร์ดแวร์เราจึงเริ่มต้นบทนี้ ด้วยการทบทวนพื้นฐานของคอมพิวเตอร์ฮาร์ดแวร์ที่เกี่ยวข้องกับการจัดทำดัชนี เราแนะนำแล้วถูกบล็อคเรียงลำดับตามดัชนี (ส่วน 4.2) ออกแบบอัลกอริธึมเครื่องเดี่ยวมีประสิทธิภาพสำหรับคอลเลกชันที่คง ที่สามารถดูเป็นรุ่นสามารถต่อขยายเพิ่มเติมการพื้นฐานเรียงตามดัชนีอัลกอริทึมที่เราแนะนำในบทที่ 1 ส่วน4.3 อธิบายครั้งเดียวผ่านในหน่วยความจำทำดัชนี ขั้นตอนวิธีที่มีปรับคุณสมบัติดีกว่า เนื่องจากมันไม่ได้ถือคำศัพท์ในหน่วยความจำ สำหรับคอลเลกชันมีขนาดใหญ่มากเช่นเว็บ จัดทำดัชนีมีการกระจายผ่านคลัสเตอร์คอมพิวเตอร์หลายร้อยหรือหลายพันเครื่องเราสามารถสนทนาได้ในหัวข้อ 4.4 คอลเลกชัน มีการเปลี่ยนแปลงบ่อยต้อง dy-ดัชนี namic นำใน 4.5 ส่วนที่จะเปลี่ยนแปลงในชุดผลสะท้อนในดัชนีทันที สุดท้าย เราครอบคลุมบางประเด็น complicatingที่สามารถเกิดขึ้น ในการจัดทำดัชนี– ปลอดภัยและดัชนีสำหรับการจัดอันดับเรียก – ในส่วน 4.6ก่อสร้างดัชนีที่โต้ตอบกับหลายหัวข้อในบทอื่น ๆตัวสร้างดัชนีที่ต้องการข้อความดิบ แต่เอกสารจะถูกเข้ารหัส (ดูหลายวิธีบทที่ 2) Indexers บีบอัด และขยายไฟล์ระดับกลางและสุดท้ายดัชนี (ดูบทที่ 5) ในการค้นหาเว็บ เอกสารไม่ได้อยู่ในเฉพาะระบบแฟ้ม แต่ต้องถูกตระเวน หรือ spidered (ดูบทที่ 20) ในองค์กรค้นหา เอกสารส่วนใหญ่ที่นึ้ในจัดการเนื้อหาที่แตกต่างกันระบบ โปรแกรมอีเมล และฐานข้อมูล เราให้ตัวอย่างในหัวข้อ 4.7 แม้ว่าส่วนใหญ่ของโปรแกรมประยุกต์เหล่านี้สามารถเข้าถึงผ่านทาง httpเจ้าแอพลิเคชันเขียนโปรแกรมอินเทอร์เฟซ (Api) เป็น usuallymore ที่มีประสิทธิภาพผู้อ่านควรทราบว่า การสร้างระบบย่อยที่ฟีดข้อความดิบกระบวนการทำดัชนีในตัวเองได้ปัญหาท้าทาย

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ในบทนี้เรามองไปที่วิธีการสร้างดัชนีคว่ำ เราเรียกวิธีนี้
ก่อสร้างดัชนีกระบวนการหรือการจัดทำดัชนี; ดัชนีกระบวนการหรือเครื่องที่มีประสิทธิภาพมัน
ทำดัชนีดัชนี การออกแบบขั้นตอนวิธีการจัดทำดัชนีอยู่ภายใต้ข้อ จำกัด ของฮาร์ดแวร์.
ดังนั้นเราจึงเริ่มต้นบทนี้ด้วยการทบทวนของพื้นฐานของคอมพิวเตอร์
ฮาร์ดแวร์ที่เกี่ยวข้องกับการจัดทำดัชนี จากนั้นเราจะแนะนำบล็อก
การจัดทำดัชนีเรียงตาม (ข้อ 4.2) ขั้นตอนวิธีเดียวเครื่องที่มีประสิทธิภาพได้รับการออกแบบ
สำหรับคอลเลกชันคงที่ที่สามารถมองได้ว่าเป็นรุ่นที่สามารถปรับขนาดได้มากขึ้นของ
ขั้นตอนวิธีการจัดทำดัชนีเรียงตามพื้นฐานที่เรานำมาใช้ในบทที่ 1 มาตรา
4.3 อธิบายเดียว -pass การจัดทำดัชนีในหน่วยความจำขั้นตอนวิธีที่มี
คุณสมบัติที่ดีกว่าแม้กระทั่งการปรับเพราะมันไม่ได้ถือคำศัพท์ใน
หน่วยความจำ สำหรับคอลเลกชันขนาดใหญ่มากเช่นเว็บการจัดทำดัชนีจะต้องมีการกระจาย
มากกว่ากลุ่มคอมพิวเตอร์ที่มีหลายร้อยหรือหลายพันเครื่อง.
เราหารือในมาตรา 4.4 คอลเลกชันที่มีการเปลี่ยนแปลงบ่อยต้อง dy-
การจัดทำดัชนีมิคแนะนำในมาตรา 4.5 เพื่อให้การเปลี่ยนแปลงในคอลเลกชันที่มี
ผลทันทีในดัชนี สุดท้ายเราครอบคลุมบางส่วนปัญหาแทรกซ้อน
ที่อาจเกิดขึ้นในการสร้างดัชนี - เช่นการรักษาความปลอดภัยและการจัดอันดับดัชนีสำหรับ
การดึง -. ในส่วนที่ 4.6
ดัชนีการก่อสร้างมีการโต้ตอบกับหลายหัวข้อที่ครอบคลุมในบทอื่น ๆ .
ดัชนีความต้องการข้อความดิบ แต่เอกสารที่มีการเข้ารหัสในหลาย ๆ (ดู
บทที่ 2) indexers บีบอัดและขยายไฟล์กลางและ
ดัชนีสุดท้าย (ดูบทที่ 5) ในการค้นหาเว็บเอกสารไม่ได้อยู่ในท้องถิ่น
ระบบแฟ้ม แต่จะต้องมีการรวบรวมข้อมูลหรือ spidered (ดูบทที่ 20) องค์กรใน
การค้นหาเอกสารส่วนใหญ่จะห่อหุ้มในที่แตกต่างกันการจัดการเนื้อหา
ระบบการใช้งานอีเมล์และฐานข้อมูล เราจะให้ตัวอย่างบางส่วน
ในมาตรา 4.7 แม้ว่าส่วนใหญ่ของการใช้งานเหล่านี้สามารถเข้าถึงได้ผ่านทาง HTTP,
Application Programming Interfaces พื้นเมือง (APIs) จะ usuallymore มีประสิทธิภาพ.
ผู้อ่านควรจะตระหนักว่าการสร้างระบบย่อยที่ฟีดข้อความดิบ
ในการประมวลผลการจัดทำดัชนีในตัวเองสามารถเป็นปัญหาที่ท้าทาย

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ในบทนี้เราจะดูที่วิธีการสร้างแบบดัชนี เราเรียกกระบวนการจัดทําดัชนีดัชนีการก่อสร้างหรือนี้
; กระบวนการหรือเครื่องจักรอื่นๆ ที่มีดัชนีการทำดัชนีมัน
. การออกแบบขั้นตอนวิธีการจัดทำดัชนีอยู่ภายใต้ข้อจำกัดของฮาร์ดแวร์
เราจึงเริ่มบทนี้ด้วยการทบทวนพื้นฐานของคอมพิวเตอร์ฮาร์ดแวร์ที่เกี่ยวข้องกับ
ดัชนี . จากนั้นเราแนะนำบล็อก
ดรรชนีเรียงตาม ( มาตรา 4.2 ) ที่มีประสิทธิภาพในเครื่องเดียว ออกแบบมาสำหรับคอลเลกชันของ
สถิตที่สามารถดูเป็นระบบมากกว่ารุ่นของขั้นตอนวิธีการจัดเรียงตาม
พื้นฐานเราแนะนำในบทที่ 1 ส่วน
4.3 ผ่านเดียวในการอธิบายถึงความทรงจำ ขั้นตอนวิธีที่ได้
ยิ่งขึ้นปรับคุณสมบัติเพราะมันไม่ได้จับศัพท์
หน่วยความจำสำหรับคอลเลกชันที่มีขนาดใหญ่มาก เช่น เว็บดัชนีมีที่จะกระจาย
ผ่านคอมพิวเตอร์คลัสเตอร์กับหลายร้อยหรือหลายพันเครื่อง .
เราหารือในส่วน 4.4 . คอลเลกชันที่มีการเปลี่ยนแปลงบ่อยต้องการดี้ -
namic การแนะนำในส่วน 4.5 ดังนั้นการเปลี่ยนแปลงในคอลเลกชัน
ทันทีปรากฏในดัชนี ในที่สุด , เราครอบคลุมบางส่วน complicating ปัญหา
ที่สามารถเกิดขึ้นในการทำดัชนี ( เช่นการรักษาความปลอดภัยและดัชนีสำหรับการสืบค้น และในส่วนของอันดับ

4.6 ก่อสร้าง ดัชนีมีการโต้ตอบกับหลายหัวข้อที่ครอบคลุมในสาขาอื่น ๆ .
ดัชนีความต้องการข้อความดิบ แต่เอกสารที่เข้ารหัสในหลายวิธี ( ดู
บทที่ 2 ) ดัชนีการบีบอัดและขยายไฟล์กลางและ
ดัชนีสุดท้าย ( ดูบทที่ 5 ) ในการค้นหาเว็บ , เอกสารที่ไม่ได้อยู่ในท้องถิ่น
ระบบแฟ้ม แต่ต้องมีเครื่องมือหรือคลาน ( ดูบทที่ 20 ) ในการค้นหาขององค์กร
เอกสารส่วนใหญ่จะบรรจุในเนื้อหาการจัดการระบบที่แตกต่างกัน
ฐานข้อมูลการใช้งานอีเมล์และ เราเอาตัวอย่าง
ในมาตรา 4.7 . แม้ว่าส่วนใหญ่ของโปรแกรมเหล่านี้สามารถเข้าถึงได้ผ่านทาง HTTP , อินเตอร์เฟซการเขียนโปรแกรมประยุกต์ ( API พื้นเมือง

) usuallymore อย่างมีประสิทธิภาพผู้อ่านควรทราบว่า การสร้างระบบอาหาร
ข้อความดิบกระบวนการดัชนีสามารถในตัวเองเป็นปัญหาที่ท้าทาย .

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.