5.4 Compression
There are many different ways to store digital information. Usually we make a simple distinction between persistent and transient storage. We use persistent storage to store things in files and directories that we want to keep until we choose to
delete them. Disks, CDs, DVDs, flash memory, and magnetic tape are commonly
used for this purpose. Dynamic RAM (Random Access Memory), on the other
hand, is used to store transient information, which is information we need only
while the computer is running. We expect that when we turn off the computer,
all of that information will vanish.
We can make finer distinctions between types of storage based on speed and
capacity. Magnetic tape is slow, disks are faster, but dynamic RAM is much faster.
Modern computers are so fast that even dynamic RAM isn’t fast enough to keep
up, so microprocessors contain at least two levels of cache memory. The very
fastest kind of memory makes up the processor registers. In a perfect world, we
could use registers or cache memory for all transient storage, but it is too expensive to be practical.
The reality, then, is that modern computers contain a memory hierarchy. At
the top of the hierarchy we have memory that is tiny, but fast. The base consists
of memory that is huge, but slow. The performance of a search engine strongly
depends on how it makes use of the properties of each type of memory.
Compression techniques are the most powerful tool for managing the memory hierarchy. The inverted lists for a large collection are themselves very large. In
fact, when it includes information about word position and document extents,
the index can be comparable in size
3
to the document collection. Compression
allows the same inverted list data to be stored in less space. The obvious benefit is that this could reduce disk or memory requirements, which would save
3
As an example, indexes for TREC collections built using the Indri open source search
engine range from 25–50% of the size of the collection. The lower figure is for a collection of web pages.
5.4 การบีบอัดมีหลายวิธีที่แตกต่างกันในการจัดเก็บข้อมูลดิจิตอล เรามักจะทำให้ความแตกต่างง่ายระหว่างถาวรและชั่วคราวกระเป๋า . เราใช้แบบถาวรกระเป๋าเพื่อเก็บสิ่งที่อยู่ในแฟ้มและไดเรกทอรีที่เราต้องการเก็บ จนกว่าเราจะ เลือกลบ ดิสก์ , ซีดี , ดีวีดี , หน่วยความจำแฟลช และเทปแม่เหล็กมักใช้เพื่อวัตถุประสงค์นี้ ไดนามิกแรม ( หน่วยความจำเข้าถึงโดยสุ่ม ) , ในอื่น ๆมือ , ถูกใช้เพื่อเก็บข้อมูลชั่วคราว ซึ่งเป็นข้อมูลที่เราต้องการเท่านั้นในขณะที่คอมพิวเตอร์กำลังทำงาน เราคาดหวังว่าเมื่อเราปิดคอมพิวเตอร์ข้อมูลทั้งหมดจะหายไปเราสามารถสร้างความแตกต่างที่ดีระหว่างชนิดของกระเป๋าจากความเร็วและความจุ เทปแม่เหล็กเป็นช้าเป็นเร็วกว่าดิสก์แบบไดนามิกแรม แต่จะเร็วกว่ามากคอมพิวเตอร์สมัยใหม่จะเร็วมาก แม้แต่แบบไดนามิกแรมไม่เร็วพอที่จะให้ขึ้น ดังนั้น ไมโครโปรเซสเซอร์มีอย่างน้อยสองระดับของความจำแคช มากชนิดของหน่วยความจำที่เร็วที่สุดให้หน่วยประมวลผลลงทะเบียน . ในโลกที่สมบูรณ์แบบ เราสามารถใช้รีจิสเตอร์หรือความจำแคชหมดชั่วคราวกระเป๋า แต่มันแพงมาก เป็นประโยชน์ความจริงแล้วก็คือว่าคอมพิวเตอร์ที่ทันสมัยประกอบด้วยลำดับขั้นของหน่วยความจำ . ที่ด้านบนของลำดับชั้นเรามีหน่วยความจำที่มีขนาดเล็ก แต่เร็ว ฐานประกอบด้วยของหน่วยความจำที่ใหญ่มาก แต่ช้า ประสิทธิภาพของเครื่องมือค้นหาอย่างมากขึ้นอยู่กับว่ามันทำให้การใช้คุณสมบัติของแต่ละชนิดของหน่วยความจำเทคนิคการบีบอัดเป็นเครื่องมือที่มีประสิทธิภาพมากที่สุดสำหรับการจัดการหน่วยความจำแบบเป็นขั้นเป็นตอน กลับรายการสำหรับคอลเลกชันที่มีขนาดใหญ่จะตัวใหญ่มาก ในความเป็นจริง เมื่อมันมีข้อมูลเกี่ยวกับตำแหน่งและขอบเขตเอกสารคำ ,ดัชนีสามารถเทียบได้ในขนาด3 .ไปยังเอกสารคอลเลกชัน การบีบอัดช่วยกลับหัวรายการเดียวกันข้อมูลจะถูกเก็บไว้ในพื้นที่น้อย ประโยชน์ที่ชัดเจนคือการที่สามารถลดความต้องการฮาร์ดดิสก์หรือหน่วยความจำ ซึ่งจะช่วย3 .ตัวอย่างดัชนีสำหรับคอลเลกชันที่สร้างขึ้นโดยใช้ trec Indri เปิดแหล่งที่มาของการค้นหาช่วงที่เครื่องยนต์จาก 25 - 50% ของขนาดของคอลเลกชัน รูปล่างเป็นคอลเลกชันของหน้าเว็บ
การแปล กรุณารอสักครู่..
