Notice that this index does not rec

Notice that this index does not record the number of times each word appears;
it only records the documents in which each word appears. For instance, S2
con
tains the word “fish” twice, whereas S
1
contains “fish” only once. The inverted list
for “fish” shows no distinction between sentences 1 and 2; both are listed in the
same way. In the next few sections, we will look at indexes that include informa
tion about word frequencies.
Inverted lists become more interesting when we consider their intersection.
Suppose we want to find the sentence that contains the words “coloration” and
“freshwater”. The inverted index tells us that “coloration” appears in S3
and S4
,
while “freshwater” appears in S
1
and S
4
. We can quickly tell that only S
4
contains
both “coloration” and “freshwater”. Since each list is sorted by sentence number,
finding the intersection of these lists takes O(max(m, n)) time, where m and n
are the lengths ofthe two lists. The algorithm is the same as in merge sort. With list
skipping, which we will see later in the chapter, this cost drops to O(min(m, n)).

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

สังเกตว่า ดัชนีนี้บันทึกจำนวนครั้งที่แต่ละคำปรากฏมันบันทึกเอกสารซึ่งแต่ละคำปรากฏ เช่น S2คอนดิชั่นtains คำว่า "ปลา" สอง ในขณะที่ S1ประกอบด้วย "ปลา" เพียงครั้งเดียว การกลับรายการ"ปลา" แสดงไม่มีความแตกต่างระหว่างประโยค 1 และ 2 ทั้งสองอยู่ในตัวลักษณะเดียวกัน ในสามส่วนถัดไป เราจะดูดัชนีที่มีข้อมูลที่หลอกลวงทางการค้าเกี่ยวกับคำความถี่รายการคว่ำกลายเป็นน่าสนใจมากขึ้นเมื่อเราพิจารณาแยกของพวกเขาสมมติว่าเราต้องการค้นหาประโยคที่ประกอบด้วยคำว่า "สี" และ"ปลา" ดัชนีกลับบอกเราว่า "สี" ปรากฏใน S3และ S4,ในขณะที่ "น้ำจืด" ปรากฏใน S1และ S4. เราบอกได้อย่างรวดเร็วนั้น S เท่านั้น4ประกอบด้วย"สี" และ "ปลา" เนื่องจากแต่ละรายการจะเรียงลำดับตามหมายเลขประโยคหาจุดตัดของรายการเหล่านี้ใช้เวลา O (สูงสุด (m, n)) ที่ m และ nคือความยาวของรายการทั้งสอง อัลกอริทึมจะเหมือนกันเรียงเวียน กับรายการข้าม ซึ่งเราจะเห็นในบท ทุนหยดไป O (นาที (m, n))

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ขอให้สังเกตว่าดัชนีนี้จะไม่บันทึกจำนวนครั้งแต่ละคำที่ปรากฏนั้น
มันจะบันทึกเอกสารที่แต่ละคำจะปรากฏขึ้น ยกตัวอย่างเช่น S2
Con
tains คำว่า "ปลา" สองครั้งในขณะที่ S
1
มี "ปลา" เพียงครั้งเดียว รายการคว่ำ
สำหรับ "ปลา" แสดงให้เห็นถึงความแตกต่างระหว่างประโยคที่ 1 และ 2 ไม่มี; ทั้งมีการระบุไว้ใน
ทางเดียวกัน ในไม่กี่ส่วนต่อไปเราจะดูที่ดัชนีที่มี Informa
การเกี่ยวกับความถี่คำ.
รายการ Inverted กลายเป็นน่าสนใจมากขึ้นเมื่อเราพิจารณาแยกของพวกเขา.
สมมติว่าเราต้องการที่จะหาประโยคที่มีคำว่า "สี" และ
"น้ำจืด" ดัชนีกลับบอกเราว่า "สี" ที่ปรากฏใน S3
และ S4
,
ขณะที่ "น้ำจืด" ที่ปรากฏใน S
1
และ S 4 เราสามารถบอกได้ว่าเพียง4 มีทั้ง "สี" และ "น้ำจืด" เนื่องจากแต่ละรายการจะเรียงตามจำนวนประโยคการหาจุดตัดของรายการเหล่านี้จะใช้เวลา O (max (m, n)) เวลาที่ M n และมีความยาว ofthe สองรายการ อัลกอริทึมเป็นเช่นเดียวกับในการผสานการเรียงลำดับ ที่มีรายชื่อข้ามซึ่งเราจะได้เห็นต่อไปในบทที่ค่าใช้จ่ายนี้ลดลงไป O (นาที (m, n))

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.