5.3.2 CountsRemember that our abstr

5.3.2 Counts
Remember that our abstract model of ranking considers each document to be
composed of features. With an inverted index, each word in the index corresponds to a document feature. This feature data can be processed by a ranking
function into a document score. In an inverted index that contains only document information, the features are binary, meaning they are 1 if the document
contains a term, 0 otherwise. This is important information, but it is too coarse
to find the best few documents when there are a lot of possible matches.
For instance, consider the query “tropical fish”. Three sentences match this
query: S
1
, S
2
, and S
3
. The data in the document-based index (Figure 5.3) gives
us no reason to prefer any of these sentences over any other.
Now look at the index in Figure 5.4. This index looks similar to the previous
one. We still have the same words and the same number of postings, and the first
number in each posting is the same as in the previous index. However, each posting now has a second number. This second number is the number of times the
word appears in the document. This small amount of additional data allows us to
prefer S
2
over S
1
and S
3
for the query “tropical fish”, since S
2
contains “tropical”
twice and “fish” three times.
In this example, it may not be obvious that S2
is much better than S1
or S3
,
but in general, word counts can be a powerful predictor of document relevance. In
particular, word counts can help distinguish documents that are about a particular

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

5.3.2 นับจำไว้ว่า รุ่นของเราบทคัดย่อของการจัดอันดับพิจารณาเอกสารแต่ละฉบับจะประกอบด้วยสิ่งอำนวยความสะดวก กับดัชนีคว่ำ แต่ละคำในดัชนีที่สอดคล้องกับคุณลักษณะเอกสาร ข้อมูลคุณลักษณะนี้สามารถประมวลผลในการจัดอันดับฟังก์ชันเป็นคะแนนเอกสาร คว่ำให้ดัชนีประกอบด้วยเพียงเอกสารข้อมูล คุณสมบัติเป็นไบนารี ซึ่งหมายความว่า พวกเขาเป็น 1 ถ้าเอกสารประกอบด้วยคำ 0 มิฉะนั้น นี่คือข้อมูลสำคัญ แต่ก็หยาบเกินไปค้นหาที่ดีสุดบางเอกสารเมื่อมีจำนวนมากอาจตรงกันเช่น พิจารณาแบบสอบถาม "ปลา" สามประโยคตรงนี้สอบถาม: S1, S2และ S3. ให้ข้อมูลในดัชนีเอกสารตาม (รูปที่ 5.3)เราไม่มีเหตุผลชอบประโยคเหล่านี้อย่างใดอย่างหนึ่งเหนืออื่นใดตอนนี้ ดูที่ดัชนีในรูป 5.4 ดัชนีนี้มีลักษณะคล้ายกับก่อนหน้านี้หนึ่ง เรายังมีคำเดียวกัน และหมายเลขเดียวกันของการโพสต์ และเป็นครั้งแรกเลขในแต่ละโพสต์เป็นเดียวกันกับดัชนีก่อนหน้า อย่างไรก็ตาม การลงรายการบัญชีแต่ละตอนนี้มีหมายเลขสอง หมายเลข 2 นี้คือ จำนวนครั้งคำที่ปรากฏในเอกสาร นี้ข้อมูลเพิ่มเติมจำนวนเล็กน้อยให้เราได้ชอบ S2ผ่าน S1และ S3สำหรับการสอบถาม "ปลา" ตั้งแต่ S2ประกอบด้วย "เขตร้อน"สอง และ "ปลา" สามครั้งในตัวอย่างนี้ มันอาจไม่ชัดเจนว่า S2ดีกว่า S1หรือ S3,แต่โดยทั่วไป นับจำนวนคำสามารถจะทำนายประสิทธิภาพของเอกสารเกี่ยวข้อง ในเฉพาะ นับจำนวนคำสามารถช่วยแยกเอกสารที่เกี่ยวกับเฉพาะ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

5.3.2 นับ
จำไว้ว่ารูปแบบนามธรรมของการจัดอันดับของเราจะพิจารณาเอกสารแต่ละที่จะ
ประกอบด้วยคุณสมบัติ ด้วยดัชนีกลับคำในดัชนีแต่ละสอดคล้องกับคุณลักษณะเอกสาร ข้อมูลคุณลักษณะนี้สามารถประมวลผลโดยการจัดอันดับที่
ฟังก์ชั่นลงในเอกสารคะแนน ในดัชนีฤๅษีที่มีข้อมูลเอกสารเท่านั้นที่มีคุณสมบัติไบนารีหมายถึงพวกเขาคือ 1 ถ้าเอกสารที่
มีคำ, 0 มิฉะนั้น นี่เป็นข้อมูลที่สำคัญ แต่มันเป็นหยาบเกินไป
ที่จะหาไม่กี่เอกสารที่ดีที่สุดเมื่อมีจำนวนมากของการแข่งขันที่เป็นไปได้.
เช่นพิจารณาแบบสอบถาม "ปลาเขตร้อนที่" สามประโยคนี้ตรงกับ
แบบสอบถาม: S
1
, S
2
และ S 3 ข้อมูลในดัชนีเอกสารตาม (รูปที่ 5.3) ช่วยให้เรามีเหตุผลที่จะชอบใด ๆ ของประโยคเหล่านี้มากกว่าคนอื่น ๆ ไม่มี. ตอนนี้ดูที่ดัชนีในรูปที่ 5.4 ดัชนีนี้มีลักษณะคล้ายกับก่อนหน้านี้หนึ่ง เรายังคงมีคำเดียวกันและหมายเลขเดียวกันของการโพสต์และเป็นครั้งแรกจำนวนในแต่ละโพสต์เป็นเช่นเดียวกับในดัชนีก่อนหน้านี้ อย่างไรก็ตามแต่ละโพสต์ตอนนี้มีตัวเลขที่สอง จำนวนที่สองนี้คือจำนวนครั้งที่คำที่ปรากฏในเอกสาร ปริมาณเล็กน้อยนี้ข้อมูลเพิ่มเติมจะช่วยให้เราต้องการ S 2 กว่า S 1 และ S 3 สำหรับการค้นหา "ปลาเขตร้อน" ตั้งแต่ S 2 ประกอบด้วย "โซนร้อน" สองครั้งและ "ปลา" สามครั้ง. ในตัวอย่างนี้มันอาจจะไม่เห็นได้ชัด ที่ S2 จะดีกว่า S1 หรือ S3 , แต่โดยทั่วไปนับคำอาจจะเป็นปัจจัยบ่งชี้ที่มีประสิทธิภาพของความสัมพันธ์กันเอกสาร ในโดยเฉพาะอย่างยิ่งนับ Word สามารถช่วยแยกเอกสารที่เกี่ยวกับโดยเฉพาะอย่างยิ่ง

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

5.3.2 เป็นนับจำได้ว่ารุ่นของเราที่เป็นนามธรรมของการจัดอันดับจะพิจารณาเอกสารแต่ละเป็นประกอบด้วยคุณลักษณะ กับฤๅษีดัชนีแต่ละคําในดัชนีที่สอดคล้องกับเอกสารคุณลักษณะ คุณลักษณะนี้ข้อมูลที่สามารถประมวลผลโดยการจัดอันดับฟังก์ชันในเอกสารคะแนน เป็นดัชนีที่ประกอบด้วยข้อมูลเอกสารกลับหัวเท่านั้น ลักษณะเป็นเลขฐานสองหมายถึงพวกเขาเป็น 1 ถ้าเอกสารมีระยะที่ 0 อื่น นี้เป็นข้อมูลที่สำคัญ แต่มันหยาบเกินไปการค้นหาเอกสารไม่กี่ที่ดีที่สุดเมื่อมีจำนวนมากของการแข่งขันได้ตัวอย่างเช่นพิจารณาแบบสอบถาม " ปลา " สามประโยคนี้ตรงกับแบบสอบถาม :1s ,2และ3 .. ข้อมูลในเอกสารตามดัชนีตัวเลข ( 5.3 ) ให้เราไม่มีเหตุผลที่จะต้องใด ๆของประโยคเหล่านี้มากกว่าอื่นใดตอนนี้ดูที่ดัชนีในรูปที่ 5.4 . ดัชนีนี้มีลักษณะคล้ายกับก่อนหน้านี้หนึ่ง เรายังคงมีคำพูดเดียวกันและหมายเลขเดียวกันของการโพสต์และก่อนจำนวนในแต่ละโพสต์จะเหมือนกันในดัชนีก่อนหน้า อย่างไรก็ตาม แต่ละโพสต์แล้วมีหมายเลขสอง จำนวนครั้งที่สองนี้คือจำนวนครั้งคำที่ปรากฏในเอกสาร จำนวนเงินขนาดเล็กของข้อมูลเพิ่มเติมที่จะช่วยให้เราชอบของ2เหนือของ1และ S3 .สำหรับการค้นหา " ปลา " เพราะเ2มี " ร้อน "สองครั้ง และ " ปลา " สามครั้งในตัวอย่างนี้ มันอาจจะไม่ได้ชัดเจนว่า S2ดีกว่า S1หรือ S3,แต่โดยทั่วไป , คํานับ สามารถทำนายประสิทธิภาพของความเกี่ยวข้องของเอกสาร ในโดยเฉพาะ นับคำที่สามารถช่วยแยกเอกสารที่เกี่ยวกับ โดยเฉพาะ

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.