Fig. 7.3. Classifying a document as relevant or non-relevant
The question that faces us now is how to compute these probabilities. To start
with, let’s focus on P(R|D). It’s not clear how we would go about calculating
this, but given information about the relevant set, we should be able to calculate
P(D|R). For example, if we had information about how often specific words
occurred in the relevant set, then, given a new document, it would be relatively
straightforward to calculate how likely it would be to see the combination of
words in the document occurring in the relevant set. Let’s assume that the probability
of the word “president” in the relevant set is 0.02, and the probability of
“lincoln” is 0.03. If a new document contains the words “president” and “lincoln”,
we could say that the probability of observing that combination of words in therelevant set is 0.02 × 0.03 = 0.0006, assuming that the two words occur independently.3
So how does calculating P(D|R) get us to the probability of relevance? It
turns out there is a relationship between P(R|D)and P(D|R) that is expressed
by Bayes’ Rule:
4
-
-
-
where P(R) is the a priori probability of relevance (in other words, how likely
any document is to be relevant), and P(D)acts as a normalizing constant. Given
this, we can express our decision rule in the following way: classify a document as
relevant if P(D|R)P(R) > P(D|NR)P(NR). This is the same as classifying
a document as relevant if:
-
-
-
The left-hand side of this equation is known as the likelihood ratio. In most classification
applications, such as spam filtering, the system must decide which class
the document belongs to in order to take the appropriate action. For information
retrieval, a search engine only needs to rank documents, rather than make that decision
(which is hard). If we use the likelihood ratio as a score, the highly ranked
documents will be those that have a high likelihood of belonging to the relevant
set.
To calculate the document scores, we still need to decide how to come up
with values for P(D|R) and P(D|NR). The simplest approach is to make the
same assumptions that we made in our earlier example; that is, we represent documents
as a combination of words and the relevant and non-relevant sets using
word probabilities. In this model, documents are represented as a vector of binary
features, D = (d1, d2, . . . , dt), where di = 1 if termiis present in the document,
and 0 otherwise. The other major assumption we make is term independence (also
known as the Naïve Bayes assumption). This means we can estimate P(D|R) by
the product of the individual term probabilities ∏t
i=1 P(di
|R)(and similarly for
P(D|NR)). Because this model makes the assumptions of term independence
and binary features in documents, it is known as the binary independence model.
3 Given two events A and B, the joint probability P(A ∩ B) is the probability of both
events occurring together. In general, P(A ∩ B) = P(A|B)P(B). If A and B are
independent, this means that P(A ∩ B) = P(A)P(B).
4 Named after Thomas Bayes, a British mathematician.
Words obviously do not occur independently in text. If the word “Microsoft”
occurs in a document, it is very likely that the word “Windows” will also occur.
The assumption of term independence, however, is a common one since it usually
simplifies the mathematics involved in the model. Models that allow some form
of dependence between terms will be discussed later in this chapter.
Recall that a document in this model is a vector of 1s and 0s representing the
presence and absence of terms. For example, if there were five terms indexed, one
of the document representations might be (1, 0, 0, 1, 1), meaning that the document
contains terms 1, 4, and 5. To calculate the probability of this document
occurring in the relevant set, we need the probabilities that the terms are 1 or 0
in the relevant set. If pi
is the probability that term i occurs (has the value 1) in
a document from the relevant set, then the probability of our example document
occurring in the relevant set is p1 × (1 − p2) × (1 − p3) × p4 × p5. The probability
(1 − p2) is the probability of term 2 not occurring in the relevant set. For
the non-relevant set, we use si to represent the probability of term i occurring.5
Going back to the likelihood ratio, using pi and si gives us a score of
-
-
-
where ∏
i:di=1 means that it is a product over the terms that have the value 1 in
the document. We can now do a bit of mathematical manipulation to get:
-
--
-
-
The second product is over all terms and is therefore the same for all documents,
so we can ignore it for ranking. Since multiplying lots of small numbers can lead
to problems with the accuracy of the result, we can equivalently use the logarithm
of the product, which means that the scoring function is:
-
-
รูป 7.3 ประเภทเอกสารที่เกี่ยวข้อง หรือไม่เกี่ยวข้องคำถามที่หน้าเราตอนนี้คือ วิธีการคำนวณเหล่านี้น่าจะ การเริ่มต้นด้วย ลองเน้น P(R| ง) ไม่ชัดเจนว่าเราจะไปเกี่ยวกับการคำนวณนี้ แต่ได้รับข้อมูลเกี่ยวกับการตั้งค่าที่เกี่ยวข้อง เราจะสามารถคำนวณP(D| R) . ตัวอย่างเช่น ถ้าเรามีข้อมูลเกี่ยวกับว่าคำเฉพาะเกิดขึ้นในการตั้งค่าที่เกี่ยวข้อง แล้ว ก็ รับเอกสารใหม่ มันจะค่อนข้างตรงไปตรงมาเพื่อคำนวณว่ามันจะน่าจะเห็นการรวมกันของคำในเอกสารที่เกิดขึ้นในการตั้งค่าที่เกี่ยวข้อง ลองสมมติว่าความน่าเป็นคำว่า "ประธาน" ในชุดที่เกี่ยวข้องเป็น 0.02 และความน่าเป็นของ"ลินคอล์น" เป็น 0.03 ถ้าเอกสารใหม่ที่ประกอบด้วยคำ "ประธาน" และ "ลินคอล์น"เราอาจกล่าวได้ว่าความน่าเป็นการสังเกตที่รวมกันของคำในชุด therelevant × 0.03 0.02 = 0.0006 สันนิษฐานว่า คำสองคำเกิด independently.3ดังนั้น วิธี? P(D| คำนวณ R) ไปเราน่าเป็นความเกี่ยวข้องหรือไม่ มันเปิดออกมีเป็นความสัมพันธ์ระหว่าง P(R| D) และ P(D| R) ที่แสดงโดยกฎ Bayes':4---เป็น priori P(R) น่าเป็นความเกี่ยวข้อง (ในคำอื่น ๆ แนวโน้มอย่างไรเอกสารใด ๆ เป็นที่เกี่ยวข้อง), และ P (D) ทำหน้าที่เป็นค่าคง normalizing กำหนดนี้ เราสามารถแสดงกฎการตัดสินใจของเราในทางต่อไปนี้: จัดประเภทเอกสารเป็นถ้าเกี่ยวข้อง P(D| R)P(R) > P(D| NR)P(NR) นี้เป็นเหมือนกับการจัดประเภทเอกสารเป็นกรณีที่เกี่ยวข้อง:---ด้านซ้ายของสมการนี้เรียกว่าอัตราส่วนความเป็นไปได้ ในการจัดประเภทมากที่สุดการใช้งาน เช่นสแปม ระบบต้องตัดสินใจคลาใดเอกสารเป็นการกระทำเหมาะสม สำหรับข้อมูลเรียก โปรแกรมค้นหาเฉพาะต้องจัดลำดับเอกสาร มากกว่าตัดสินใจที่(ซึ่งได้ยาก) ถ้าเราใช้อัตราส่วนโอกาสเป็นคะแนน อันดับสูงเอกสารจะเป็นผู้ที่มีโอกาสสูงเป็นของเกี่ยวข้องตั้งค่าการคำนวณคะแนนเอกสาร เรายังคงต้องตัดสินใจว่า จะเกิดขึ้นมีค่าสำหรับ P(D| R) และ P(D| NR) วิธีที่ง่ายที่สุดคือการ ทำให้การสมมติฐานเดียวกันกับที่เราทำในตัวอย่างก่อนหน้านี้ นั่นคือ เราเป็นตัวแทนเอกสารเป็นการรวมกันของคำ และที่เกี่ยวข้อง และไม่เกี่ยวข้องกับตั้งค่าการใช้คำน่าจะ ในรุ่นนี้ เอกสารจะแสดงเป็นเวกเตอร์ของไบนารีห้อง D = (d1, d2,..., dt), ที่ di = 1 ถ้า termiis นำเสนอในเอกสารและ 0 อื่น สมมติฐานอื่นที่สำคัญเราเป็นเอกราชระยะ (เรียกว่าสมมติฐาน Bayes ไร้เดียงสา) ซึ่งหมายความว่า เราสามารถประมาณ P(D| R) โดยผลิตภัณฑ์ของ ∏t น่าจะให้แต่ละฉัน = 1 P (di| R) (และในทำนองเดียวกันP(D| NR)) เพราะรุ่นนี้ทำให้สมมติฐานของเอกราชระยะและคุณสมบัติไบนารีในเอกสาร เป็นที่รู้จักกันแบบอิสระไบนารี3 ให้สองเหตุการณ์ A และ B ร่วมน่าเป็น P (การ∩ B) คือ ความน่าเป็นของทั้งสองเหตุการณ์ที่เกิดขึ้นร่วมกัน ในทั่วไป P (การ∩ B) = P(A| B)P(B) ถ้า A และ Bอิสระ ซึ่งหมายความ ว่า P (การ∩ B) = P(A)P(B)ตั้งชื่อที่ 4 หลังจากโทมัส Bayes นักคณิตศาสตร์ชาวอังกฤษคำชัดไม่เกิดขึ้นอย่างอิสระในข้อความ ถ้าคำว่า "Microsoft"เกิดขึ้นในเอกสาร มีแนวโน้มว่า "Windows" จะเกิดขึ้นสมมติฐานระยะเอกราช อย่างไรก็ตาม คือ หนึ่งพบบ่อย เพราะมันมักจะคณิตศาสตร์ที่เกี่ยวข้องในรูปแบบช่วยให้ง่ายขึ้น รุ่นที่ทำให้บางรูปแบบการพึ่งพาอาศัยกันระหว่างเงื่อนไขจะกล่าวถึงในบทนี้เรียกว่า เอกสารในรูปแบบนี้เป็นเวกเตอร์ของ 1s และ 0s ในการแทนแสดงตนและไม่มีเงื่อนไข ตัวอย่างเช่น ถ้ามี เงื่อนไข 5 ดัชนี หนึ่งเอกสาร รับรองอาจเป็น (1, 0, 0, 1, 1) , หมายความ ว่า เอกสารประกอบด้วยข้อ 1, 4 และ 5 การคำนวณความน่าเป็นของเอกสารนี้เกิดขึ้นในการตั้งค่าที่เกี่ยวข้อง เราต้องการน่าจะมีเงื่อนไข 1 หรือ 0ในการตั้งค่าที่เกี่ยวข้อง ถ้า piเป็นความน่าเป็นคำที่ฉันเกิดขึ้น (มีค่า 1) ในเอกสารจากการตั้งค่าที่เกี่ยวข้อง แล้วน่าเป็นของเราตัวอย่างเอกสารเกิดขึ้นในชุดที่เกี่ยวข้องคือ p1 × (1 − p2) × (1 − p3) × p4 × p5 ความน่าเป็น(1 − p2) คือระยะ 2 ไม่เกิดขึ้นในชุดที่เกี่ยวข้อง สำหรับชุดไม่เกี่ยวข้อง เราใช้ศรีเพื่อแสดงถึงความเป็นไปได้ของระยะฉัน occurring.5กลับไปที่อัตราส่วนโอกาส ใช้ pi และศรีให้คะแนน---ที่∏i:di = 1 หมายความว่า เป็นผลิตภัณฑ์ที่ผ่านเงื่อนไขที่มีค่า 1 ในเอกสาร ตอนนี้เราสามารถทำบิตของการจัดการทางคณิตศาสตร์จะได้รับ:-----ผลิตภัณฑ์สองเกินเงื่อนไขทั้งหมดดัง นั้นจึงเหมือนกันสำหรับเอกสารทั้งหมดดังนั้นเราสามารถละเลยสำหรับการจัดอันดับ ตั้งแต่การคูณของตัวเลขขนาดเล็กสามารถนำไปเกี่ยวกับความถูกต้องของผล equivalently ที่เราสามารถใช้ลอการิทึมของผลิตภัณฑ์ ซึ่งหมายความ ว่า การให้คะแนน:--
การแปล กรุณารอสักครู่..

มะเดื่อ. 7.3 การแบ่งประเภทของเอกสารเป็นที่เกี่ยวข้องหรือไม่เกี่ยวข้อง
คำถามที่ใบหน้าเราตอนนี้คือวิธีการคำนวณความน่าจะเป็นเหล่านี้ ในการเริ่มต้น
ด้วยขอเน้น P (R | D) มันไม่ชัดเจนวิธีการที่เราจะไปเกี่ยวกับการคำนวณ
นี้ แต่ได้รับข้อมูลเกี่ยวกับชุดที่เกี่ยวข้องเราควรจะสามารถที่จะคำนวณ
P (D | R) ตัวอย่างเช่นถ้าเรามีข้อมูลเกี่ยวกับวิธีการที่มักคำเฉพาะ
ที่เกิดขึ้นในชุดที่เกี่ยวข้องแล้วได้รับเอกสารใหม่ก็จะค่อนข้าง
ตรงไปตรงมาคำนวณว่ามีแนวโน้มที่มันจะเห็นการรวมกันของ
คำในเอกสารที่เกิดขึ้นในที่เกี่ยวข้อง ชุด สมมติว่าน่าจะเป็น
คำว่า "ประธาน" ในชุดที่เกี่ยวข้องคือ 0.02 และความน่าจะเป็นของ
"Lincoln" คือ 0.03 หากเป็นเอกสารใหม่ที่ประกอบด้วยคำว่า "ประธาน" และ "ลินคอล์น"
เราอาจกล่าวได้ว่าน่าจะเป็นของการสังเกตการรวมกันของคำที่อยู่ในชุด therelevant คือ 0.02 × 0.03 = 0.0006 สมมติว่าคำสองคำที่เกิดขึ้น independently.3
ดังนั้นวิธีที่จะคำนวณ P (D | R) ได้รับเราไปน่าจะเป็นของความสัมพันธ์กันหรือไม่ มัน
จะเปิดออกมีความสัมพันธ์ระหว่าง P (R | D) และ P (D | R) ที่จะแสดง
โดยกฎของเบย์:
4
-
-
-
ที่ P (R) เป็นเบื้องต้นน่าจะเป็นของความสัมพันธ์กัน (ในคำอื่น ๆ วิธีการที่มีแนวโน้ม
เอกสารใด ๆ คือการเป็นที่เกี่ยวข้อง) และ P (D) ทำหน้าที่เป็นคง normalizing ได้รับ
นี้เราสามารถแสดงกฎการตัดสินใจของเราด้วยวิธีต่อไปนี้: การจำแนกเอกสารเป็น
ที่เกี่ยวข้องถ้า P (D | R) P (R)> P (D | NR) P (NR) นี้เป็นเช่นเดียวกับการแบ่งประเภทของ
เอกสารที่เกี่ยวข้องในกรณีที่:
-
-
-
ด้านซ้ายมือของสมการนี้เป็นที่รู้จักกันเป็นอัตราส่วนความเป็นไปได้ ในการจำแนกประเภทมากที่สุด
การใช้งานเช่นการกรองสแปมระบบจะต้องตัดสินใจว่าชั้น
เอกสารเป็นของเพื่อที่จะใช้ดำเนินการที่เหมาะสม สำหรับข้อมูล
การดึงเป็นเครื่องมือค้นหาเพียงความต้องการในการจัดอันดับเอกสารมากกว่าการตัดสินใจที่
(ซึ่งเป็นเรื่องยาก) ถ้าเราใช้อัตราส่วนเป็นคะแนนการจัดอันดับสูง
เอกสารจะเป็นผู้ที่มีโอกาสสูงที่อยู่ในที่เกี่ยวข้อง
ชุด.
ในการคำนวณคะแนนเอกสารที่เรายังคงต้องตัดสินใจว่าจะเกิดขึ้น
กับค่า P (D | R) และ P (D | NR) วิธีที่ง่ายที่สุดคือการทำให้
สมมติฐานเดียวกับที่เราทำในตัวอย่างก่อนหน้านี้ของเรา นั่นก็คือเราเป็นตัวแทนของเอกสาร
การรวมกันของคำและชุดที่เกี่ยวข้องและไม่เกี่ยวข้องโดยใช้
ความน่าจะเป็นคำว่า ในรูปแบบนี้เอกสารที่จะแสดงเป็นเวกเตอร์ของไบนารี
คุณสมบัติ, D = (D1, D2,..., DT) ซึ่ง di = 1 ถ้า termiis อยู่ในเอกสาร
และ 0 เป็นอย่างอื่น สมมติฐานที่สำคัญอื่น ๆ ที่เราทำคือความเป็นอิสระระยะ (ยังเป็น
ที่รู้จักกันเป็นสมมติฐานNaïve Bayes) ซึ่งหมายความว่าเราสามารถประมาณการ P (D | R) โดย
ผลิตภัณฑ์ที่มีความน่าจะเป็นระยะแต่ละΠt
i = 1 P (di
| R) (และในทำนองเดียวกันสำหรับ
P (D | NR)) เพราะรุ่นนี้ทำให้สมมติฐานของความเป็นอิสระคำ
และคุณสมบัติไบนารีในเอกสารที่เป็นที่รู้จักกันเป็นแบบอิสระไบนารี.
3 ได้รับสองเหตุการณ์ A และ B, ความน่าจะเป็นร่วม P (A ∩ B) ความน่าจะเป็นของทั้งสอง
เหตุการณ์ที่เกิดขึ้นร่วมกัน โดยทั่วไป P (A ∩ B) = P (A | B) P (B) ถ้า A และ B เป็น
อิสระนี้หมายความว่า P (A ∩ B) = P (A) P (B).
4 ตั้งชื่อตามโทมัสเบส์นักคณิตศาสตร์อังกฤษ.
คำอย่างเห็นได้ชัดไม่ได้เกิดขึ้นอย่างอิสระในข้อความ ถ้าคำว่า "ไมโครซอฟท์" การ
เกิดขึ้นในเอกสารก็มีโอกาสมากว่าคำว่า "Windows" นอกจากนี้ยังจะเกิดขึ้น.
สมมติฐานของความเป็นอิสระระยะ แต่เป็นหนึ่งที่พบบ่อยเพราะมันมักจะ
ช่วยลดความยุ่งยากทางคณิตศาสตร์ที่เกี่ยวข้องในรูปแบบ รุ่นที่ช่วยให้รูปแบบบางส่วน
ของการพึ่งพาอาศัยระหว่างคำจะได้รับการกล่าวถึงในบทนี้.
จำได้ว่าเอกสารในรูปแบบนี้เป็นเวกเตอร์ของ 1 และ 0 เป็นตัวแทนของ
การแสดงตนและการขาดของข้อตกลง ตัวอย่างเช่นถ้ามีห้าข้อตกลงการจัดทำดัชนีหนึ่ง
ของการแสดงเอกสารที่อาจจะ (1, 0, 0, 1, 1) ความหมายว่าเอกสารที่
มีคำที่ 1, 4, และ 5 ในการคำนวณความน่าจะเป็นของเอกสารนี้
เกิดขึ้น อยู่ในชุดที่เกี่ยวข้องที่เราต้องความน่าจะเป็นว่าคำที่มี 1 หรือ 0
อยู่ในชุดที่เกี่ยวข้อง ถ้าพี่
น่าจะเป็นคำว่าฉันเกิดขึ้น (มีค่า 1) ใน
เอกสารจากชุดที่เกี่ยวข้องแล้วน่าจะเป็นของเอกสารตัวอย่างของเรา
ที่เกิดขึ้นในชุดที่เกี่ยวข้องคือ P1 × (1 - P2) × (1 - P3) × P5 × P4 ความน่าจะเป็น
(1 - P2) เป็นความน่าจะเป็นระยะที่ 2 ไม่ได้เกิดขึ้นในชุดที่เกี่ยวข้อง สำหรับ
ชุดที่ไม่เกี่ยวข้องเราจะใช้ si เพื่อเป็นตัวแทนของความน่าจะเป็นคำที่ฉัน occurring.5
จะกลับไปที่อัตราส่วนการใช้ปี่และศรีช่วยให้เรามีคะแนนของ
-
-
-
ที่Π
i: ดิ = 1 หมายความว่ามันเป็น สินค้ามากกว่าคำที่มีค่า 1 ใน
เอกสาร ตอนนี้เราสามารถทำบิตของการจัดการทางคณิตศาสตร์ที่จะได้รับ:
-
-
-
-
ผลิตภัณฑ์ตัวที่สองมีมากกว่าข้อกำหนดและดังนั้นจึงเป็นเรื่องเดียวกันสำหรับเอกสารทั้งหมด
เพื่อให้เราสามารถละเลยมันสำหรับการจัดอันดับ ตั้งแต่การคูณจำนวนมากขนาดเล็กจำนวนมากสามารถนำไปสู่
การแก้ปัญหาที่มีความถูกต้องของผลที่เราเท่าสามารถใช้ลอการิทึม
ของผลิตภัณฑ์ซึ่งหมายความว่าฟังก์ชั่นการให้คะแนนคือ:
-
-
การแปล กรุณารอสักครู่..

รูปที่ 7.3 . การจำแนกเอกสารที่เกี่ยวข้องหรือไม่เกี่ยวข้องคำถามที่หน้าเราตอนนี้คือวิธีการคำนวณความน่าจะเป็นเหล่านี้ ที่จะเริ่มต้น, ขอเน้น P ( r | D ) มันไม่ได้ชัดเจนว่าเราจะไปเกี่ยวกับการคำนวณนี้ แต่ให้ข้อมูลเกี่ยวกับการตั้งค่าที่เกี่ยวข้อง เราควรจะสามารถที่จะ คำนวณP ( D | R ) ตัวอย่างเช่น ถ้าเรามีข้อมูลเกี่ยวกับบ่อยเฉพาะคำเกิดในช่วงที่กำหนด แล้วให้เอกสารใหม่ก็จะค่อนข้างตรงไปตรงมาเพื่อคำนวณอย่างไรอาจจะเห็นการรวมกันของถ้อยคำในเอกสารที่เกิดขึ้นในการตั้งค่าที่เกี่ยวข้อง สมมติว่า ความน่าจะเป็นคำว่า " ประธาน " ในการตั้งค่าที่เกี่ยวข้องคือ 0.02 และความน่าจะเป็น" ลินคอล์น " คือ 0.03 . ถ้าเอกสารที่มีคำว่า " ประธาน " และ " ลินคอล์น "เราอาจกล่าวได้ว่าน่าจะเป็นของที่เห็นการรวมกันของคำชุด 0.02 0.03 ถึง× = 0.0006 สมมติว่าสองคำนี้เกิดขึ้นอย่างอิสระ 3 .ดังนั้นวิธีคำนวณ P ( D | R ) ให้เรา โอกาสที่เกี่ยวข้อง ? มันปรากฎว่ามีความสัมพันธ์ระหว่าง p ( R | D ) และ P ( D | R ) ที่แสดงโดยกฎ Bayes " :4 .---ที่ P ( r ) คือระหว่างความน่าจะเป็นที่เกี่ยวข้อง ( ในคำอื่น ๆวิธีโอกาสเอกสารใด ๆที่จะเกี่ยวข้อง ) และ P ( D ) ทำหน้าที่เป็น normalizing คงที่ ให้นี้ เราสามารถแสดงกฎการตัดสินใจของเราในทางต่อไปนี้ : แยกประเภทเอกสาร เช่นที่เกี่ยวข้องถ้า p ( D | r ) P ( r ) P ( D | NR ) P ( NR ) นี้เป็นเช่นเดียวกับการแบ่งประเภทเอกสารที่เกี่ยวข้องถ้า :---ด้านซ้ายของสมการนี้เรียกว่าอัตราส่วนความน่าจะเป็น ในการจัดมากที่สุดการใช้งาน เช่น การกรองสแปม ระบบจะต้องตัดสินใจเรียนที่เอกสารที่เป็นของเพื่อรับการกระทำที่เหมาะสม สำหรับข้อมูลกู้คืน , เครื่องมือค้นหาการจัดอันดับเอกสารมากกว่าการตัดสินใจว่า( ซึ่งยาก ) ถ้าเราใช้อัตราส่วนความน่าจะเป็นเป็นคะแนนสูงอันดับเอกสารนั้นจะเป็นสิ่งที่มีความเป็นไปได้สูงที่เกี่ยวข้องชุดหาเอกสารคะแนน เรายังต้องตัดสินใจว่า จะมาอัพกับค่า P ( D | R ) และ P ( D | NR ) วิธีที่ง่ายที่สุดคือ ให้สมมติฐานเดิมที่เราทำในตัวอย่างก่อนหน้านี้ นั่นคือ เราเป็นตัวแทนของเอกสารเป็นการรวมกันของคำและที่เกี่ยวข้อง และไม่ใช้ชุดที่เกี่ยวข้องน่าจะเป็นคำที่ ในรูปแบบนี้ เอกสารจะแสดงเป็นเวกเตอร์ของไบนารีคุณสมบัติ , D = ( D1 , D2 , . . . . . . . . DT ) ไหน , , = 1 ถ้า termiis ที่มีอยู่ในเอกสารและ 0 เป็นอย่างอื่น หลักอื่น ๆเราให้สมมติฐานเป็นเงื่อนไขความเป็นอิสระ ( ยังเรียกว่าสมมติฐาน na ไตได้ Bayes ) ซึ่งหมายความว่า เราสามารถประมาณค่า P ( D | R ) โดยผลิตภัณฑ์ของคำแต่ละ∏ T ความน่าจะเป็นฉัน = 1 P ( ดิ| R ) ( และในทำนองเดียวกันสำหรับP ( D | NR ) ) เพราะรุ่นนี้ทำให้สมมติฐานของระยะอิสระไบนารีและคุณสมบัติในเอกสาร มันเป็นที่รู้จักกันเป็นแบบ อิสระ แบบไบนารี3 ให้สองเหตุการณ์ A และ B , ความน่าจะเป็นร่วม P ( ∩ B ) ความน่าจะเป็นของทั้งเหตุการณ์ที่เกิดขึ้นพร้อมกัน ในทั่วไป , P ( ∩ B ) = P ( | B ) P ( B ) ถ้า A และ B เป็นอิสระ ซึ่งหมายความว่า P ( ∩ B ) = P ( A ) P ( B )4 ชื่อหลังจาก Thomas Bayes , นักคณิตศาสตร์ชาวอังกฤษคำพูดก็ไม่ได้เกิดขึ้นอย่างอิสระในข้อความ ถ้าคำว่า " Microsoft "ที่เกิดขึ้นในเอกสาร ก็มีแนวโน้มมากว่า คำว่า " Windows " ก็จะเกิดขึ้นสมมติฐานของระยะอิสระ อย่างไรก็ตาม การเป็นหนึ่งที่พบบ่อย เพราะปกติแล้วลดความซับซ้อนของคณิตศาสตร์ที่เกี่ยวข้องในรูปแบบ รุ่นที่ช่วยให้บางรูปแบบของการพึ่งพาระหว่างเงื่อนไขจะกล่าวถึงในภายหลังในบทนี้จำได้ว่า เอกสารในรูปแบบนี้เป็นเวกเตอร์และเป็นตัวแทนของ 1s ในปีการแสดงและการขาดงานของเงื่อนไข ตัวอย่างเช่น หากมีห้าด้านดัชนีหนึ่งของเอกสารรับรองอาจจะ ( 1 , 0 , 0 , 1 , 1 ) หมายความว่า เอกสารมีรูป 1 , 4 , และ 5 เพื่อคำนวณความน่าจะเป็นของเอกสารนี้ที่เกิดขึ้นในการตั้งค่าที่เราต้องการความน่าจะเป็นที่เทอม 1 หรือ 0ในการตั้งค่าที่เกี่ยวข้อง ถ้า พีมีความเป็นไปได้ ที่ระยะผมเกิดขึ้น ( มี 1 )เอกสารจากการตั้งค่าที่เกี่ยวข้องแล้ว ความน่าจะเป็นของเอกสารตัวอย่างของเราที่เกิดขึ้นในการตั้งค่าที่เกี่ยวข้อง ( 1 −× P1 P2 ) × ( 1 − P3 P4 ) ×× P5 . ความน่าจะเป็น1 − P2 ) ความน่าจะเป็นของเทอม 2 ไม่เกิดขึ้นในการตั้งค่าที่เกี่ยวข้อง สำหรับไม่ที่เกี่ยวข้องชุด เราจะใช้ชีแสดงความน่าจะเป็นของคำที่ฉันเกิดขึ้น 5 .กลับไปที่อัตราส่วนความน่าจะเป็นด้วย พี และ ซี จะช่วยให้เราให้คะแนน---ที่∏ผม : di = 1 หมายความว่าผลิตภัณฑ์ที่ผ่านเงื่อนไขที่มีค่า 1เอกสาร ตอนนี้เราสามารถทำบิตของการจัดการทางคณิตศาสตร์ที่จะได้รับ :-----ผลิตภัณฑ์ที่สองคือเงื่อนไขทั้งหมดและดังนั้นจึงเป็นเรื่องเดียวกัน สำหรับเอกสารทั้งหมดดังนั้นเราสามารถละเว้นมันสำหรับการจัดอันดับ ตั้งแต่คูณตัวเลขมากมายขนาดเล็กสามารถนำปัญหากับความถูกต้องของผลเราสามารถก้องใช้ลอการิทึมของผลิตภัณฑ์ ซึ่งหมายความ ว่า ให้คะแนนการทำงานคือ :--
การแปล กรุณารอสักครู่..
