Classifying Actual DocumentsA stand

Classifying Actual Documents
A standard collection of newswire articles is widely used for evaluating document
classifiers. ReutersCorn-train.arff and ReutersGrain-train.arff are training sets
derived from this collection; ReutersCorn-test.arff and ReutersGrain-test.arff are
corresponding test sets. The actual documents in the corn and grain data are the
same; only the labels differ. In the first dataset, articles concerning corn-related
issues have a class value of 1 and the others have 0; the aim is to build a classifier
that identifies “corny” articles. In the second, the labeling is performed with respect
to grain-related issues; the aim is to identify “grainy” articles.
Exercise 17.5.4. Build classifiers for the two training sets by applying
FilteredClassifier with StringToWordVector using (1) J48 and (2)
NaiveBayesMultinomial, evaluating them on the corresponding test set in
each case. What percentage of correct classifications is obtained in the four
scenarios? Based on the results, which classifier would you choose?
Other evaluation metrics are used for document classification besides the percentage
of correct classifications: They are tabulated under Detailed Accuracy By
Class in the Classifier Output area—the number of true positives (TP), false positives
(FP), true negatives (TN), and false negatives (FN). The statistics output by
Weka are computed as specified in Table 5.7; the F-measure is mentioned in Section
5.7 (page 175).
Exercise 17.5.5. Based on the formulas in Table 5.7, what are the best possible
values for each of the output statistics? Describe when these values are
attained.
The Classifier Output also gives the ROC area (also known as AUC), which, as
explained in Section 5.7 (page 177), is the probability that a randomly chosen positive
instance in the test data is ranked above a randomly chosen negative instance, based
on the ranking produced by the classifier. The best outcome is that all positive
examples are ranked above all negative examples, in which case the AUC is 1. In the
worst case it is 0. In the case where the ranking is essentially random, the AUC is 0.5,
and if it is significantly less than this the classifier has performed anti-learning!

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ประเภทเอกสารจริง
ชุดมาตรฐานของบทความ newswire จะใช้ในการประเมินเอกสาร
คำนามภาษา ReutersCorn-train.arff และ ReutersGrain-train.arff เป็นชุดฝึกอบรม
มาจากคอลเลกชันนี้ ReutersCorn-test.arff และ ReutersGrain test.arff
ชุดทดสอบที่สอดคล้องกัน เป็นเอกสารแท้จริงในข้อมูลข้าวโพดและเมล็ดข้าว
เดียวกัน เฉพาะป้ายชื่อแตกต่างกัน ในชุดข้อมูลแรก บทความเกี่ยวกับข้าวโพดเกี่ยวข้อง
ปัญหามีค่าชั้น 1 และอื่น ๆ มี 0 จุดมุ่งหมายจะสร้างเป็น classifier
ที่ระบุ "corny" บทความ ในที่สอง การติดฉลากที่ดำเนินการ ด้วยความเคารพ
ข้าวเกี่ยวข้องปัญหา จุดมุ่งหมายคือการ ระบุ "มีเม็ดเล็กๆ" บทความ.
17.5.4 ออกกำลังกาย สร้างคำนามภาษาสำหรับสองชุดฝึกอบรม โดยใช้
FilteredClassifier กับ StringToWordVector ใช้ J48 (1) และ (2)
NaiveBayesMultinomial ประเมินพวกเขาในการทดสอบที่เกี่ยวข้องตั้งใน
แต่ละกรณี เปอร์เซ็นต์ของการจัดประเภทต้องได้รับในสี่
สถานการณ์ ตามผลลัพธ์ classifier ที่จะต้อง?
วัดประเมินอื่น ๆ จะใช้สำหรับการจัดประเภทเอกสารนอกจากเปอร์เซ็นต์
ของการจัดประเภทที่ถูกต้อง: พวกเขาจะสนับสนุนภายใต้รายละเอียดความถูกต้องโดย
ในบริเวณพุ Classifier — จำนวนจริงทำงานผิดพลาด (TP), positives
(FP) เท็จ จริงฟิล์ม (TN), และสิ่งเท็จ (FN) สถิติผลผลิตโดย
Weka ที่คำนวณตามระบุในตาราง 5.7 กล่าวถึงในส่วนวัด F
5.7 (หน้า 175) .
กาย 17.5.5 ตามสูตรในตาราง 5.7 มีอะไรดีที่สุด
ค่าสถิติผลผลิตแต่ละ เมื่อค่าเหล่านี้จะอธิบาย
บรรลุ
เดอะ Classifier ผลยังให้ตั้ง ROC (เรียกอีกอย่างว่า AUC), ที่ เป็น
อธิบายในส่วน 5.7 (หน้า 177), มีความเป็นไปได้ที่บวกท่านสุ่ม
อินสแตนซ์ในข้อมูลการทดสอบการจัดอันดับข้างต้นที่ท่านได้ลบอินสแตนซ์ ตาม
บนการจัดอันดับที่ผลิต โดย classifier ที่ ผลสุดคือทั้งหมดบวก
ตัวอย่างมีการจัดอันดับตัวอย่างลบข้างต้นทั้งหมด ในกรณี AUC คือ 1 ในการ
เลวกรณีเป็น 0 ในกรณีสุ่มเป็นการจัดอันดับ AUC เป็น 0.5,
และถ้าเป็นมากน้อยกว่านี้ classifier ที่มีการเรียนรู้ป้องกัน

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

คัดแยกเอกสารจริง
ชุดมาตรฐานของบทความข่าวที่ใช้กันอย่างแพร่หลายเพื่อประเมินตามเอกสาร

และ reuterscorn-train.arff reutersgrain-train.arff เป็นชุดฝึก
ได้มาจากคอลเลกชันนี้ และเป็น reuterscorn-test.arff reutersgrain-test.arff
ชุดทดสอบที่สอดคล้องกัน เอกสารที่เกิดขึ้นจริงในข้าวโพดและเมล็ดพืชเป็นข้อมูล
เดียวกัน เพียงป้ายที่แตกต่างกันในวันที่แรก บทความที่เกี่ยวกับข้าวโพดที่เกี่ยวข้อง
ประเด็นมีเรียนค่าของ 1 และคนอื่นๆได้ 0 ; เป้าหมายคือเพื่อสร้างส่วนขยาย
ที่ระบุบทความ " เชย " ในประการที่สอง การติดฉลากแสดง ด้วยความเคารพ
ปัญหาเม็ดที่เกี่ยวข้อง มีจุดมุ่งหมายเพื่อศึกษาบทความ " เม็ด " .
ออกกำลังกาย 17.5.4 . สร้างคำลักษณนามสำหรับสองชุดฝึกอบรมโดยใช้
filteredclassifier ใช้ stringtowordvector ( 1 ) และ ( 2 ) j48
naivebayesmultinomial ประเมินไว้ที่ชุดทดสอบใน
แต่ละกรณี เปอร์เซ็นต์ของหมวดหมู่ที่ถูกต้องได้ใน 4
สถานการณ์ ? ตามผลลัพธ์ ซึ่งตัวคุณจะเลือกอะไร ? ตัวชี้วัดการประเมินผลอื่น
ใช้เอกสารการจัดประเภทนอกจากนี้ร้อยละ
ของหมวดหมู่ที่ถูกต้อง :พวกเขาวิจัยภายใต้ความถูกต้องรายละเอียดโดย
เรียนในตัวผลผลิตพื้นที่จํานวนจริงบวก ( TP ) บวกเท็จ
( FP ) จริงเชิงลบ ( TN ) และเชิงลบเท็จ ( FN ) สถิติที่ออกโดย
Weka จะคำนวณตามที่ระบุไว้ในตารางที่ 5 ; ค่า F ถูกกล่าวถึงในมาตรา 5.7 ( หน้า 175 )
.
ออกกำลังกาย 17.5.5 . ตามสูตรในโต๊ะ 5.7 , สิ่งที่เป็นดีที่สุด
ค่าสำหรับแต่ละการแสดงผลสถิติ อธิบายเมื่อค่านิยมเหล่านี้

บรรลุ จนได้ผลผลิตยังให้พื้นที่ร็อค ( ที่รู้จักกันเป็นยา ) ซึ่งเป็น
อธิบายในส่วน 5.7 ( หน้า 177 ) คือความน่าจะเป็นที่สุ่มเลือกบวก
อินสแตนซ์ในข้อมูลการทดสอบการจัดอันดับข้างต้นที่สุ่มเลือกตัวอย่างเชิงลบตาม
บน การจัดอันดับผลิตโดยลักษณนามผลลัพธ์ที่ดีที่สุดก็คือตัวอย่างบวก
ทั้งหมดมีอันดับเหนือลบตัวอย่างทั้งหมด ซึ่งในกรณีนี้ค่าเป็น 1 ในกรณีที่เลวร้ายที่สุด
มันเป็น 0 ในกรณีที่การจัดอันดับสุ่มเป็นหลัก , ค่าคือ 0.5
และถ้ามันเป็นน้อยกว่านี้ ได้รับการต่อต้านแบบการเรียนรู้ !

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.