Exploring the StringToWordVector Fi

Exploring the StringToWordVector Filter
By default, the StringToWordVector filter simply makes the attribute value in the
transformed dataset 1 or 0 for all single-word terms, depending on whether the word
appears in the document or not. However, as mentioned in Section 11.3 (page 439),
there are many options:
• outputWordCounts causes actual word counts to be output.
• IDFTransform and TFTransform: When both are set to true, term frequencies
are transformed into TF × IDF values.
• stemmer gives a choice of different word-stemming algorithms.
• useStopList lets you determine whether or not stopwords are deleted.
• tokenizer allows different tokenizers for generating terms, such as one that
produces word n-grams instead of single words.
There are several other useful options. For more information, click on More in the
Generic Object Editor window.
Exercise 17.5.10. Experiment with the options that are available. What options
give a good AUC value for the two datasets above, using NaiveBayesMultinomial
as the classifier?

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

สำรวจตัว StringToWordVector
ตามค่าเริ่มต้น กรอง StringToWordVector ก็ทำให้ค่าแอททริบิวต์ในการ
แปลงชุดข้อมูล 1 หรือ 0 สำหรับเงื่อนไขคำเดียวทั้งหมด ขึ้นอยู่กับว่าคำ
ปรากฏในเอกสาร หรือไม่ อย่างไรก็ตาม ตามที่กล่าวไว้ในหัวข้อ 11.3 (หน้า 439),
มีหลายทางเลือก:
• outputWordCounts คำจริงนับเป็น ผลผลิตที่ทำให้
• IDFTransform และ TFTransform: เมื่อค่าความถี่ระยะจริง
เปลี่ยนเป็นรหัสการ IDF ค่า.
• stemmer ให้เลือกของต่างประเทศคำอัลกอริทึม
• useStopList ให้คุณกำหนดว่า จะลบ stopwords.
• tokenizer ช่วยให้ tokenizers แตกต่างกันสำหรับการสร้างเงื่อนไข เช่นที่
ผลิตคำ n-กรัมแทนคำเดียว
มีหลายอื่น ๆ มีประโยชน์ สำหรับข้อมูลเพิ่มเติม คลิกที่อื่น ๆ
หน้าต่างตัวแก้ไขทั่วไป.
17.5.10 ออกกำลังกาย ทดลองกับตัวเลือกที่พร้อมใช้งาน ตัวเลือกใด
ให้ค่า AUC ดีสำหรับ datasets สองข้าง ใช้ NaiveBayesMultinomial
เป็น classifier ที่

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

สำรวจ StringToWordVector กรอง
ตัวกรอง StringToWordVector ก็ทำให้ค่าแอตทริบิวต์ใน
ชุดแปลง 1 หรือ 0 สำหรับทุกคำคำเดียวขึ้นอยู่กับว่าคำ
ที่ปรากฏในเอกสารหรือไม่ แต่เป็นที่กล่าวถึงในมาตรา 11.3 (หน้า 439)
มีตัวเลือกหลาย:
• outputWordCounts ทำให้เกิดการนับคำที่เกิดขึ้นจริงที่จะถูกส่งออก
• IDFTransform และ TFTransform: เมื่อทั้งสองถูกตั้งค่าให้เป็นจริงความถี่ระยะ
กลายเป็น TF ×ค่า IDF
• แขนงให้เลือกขั้นตอนวิธีการที่แตกต่างกันของคำกั้น
• useStopList ช่วยให้คุณสามารถกำหนดหรือไม่ stopwords จะถูกลบ
• tokenizer ช่วย tokenizers ที่แตกต่างกันในการสร้างข้อตกลงดังกล่าวเป็นหนึ่งที่
ผลิตคำ n กรัมแทนคำเดียว
มีหลายอื่น ๆ ตัวเลือกที่มีประโยชน์ สำหรับข้อมูลเพิ่มเติมโปรดคลิกที่เพิ่มเติมใน
ทั่วไปแก้ไขวัตถุหน้าต่าง
การออกกำลังกาย 17.5.10 การทดสอบด้วยตัวเลือกที่มีอยู่ ตัวเลือกสิ่งที่
ให้ค่า AUC ที่ดีสำหรับทั้งสองชุดข้างต้นโดยใช้ NaiveBayesMultinomial
เป็นลักษณนามหรือไม่

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

สำรวจ stringtowordvector กรอง
โดยค่าเริ่มต้น ตัวกรอง stringtowordvector เพียงแค่ทำให้ค่าของแอททริบิวต์ใน
เปลี่ยนวันที่ 1 หรือ 0 สำหรับคำคำเดียว ขึ้นอยู่กับว่า คำว่า
ปรากฏในเอกสารหรือไม่ อย่างไรก็ตาม ตามที่กล่าวไว้ในมาตรา 11.3 ( หน้า 105 ) ,
มีตัวเลือกมากมาย :
- outputwordcounts สาเหตุที่แท้จริงว่า นับเป็น output .
บริการ idftransform tftransform : และเมื่อทั้งสองตั้งค่าจริงระยะความถี่
แปลงร่างเป็น TF × IDF ค่า
- โหลดให้เลือกแตกต่างกันปลากรอบขั้นตอนวิธี .
- usestoplist ช่วยให้คุณตรวจสอบว่า หรือไม่ stopwords ลบ .
- tokenizer ช่วยให้ tokenizers ที่แตกต่างกันสำหรับการสร้างเงื่อนไข เช่น คนที่
ผลิต n-grams คำแทนคําเดียว .
มีตัวเลือกที่มีประโยชน์หลายๆ สำหรับข้อมูลเพิ่มเติมให้คลิกในหน้าต่างแก้ไขวัตถุทั่วไป
.
ออกกำลังกาย 17.5.10 . ทดลองกับตัวเลือกที่ใช้ได้ สิ่งที่ตัวเลือก
ให้ค่ายาที่ดีสำหรับสองหากข้อมูลข้างต้น การใช้ naivebayesmultinomial
เป็นส่วนขยาย ?

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.