Vector Space ModelIn the vector spa

Vector Space Model

In the vector space model text is represented by a vector of terms. [28] The definition of a term is not inherent in the model, but terms are typically words and phrases. If words are chosen as terms, then every word in the vocabulary becomes an independent dimension in a very high dimensional vector space. Any text can then be represented by a vector in this high dimensional space. If a term belongs to a text, it gets a non-zero value in the text-vector along the dimension corresponding to the term. Since any text contains a limited set of terms (the vocabulary can be millions of terms), most text vectors are very sparse. Most vector based systems operate in the positive quadrant of the vector space, i.e., no term is assigned a negative value.
To assign a numeric score to a document for a query, the model measures the similarity between the query vector (since query is also just text and can be converted into a vector) and the document vector. The similarity between two vectors is once again not inherent in the model. Typically, the angle between two vectors is used as a measure of divergence between the vectors, and cosine of the angle is used as the numeric similarity (since

cosine has the nice property that it is 1.0 for identical vectors and 0.0 for orthogonal vectors). As an alternative, the inner-product (or dot-product) between two vectors is often used as a similarity measure. If all the vectors are forced to be unit length, then the cosine of the angle between two vectors is same as their dot-product. If
is the document vector and is the query vector, then the similarity of document to query (or score of for ) can be represented as:

Vector Space Model

In the vector space model text is represented by a vector of terms. [28] The definition of a term is not inherent in the model, but terms are typically words and phrases. If words are chosen as terms, then every word in the vocabulary becomes an independent dimension in a very high dimensional vector space. Any text can then be represented by a vector in this high dimensional space. If a term belongs to a text, it gets a non-zero value in the text-vector along the dimension corresponding to the term. Since any text contains a limited set of terms (the vocabulary can be millions of terms), most text vectors are very sparse. Most vector based systems operate in the positive quadrant of the vector space, i.e., no term is assigned a negative value.
To assign a numeric score to a document for a query, the model measures the similarity between the query vector (since query is also just text and can be converted into a vector) and the document vector. The similarity between two vectors is once again not inherent in the model. Typically, the angle between two vectors is used as a measure of divergence between the vectors, and cosine of the angle is used as the numeric similarity (since
 
cosine has the nice property that it is 1.0 for identical vectors and 0.0 for orthogonal vectors). As an alternative, the inner-product (or dot-product) between two vectors is often used as a similarity measure. If all the vectors are forced to be unit length, then the cosine of the angle between two vectors is same as their dot-product. If
is the document vector and is the query vector, then the similarity of document to query (or score of for ) can be represented as:

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

รูปแบบเวกเตอร์เวกเตอร์ที่แสดงรูปแบบข้อความ โดยเวกเตอร์ของเงื่อนไข [28] นิยามของคำในรูปแบบงานไม่ได้ แต่เงื่อนไขโดยทั่วไปมีคำและวลี ถ้าคำที่เป็นคำ แล้วทุกคำศัพท์เป็น มิติมีอิสระในตัวสูงมากมิติเวกเตอร์ จากนั้นสามารถแสดงข้อความตามเวกเตอร์ในพื้นที่มิตินี้สูง ถ้าคำที่เป็นข้อความ ได้รับค่าไม่เป็นศูนย์ในเวกเตอร์ข้อความตามขนาดที่สอดคล้องกับคำ เนื่องจากข้อความประกอบด้วยจำกัดชุดของคำ (คำศัพท์สามารถเป็นล้านคำ), เวกเตอร์ข้อความส่วนใหญ่จะเบามาก เวกเตอร์ที่ใช้ระบบส่วนใหญ่มีในควอดร้อนท์บวกของเวกเตอร์ เช่น เงื่อนไขไม่มีกำหนดค่าลบในการกำหนดตัวเลขคะแนนเอกสารสำหรับแบบสอบถาม แบบวัดความคล้ายคลึงกันระหว่างเวกเตอร์แบบสอบถาม (เนื่องจากแบบสอบถามเป็นข้อความอย่างเดียว และสามารถแปลงเป็นเวกเตอร์) และเวกเตอร์เอกสาร ความคล้ายกันระหว่างสองเวกเตอร์ในรูปแบบอีกครั้งไม่ได้ โดยปกติ มุมระหว่างเวกเตอร์ทั้งสองจะใช้เป็นวัด divergence ระหว่างเวกเตอร์ และโคไซน์ของมุมใช้เป็นเฉพาะตัวเลข (ตั้งแต่ โคไซน์ได้คุณสมบัติดีว่า เป็น 1.0 สำหรับเวกเตอร์เหมือนและ 0.0 สำหรับเวกเตอร์ orthogonal) เป็นทางเลือกหนึ่ง ภายในผลิตภัณฑ์ (หรือคูณจุด) ระหว่างสองเวกเตอร์มักใช้เป็นการวัดความคล้ายคลึงกัน ถ้าเวกเตอร์ทั้งหมดถูกบังคับให้เป็นหน่วยความยาว โคไซน์ของมุมระหว่างเวกเตอร์ทั้งสองเป็นเหมือนจุดผลิตภัณฑ์ของพวกเขา หากเวคเตอร์เอกสาร และเวกเตอร์แบบสอบถาม แล้วสามารถแสดงความคล้ายกันของเอกสารแบบสอบถาม (หรือคะแนนสำหรับ) เป็น:

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

เวกเตอร์รุ่น Space ในรูปแบบข้อความปริภูมิเวกเตอร์ที่เป็นตัวแทนจากเวกเตอร์ของข้อตกลง [28] ความหมายของคำที่ไม่ได้อยู่ในรูปแบบ แต่เงื่อนไขโดยทั่วไปจะมีคำและวลี ถ้าคำที่เลือกให้เป็นข้อตกลงแล้วคำในคำศัพท์ทุกมิติกลายเป็นอิสระในปริภูมิเวกเตอร์มิติที่สูงมาก ข้อความใด ๆ นั้นจะสามารถแสดงโดยเวกเตอร์ในมิติที่สูงนี้ ถ้าคำที่เป็นข้อความจะได้รับไม่ใช่ศูนย์ค่าในข้อความเวกเตอร์พร้อมมิติที่สอดคล้องกับคำว่า ตั้งแต่ข้อความใด ๆ ที่มีชุด จำกัด ของคำ (คำศัพท์ที่สามารถนับล้านของคำ) ส่วนใหญ่พาหะข้อความที่เบาบางมาก เวกเตอร์ส่วนใหญ่ตามระบบการดำเนินงานในด้านบวกของปริภูมิเวกเตอร์คือระยะไม่มีการกำหนดเป็นค่าลบ. ในการกำหนดคะแนนตัวเลขในเอกสารสำหรับการค้นหาเป็นแบบวัดความคล้ายคลึงกันระหว่างเวกเตอร์แบบสอบถาม (ตั้งแต่แบบสอบถามยังเป็น เพียงข้อความและสามารถแปลงเป็นเวกเตอร์) และเวกเตอร์เอกสาร ความคล้ายคลึงกันระหว่างสองเวกเตอร์เป็นอีกครั้งที่ไม่ได้อยู่ในรูปแบบ โดยปกติมุมระหว่างสองเวกเตอร์ที่ใช้เป็นตัวชี้วัดของความแตกต่างระหว่างเวกเตอร์ที่และโคไซน์ของมุมที่ใช้เป็นความคล้ายคลึงกันที่เป็นตัวเลข (ตั้งแต่โคไซน์มีสถานที่ให้บริการที่ดีที่ว่ามันเป็น1.0 เวกเตอร์ที่เหมือนกันและ 0.0 สำหรับเวกเตอร์ตั้งฉาก) เป็นทางเลือกด้านผลิตภัณฑ์ (หรือจุดผลิตภัณฑ์) ระหว่างสองเวกเตอร์มักจะใช้เป็นตัวชี้วัดความคล้ายคลึงกัน ถ้าเวกเตอร์ทั้งหมดจะถูกบังคับให้เป็นหน่วยความยาวแล้วโคไซน์ของมุมระหว่างสองเวกเตอร์เป็นเช่นเดียวกับจุดผลิตภัณฑ์ของพวกเขา หากเป็นเอกสารเวกเตอร์และเป็นแบบสอบถามเวกเตอร์แล้วคล้ายคลึงกันของเอกสารในการค้นหา (หรือคะแนนสำหรับ) สามารถแสดงเป็น:

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

เวกเตอร์แบบ

Space ในปริภูมิเวกเตอร์แบบข้อความที่จะแสดงเป็นเวกเตอร์ของเงื่อนไข [ 28 ] ความหมายของคำไม่ได้อยู่ในรูปแบบ แต่เงื่อนไขโดยทั่วไปเป็นคำและวลี ถ้าคำที่ถูกเลือกเป็นเงื่อนไข แล้วทุกคำในคำศัพท์กลายเป็นมิติอิสระในปริภูมิเวกเตอร์มิติสูงมากข้อความใด ๆ จากนั้นจะสามารถแสดงเป็นเวกเตอร์ในช่องว่างมิตินี้สูง ถ้าเงื่อนไขเป็นข้อความ มันก็จะไม่ใช่ศูนย์ค่าในข้อความเวกเตอร์ตามมิติที่สอดคล้องกับระยะเวลาที่ เนื่องจากข้อความใด ๆ มีชุด จำกัด ของคำ ( คำศัพท์ที่สามารถล้านส่วน ) , เวกเตอร์ข้อความส่วนใหญ่จะเบาบางมากเวกเตอร์ที่ใช้งานมากที่สุด ระบบในด้านบวกของปริภูมิเวกเตอร์คือไม่มีระยะเวลากำหนดเป็นค่าลบ .
มอบหมายคะแนนตัวเลขในเอกสารเพื่อค้นหามาตรการความคล้ายคลึงระหว่างแบบสอบถามเวกเตอร์รูปแบบ ( ตั้งแต่แบบสอบถามยังเป็นแค่ข้อความ และสามารถแปลงเป็นเวกเตอร์ ) และเอกสาร เวกเตอร์ความคล้ายคลึงกันระหว่างสองเวกเตอร์เป็นอีกครั้งที่ไม่ได้อยู่ในรูปแบบ โดยปกติ มุมระหว่างเวกเตอร์ทั้งสองใช้เป็นวัดของความแตกต่างระหว่างเวกเตอร์และโคไซน์ของมุม คือ ใช้เป็น ความเหมือน ตัวเลข ( ตั้งแต่

โคไซน์ได้ดี ทรัพย์สินที่เป็น 1.0 สำหรับเหมือนกัน เวกเตอร์ และเวกเตอร์สำหรับ ) 0.0 ) เป็นทางเลือกผลคูณภายใน ( หรือผลิตภัณฑ์ dot ) ระหว่างเวกเตอร์ทั้งสองมักใช้เป็นเหมือนวัด ถ้าเวกเตอร์ทั้งหมดจะบังคับให้มีความยาว 1 หน่วย แล้วโคไซน์ของมุมระหว่างเวกเตอร์ทั้งสองเป็นเช่นเดียวกับพวกเขาจุดผลิตภัณฑ์ ถ้า
คือเอกสารเวกเตอร์และเวกเตอร์แบบสอบถามแล้วความคล้ายคลึงของเอกสารแบบสอบถาม ( หรือคะแนน ) ที่สามารถแสดงเป็น :

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.