We implement the webpage classifica

We implement the webpage classification algorithm by
combining the three techniques mentioned previously 1)
Segmenting Visual Boundaries 2) Breath First Search 3)
Ontology. First of all, we identify the visual boundaries
of HTML tags using information provided by the browser
rendering engine. We parse and traverse the HTML page
using Breadth First Search algorithm. If a particular level
of a tree contains at least five HTML tags with sufficient
visual boundaries (e.g. having area more than 500), we
take these HTML Tags as regions. Once the segmentation
is done, we tokenize the TextNodes into words and then
we select the first two regions, merge them, and group
same words together. When a word matches another, the
first word will form a cluster of size one.
After segmentation and merging of the first 2 regions are
carried out, we will perform the tokenization of
TextNode to each of the remaining regions, and obtain
the root word for each of the tokenized words. For
example, the root word of “oxen” is “ox”, the root word
of “fishes” is “fish”, and so on. After that, we measure
the semantic similarity of each word in the remaining
regions with the words in the merged region using Lin’s
algorithm. If a pair of words obtains a semantic similarity
score of more than 0.7 from a scale of 0.0 to 1.0, the
words will be grouped into their respective cluster. The
counter of the cluster group will be increased by one each
time a match is found. A pair of words which returns a
value of less than 0.7 will be ignored. Finally, we will
have a list of clusters with their own words. We will then
match these keywords with the predefined keywords to

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

เราใช้อัลกอริทึมการจัดประเภทของเว็บเพจโดยรวมเทคนิคทั้งสามที่กล่าวถึงก่อนหน้านี้ 1)คือขอบเขตภาพ 2) ลมหายใจแรกค้นหา 3)ภววิทยา ครั้งแรกของทั้งหมด เราระบุขอบเขตภาพแท็ก HTML ที่ใช้ข้อมูลโดยเบราว์เซอร์โปรแกรมการแสดงผล เราแยก และข้ามเพจ HTMLโดยใช้อัลกอริทึมการค้นหาแรกกว้าง ถ้าระดับใดของต้นไม้ประกอบด้วยน้อยห้าแท็ก HTML ด้วยเพียงพอขอบภาพ (มีเช่นในพื้นที่มากกว่า 500), เราใช้แท็ก HTML นี้เป็นภูมิภาค เมื่อการแบ่งกลุ่มจะทำได้ เรา tokenize TextNodes ที่เป็นคำแล้วเราเลือกภูมิภาคสอง ผสานพวกเขา และกลุ่มคำเดียวกัน เมื่อตรงกับคำอื่น การคำแรกจะเป็นคลัสเตอร์ขนาดหนึ่งหลังจากการแบ่งและการผสานครั้งแรก ภาค 2 มีดำเนินการ เราจะทำ tokenization ของTextNode แต่ละภูมิภาคที่เหลือ และขอรับคำหลักสำหรับแต่ละคำ tokenized สำหรับตัวอย่าง คำรากของ "วัว" เป็น "วัว" รากคำของ "ปลา" เป็น "ปลา" และอื่น ๆ หลังจากนั้น เราวัดเฉพาะความหมายของแต่ละคำในเหลือภูมิภาคที่ มีคำในภูมิภาครวมใช้ของหลินอัลกอริทึมการ ถ้าคู่ของคำคล้ายคลึงกับความหมายที่ได้รับคะแนนมากกว่า 0.7 จาก 0.0 ถึง 1.0 มีระดับการคำจะจัดกลุ่มเป็นคลัสเตอร์ของพวกเขาเกี่ยวข้อง ที่เคาน์เตอร์ของกลุ่มคลัสเตอร์จะเพิ่มขึ้นโดยแต่ละเวลาที่พบการจับคู่ คู่ของคำที่ส่งกลับค่าการจะละเว้นค่าของน้อยกว่า 0.7 ในที่สุด เราจะมีรายการของคลัสเตอร์ด้วยตนเองคำ เราจะตรงกับคำสำคัญเหล่านี้ ด้วยคำสำคัญที่กำหนดไว้ล่วงหน้าเพื่อ

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

เราดำเนินการตามขั้นตอนวิธีการจัดหมวดหมู่หน้าเว็บโดยรวมสามเทคนิคดังกล่าวก่อนหน้า 1) การแบ่งกลุ่มขอบเขตภาพ 2) ลมหายใจแรกค้นหา 3) อภิปรัชญา แรกของทั้งหมดที่เราระบุขอบเขตภาพของแท็กโดยใช้ข้อมูลจากเบราว์เซอร์เครื่องมือการแสดงผล เราแยกและสำรวจหน้า HTML โดยใช้ขั้นตอนวิธีการค้นหาความกว้างแรก หากระดับโดยเฉพาะอย่างยิ่งของต้นไม้มีอย่างน้อยห้าแท็ก HTML ที่มีเพียงพอขอบเขตภาพ(เช่นมีพื้นที่มากกว่า 500) เราใช้เวลาเหล่านี้แท็กHTML เป็นภูมิภาค เมื่อแบ่งส่วนจะทำเรา tokenize TextNodes ลงในคำพูดแล้วเราเลือกครั้งแรกที่ทั้งสองภูมิภาคผสานพวกเขาและกลุ่มคำเดียวกันเข้าด้วยกัน เมื่อคำตรงกับอีกคำแรกจะเป็นกลุ่มของหนึ่งขนาด. หลังจากการแบ่งส่วนและการผสมของครั้งแรก 2 ภูมิภาคมีการดำเนินการที่เราจะดำเนินการtokenization ของTextNode แต่ละภูมิภาคที่ยังเหลืออยู่และได้รับรากคำสำหรับแต่ละคำ tokenized สำหรับตัวอย่างของคำราก "วัว" เป็น "วัว" คำว่ารากของ"ปลา" เป็น "ปลา" และอื่น ๆ หลังจากนั้นเราจะวัดความคล้ายคลึงกันกับความหมายของแต่ละคำในส่วนที่เหลืออีกพื้นที่ที่มีคำในภูมิภาครวมโดยใช้หลินอัลกอริทึม ถ้าคู่ของคำได้รับความคล้ายคลึงกันความหมายคะแนนกว่า 0.7 จากขนาดของ 0.0-1.0 ที่คำจะถูกแบ่งออกเป็นกลุ่มของตน เคาน์เตอร์ของกลุ่มคลัสเตอร์จะเพิ่มขึ้นโดยหนึ่งในแต่ละครั้งที่มีการแข่งขันพบ คู่ของคำที่ส่งกลับค่าน้อยกว่า 0.7 จะถูกละเว้น สุดท้ายเราจะมีรายชื่อของกลุ่มด้วยคำพูดของตัวเอง จากนั้นเราจะตรงกับคำหลักเหล่านี้กับคำหลักที่กำหนดไว้ล่วงหน้า

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

เราใช้ขั้นตอนวิธีการจำแนกเว็บเพจโดย
รวมสามเทคนิคที่กล่าวถึงก่อนหน้านี้ 1 )
2 ) ขอบเขตการแบ่งส่วนภาพลมหายใจแรกค้นหา 3 )
อภิปรัชญา . ครั้งแรกของทั้งหมด เราระบุขอบเขตภาพ
แท็ก HTML โดยใช้ข้อมูลที่ให้ไว้โดยเบราว์เซอร์
เครื่องมือการแสดงผล . เราแยกและท่องหน้า HTML โดยใช้ขั้นตอนวิธีการค้นหา
กว้างก่อน ถ้า
ระดับใดของต้นไม้ที่มีอย่างน้อยห้า HTML แท็กเพียงพอ
ภาพขอบเขต ( เช่น มีพื้นที่กว่า 500 ) เรา
ใช้แท็กเหล่านี้เป็นภูมิภาค เมื่อแบ่ง
เสร็จแล้ว เรา tokenize ที่ textnodes เป็นคำพูดแล้ว
เราเลือกสองภาคแรก ผสาน และกลุ่ม
คำๆ เดียวกันด้วยกัน เมื่อคำตรงอื่น
คำแรกจะฟอร์ม Cluster ขนาดหนึ่ง .
หลังจากการรวมกันของ 2 ภูมิภาคแรก
ดำเนินการ เราจะทำการ tokenization
textnode ของแต่ละภูมิภาค ที่เหลือและขอรับ
รากคำสำหรับแต่ละของ tokenized คำ สำหรับ
เช่น รากคำ " วัว " เป็น " วัว " รากคำ
" ปลา " " ปลา " , และดังนั้นบน หลังจากนั้น เราวัด
ความหมายความเหมือนของแต่ละคำที่เหลือ
ภูมิภาคกับคำพูดในผสานเขตใช้ขั้นตอนวิธีของ
หลิน ถ้าคู่ของคำที่ได้รับคะแนนความเหมือน
ความหมายมากกว่า 0.7 จากระดับ 0.0 ถึง 1.0
คำจะถูกแบ่งออกเป็นกลุ่มของตน
เคาน์เตอร์ของกลุ่มคลัสเตอร์จะเพิ่มขึ้น โดยแต่ละคน
เวลาการแข่งขัน พบว่า คู่ของคำที่ส่งกลับ
ค่าน้อยกว่า 0.7 จะถูกละเว้น ในที่สุดเราจะ
มีรายชื่อกลุ่มกับคำพูดของตัวเอง จากนั้นเราจะ
ตรงกับคำหลักเหล่านี้ไว้ล่วงหน้าด้วยคำหลักเพื่อ

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.