We study the problem of mining the informative structure of a news Web การแปล - We study the problem of mining the informative structure of a news Web ไทย วิธีการพูด

We study the problem of mining the

We study the problem of mining the informative structure of a news Web site that consists of thousands of hyperlinked documents. We define the informative structure of a news Web site as a set of index pages (or referred to as TOC, i.e., table of contents, pages) and a set of article pages linked by these TOC pages. Based on the Hyperlink Induced Topics Search (HITS) algorithm, we propose an entropy-based analysis (LAMIS) mechanism for analyzing the entropy of anchor texts and links to eliminate the redundancy of the hyperlinked structure so that the complex structure of a Web site can be distilled. However, to increase the value and the accessibility of pages, most of the content sites tend to publish their pages with intrasite redundant information, such as navigation panels, advertisements, copy announcements, etc. To further eliminate such redundancy, we propose another mechanism, called InfoDiscoverer, which applies the distilled structure to identify sets of article pages. InfoDiscoverer also employs the entropy information to analyze the information measures of article sets and to extract informative content blocks from these sets. Our result is useful for search engines, information agents, and crawlers to index, extract, and navigate significant information from a Web site. Experiments on several real news Web sites show that the precision and the recall of our approaches are much superior to those obtained by conventional methods in mining the informative structures of news Web sites. On the average, the augmented LAMIS leads to prominent performance improvement and increases the precision by a factor ranging from 122 to 257 percent when the desired recall falls between 0.5 and 1. In comparison with manual heuristics, the precision and the recall of InfoDiscoverer are greater than 0.956.
0/5000
จาก: -
เป็น: -
ผลลัพธ์ (ไทย) 1: [สำเนา]
คัดลอก!
เราศึกษาปัญหาของการทำเหมืองข้อมูลโครงสร้างของเว็บไซต์ข่าวที่พันเอกสารเชื่อมโยงหลายมิติ เรากำหนดโครงสร้างข้อมูลของเว็บไซต์ข่าวเป็นชุดหน้าดัชนี (หรือเรียกว่าสารบัญ เช่น สารบัญ หน้า) และชุดของหน้าบทความเชื่อมโยงจากหน้าสารบัญเหล่านี้ เราเสนอกลไกการวิเคราะห์ใช้เอนโทรปี (LAMIS) สำหรับวิเคราะห์ entropy ของจุดยึดข้อความและเชื่อมโยงเพื่อขจัดความซ้ำซ้อนของโครงสร้างการเชื่อมโยงหลายมิติเพื่อให้สามารถกลั่นโครงสร้างซับซ้อนของเว็บไซต์ตามขั้นตอนวิธีการเชื่อมโยงหลายมิติทำให้เกิดหัวข้อค้นหา (ชม) อย่างไรก็ตาม การเพิ่มค่าและการเข้าถึงหน้า ส่วนใหญ่นั้นเนื้อหามักจะ ประกาศหน้า intrasite ซ้ำซ้อนข้อมูล นำแผง โฆษณา ประกาศสำเนา ฯลฯ เพื่อขจัดความซ้ำซ้อนเช่นเพิ่มเติม เราเสนอกลไกอื่น เรียกว่า InfoDiscoverer ซึ่งใช้โครงสร้างการกลั่นเพื่อระบุชุดของหน้าบทความ นอกจากนี้ InfoDiscoverer ยังใช้ข้อมูลเอนโทรปีการ จะวิเคราะห์ข้อมูลของบทความชุด และแยกบล็อกข้อมูลเนื้อหาจากชุดเหล่านี้ ผลของเราใช้ การค้นหา ตัวแทนข้อมูล crawlers ดัชนี แยก และนำข้อมูลสำคัญจากเว็บไซต์ ทดลองในข่าวจริงหลายเว็บไซต์แสดงความแม่นยำและการเรียกคืนของเราวิธีใช้มากห้องที่ได้รับ โดยวิธีการทั่วไปในโครงสร้างข้อมูลของข่าวเว็บไซต์การทำเหมืองแร่ โดยเฉลี่ย LAMIS ออกเมนต์เป้าหมายเพื่อปรับปรุงประสิทธิภาพที่โดดเด่น และเพิ่มความแม่นยำ โดยตัวตั้งแต่ 122 257 เปอร์เซ็นต์เมื่อการเรียกคืนต้องอยู่ระหว่าง 0.5 และ 1 เมื่อเปรียบเทียบกับการลองผิดลองถูกด้วยตนเอง ความแม่นยำและการเรียกคืน InfoDiscoverer ได้มากกว่า 0.956
การแปล กรุณารอสักครู่..
ผลลัพธ์ (ไทย) 2:[สำเนา]
คัดลอก!
เราศึกษาปัญหาที่เกิดจากการทำเหมืองแร่โครงสร้างข้อมูลของข่าวเว็บไซต์ที่ประกอบด้วยหลายพันของเอกสารที่เชื่อมโยงหลายมิติ เรากำหนดโครงสร้างข้อมูลของข่าวเว็บไซต์เป็นชุดของหน้าดัชนี (หรือเรียกว่า TOC คือสารบัญหน้า) และชุดของหน้าบทความเชื่อมโยงโดย TOC หน้าเหล่านี้ ขึ้นอยู่กับการชักนำให้เกิดการเชื่อมโยงการค้นหาหัวข้อ (HITS) ขั้นตอนวิธีการที่เรานำเสนอการวิเคราะห์เอนโทรปีตาม (Lamis) กลไกสำหรับการวิเคราะห์เอนโทรปีของสมอข้อความและการเชื่อมโยงในการขจัดความซ้ำซ้อนของโครงสร้างเชื่อมโยงหลายมิติเพื่อให้โครงสร้างที่ซับซ้อนของเว็บไซต์สามารถ ได้รับการกลั่น อย่างไรก็ตามเพื่อเพิ่มมูลค่าและการเข้าถึงหน้าเว็บที่มากที่สุดของเว็บไซต์เนื้อหามีแนวโน้มที่จะเผยแพร่หน้าของพวกเขามีข้อมูล intrasite ซ้ำซ้อนเช่นแผงนำทาง, โฆษณา, ป​​ระกาศสำเนา ฯลฯ เพื่อเป็นการลดความซ้ำซ้อนเช่นนี้เรานำเสนอกลไกอื่น เรียกว่า InfoDiscoverer ซึ่งใช้โครงสร้างกลั่นเพื่อระบุชุดหน้าบทความ InfoDiscoverer นอกจากนี้ยังมีข้อมูลเอนโทรปีในการวิเคราะห์ข้อมูลมาตรการชุดบทความและบล็อกที่จะดึงเนื้อหาข้อมูลจากชุดนี้ ผลของเราจะเป็นประโยชน์สำหรับเครื่องมือค้นหาตัวแทนข้อมูลและซอฟต์แวร์รวบรวมข้อมูลเพื่อจัดทำดัชนี, สารสกัด, และนำทางข้อมูลอย่างมีนัยสำคัญจากเว็บไซต์ การทดลองในข่าวจริงหลายเว็บไซต์ที่แสดงให้เห็นว่ามีความแม่นยำและการเรียกคืนของวิธีการของเรามีมากดีกว่าให้กับผู้ที่ได้รับโดยวิธีการทั่วไปในการทำเหมืองแร่โครงสร้างข้อมูลของเว็บไซต์ข่าว โดยเฉลี่ยที่เติม Lamis นำไปสู่​​การปรับปรุงประสิทธิภาพการทำงานที่โดดเด่นและเพิ่มความแม่นยำโดยปัจจัยตั้งแต่ 122 ถึงร้อยละ 257 เมื่อต้องการเรียกคืนอยู่ระหว่าง 0.5 และ 1 ในการเปรียบเทียบกับการวิเคราะห์พฤติกรรมตนเองความแม่นยำและการเรียกคืนของ InfoDiscoverer มีมากขึ้น กว่า 0.956
การแปล กรุณารอสักครู่..
ผลลัพธ์ (ไทย) 3:[สำเนา]
คัดลอก!
เราศึกษาปัญหาของการทำเหมืองข้อมูลโครงสร้างของข่าวเว็บไซต์ที่ประกอบด้วยหลายพันของเชื่อมโยงหลายมิติเอกสาร . เรากำหนดข้อมูลโครงสร้างของข่าวเว็บไซต์เป็นชุดของหน้า ( หรือเรียกว่า toc คือ สารบัญ หน้า ) และชุดของหน้าเว็บที่เชื่อมโยงจากหน้าบทความข้อมูลเหล่านี้ ขึ้นอยู่กับการเชื่อมโยงหลายมิติการค้นหาหัวข้อ ( ฮิต ) ขั้นตอนวิธีเราเสนอเอนโทรปี ( lamis ) การวิเคราะห์กลไกและเอนโทรปีของข้อความจุดยึดและการเชื่อมโยงเพื่อขจัดความซ้ำซ้อนของการเชื่อมโครงสร้างที่ซับซ้อนของโครงสร้างเว็บไซต์สามารถกลั่น อย่างไรก็ตาม เพื่อเพิ่มมูลค่าและการเข้าถึงหน้า มากที่สุดของเว็บไซต์เนื้อหามีแนวโน้มที่จะเผยแพร่หน้าเว็บของพวกเขาด้วยข้อมูลที่ซ้ำซ้อน intrasite ,เช่นแผงนำทางโฆษณาสำเนาประกาศ ฯลฯ เพื่อขจัดความซ้ำซ้อนดังกล่าวเพิ่มเติม เราเสนอกลไกอื่นเรียกว่า infodiscoverer ซึ่งใช้โครงสร้างกลั่นเพื่อระบุชุดหน้าบทความ infodiscoverer ยังใช้ข้อมูลเพื่อวิเคราะห์ข้อมูลการวัดเอนโทรปีของชุดบทความและบล็อกเนื้อหาข้อมูลที่แยกจากชุดเหล่านี้ผลของเราจะเป็นประโยชน์สำหรับเครื่องมือค้นหา , เจ้าหน้าที่ข้อมูลและโปรแกรมตรวจสอบดัชนี , สารสกัด , และดูข้อมูลสำคัญจากเว็บไซต์ การทดลองในเว็บไซต์ข่าวหลายจริงแสดงให้เห็นว่าความแม่นยํา และเรียกแนวทางของเราเหนือกว่ามากที่ได้โดยวิธีที่นิยมใช้ในเหมืองแร่โครงสร้างอย่างละเอียดของเว็บไซต์ข่าว โดยเฉลี่ย ,เติม lamis นำไปสู่การปรับปรุงประสิทธิภาพที่โดดเด่นและเพิ่มความแม่นยำโดยปัจจัยตั้งแต่ 122 ถึง 257 เปอร์เซ็นต์เมื่อต้องการเรียกคืนอยู่ระหว่าง 0.5 และ 1 ในการเปรียบเทียบกับคู่มือการวิเคราะห์พฤติกรรม , ความแม่นยำและจำ infodiscoverer มากกว่า 0.956 .
การแปล กรุณารอสักครู่..
 
ภาษาอื่น ๆ
การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.

Copyright ©2025 I Love Translation. All reserved.

E-mail: