I. INTRODUCTIONWith the explosion o

I. INTRODUCTION
With the explosion of the World Wide Web, a large
amount of data on many different subjects has become
available on-line, this has opened the opportunity for users to
benefit from the available data in many interesting way.
Usually, users retrieve web data by browsing and keyword
searching, which are intuitive forms of accessing data on the
web. However, these search strategies present several
limitations. Browsing is not suitable for locating particular
items of data, because following links is tedious and it is
easy to get lost. Keyword searching is sometimes more
efficient than browsing, but often returns large amounts of
data, far beyond what the user can handle. As a result, in
spite of being publicly and readily available, web data can
hardly be properly queried or manipulated. So the
researchers begin to consider how to extract the content of
the webpage for further handling.
The traditional approaches for extracting data from the
webpage can be classified as below. First, it’s the method
based on wrappers [1-5], the wrappers are some specialized
programs, which identify data of interest and map them to
some suitable format. This method has a well-known
shortcoming, the wrappers are always developed manually,
it’s a very time-consuming work and very difficult to debug
them. Although many researchers introduce the machine
learning method to optimize the process, it still has no
sufficient power to deal with many different web pages, the
wrappers often takes effect on some similar web pages, not
most of on-line web pages. Second, it’s the method based on
HTML DOM tree analysis [6-8, 10, 11], much recent work focus
on this method. The main idea of this method is to judge
each node of the DOM tree whether it is a text node.
Although many researchers try to improve it from many

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

I. บทนำมีการกระจายของเวิลด์ไวด์เว็บ ขนาดใหญ่เป็นจำนวนข้อมูลในหลายวิชาที่แตกต่างกันว่าง นี้ได้เปิดโอกาสให้ผู้ใช้ได้รับประโยชน์จากข้อมูลในวิธีที่น่าสนใจมากโดยปกติ ผู้ใช้ดึงข้อมูลเว็บ โดยเรียกดูและคำสำคัญค้นหา ซึ่งเป็นแบบฟอร์มใช้งานง่ายเข้าถึงข้อมูลในการเว็บ อย่างไรก็ตาม วิธีการค้นหาเหล่านี้ปัจจุบันหลายข้อจำกัดใด ๆ เรียกดูไม่เหมาะสมสำหรับตำแหน่งเฉพาะรายการของข้อมูล เนื่องจากลิงค์ต่อไปนี้ เป็นน่าเบื่อง่ายหายไป คำค้นหาเป็นบางครั้งมีประสิทธิภาพมากกว่าการเรียกดู แต่มักจะส่งกลับค่าจำนวนมาก ๆข้อมูล ไกลเกินกว่าสิ่งที่ผู้ใช้สามารถจัดการ ดังนั้น ในทั้ง ๆ ที่ของสาธารณะ และพร้อมใช้ เว็บข้อมูลสามารถแทบจะถูกสอบถาม หรือจัดการ ดังนั้นการนักวิจัยเริ่มต้นในการพิจารณาวิธีการแยกเนื้อหาของหน้าเว็บสำหรับการจัดการเพิ่มเติมวิธีแบบดั้งเดิมสำหรับการดึงข้อมูลข้อมูลจากการเว็บเพจสามารถจัดประเภทได้ดังนี้ ครั้งแรก มันเป็นวิธีตามห่อ [1-5], ห่อมีบางความโปรแกรม ซึ่งระบุข้อมูลที่น่าสนใจ และแผนที่ให้บางรูปแบบเหมาะสม วิธีนี้มีการรู้จักคง ห่อมักพัฒนาตนเองจึงใช้เวลามากทำงาน และยากที่จะตรวจแก้จุดบกพร่องพวกเขา แม้ว่านักวิจัยหลายแนะนำเครื่องเรียนรู้วิธีการเพิ่มประสิทธิภาพของกระบวนการ มันยังไม่มีพลังงานเพียงพอในการจัดการกับหลายเว็บเพจต่าง ๆ การห่อมักจะมีผลในบางหน้าเว็บคล้าย ไม่ส่วนใหญ่ของหน้าเว็บที่ง่ายดาย ที่สอง มันเป็นวิธีที่ยึดHTML DOM แผนภูมิวิเคราะห์ [6-8, 10, 11], โฟกัสมากงานล่าสุดในวิธีนี้ ความคิดหลักของวิธีนี้คือการ ตัดสินแต่ละโหนของโดมต้นไม้ไม่ว่าจะเป็นข้อความโหนแม้ว่านักวิจัยจำนวนมากพยายามที่จะปรับปรุงจากหลาย

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

I. บทนำ
กับการระเบิดของเวิลด์ไวด์เว็บ, ขนาดใหญ่
ปริมาณของข้อมูลในเรื่องที่แตกต่างกันได้กลายเป็น
ที่มีอยู่ในบรรทัดนี้ได้เปิดโอกาสให้ผู้ใช้สามารถ
ได้รับประโยชน์จากข้อมูลที่มีอยู่ในทางที่น่าสนใจมากมาย.
โดยปกติผู้ใช้เรียก ข้อมูลเว็บโดยการเรียกดูและคำ
ค้นหาซึ่งเป็นรูปแบบที่ใช้งานง่ายในการเข้าถึงข้อมูลบน
เว็บ อย่างไรก็ตามกลยุทธ์การค้นหาเหล่านี้ในปัจจุบันหลาย
ข้อ จำกัด เรียกดูไม่เหมาะสำหรับตำแหน่งโดยเฉพาะอย่างยิ่ง
รายการของข้อมูลเพราะการเชื่อมโยงต่อไปนี้เป็นที่น่าเบื่อและมันก็เป็น
เรื่องง่ายที่จะได้รับหายไป การค้นหาคำหลักเป็นบางครั้งมาก
ที่มีประสิทธิภาพกว่าการท่อง แต่มักจะกลับจำนวนมากของ
ข้อมูลไกลเกินกว่าสิ่งที่ผู้ใช้สามารถจัดการกับ เป็นผลให้ใน
แม้จะถูกเปิดเผยต่อสาธารณชนและพร้อมข้อมูลเว็บสามารถ
แทบจะไม่ได้รับการสอบถามอย่างถูกต้องหรือจัดการ ดังนั้น
นักวิจัยเริ่มต้นที่จะต้องพิจารณาวิธีการดึงเนื้อหาของ
หน้าเว็บสำหรับการจัดการต่อไป.
วิธีการแบบดั้งเดิมในการสกัดข้อมูลจาก
หน้าเว็บสามารถแบ่งได้ดังต่อไปนี้ ครั้งแรกก็วิธีการ
ขึ้นอยู่กับห่อ [1-5] ห่อเป็นบางส่วนเฉพาะ
โปรแกรมซึ่งระบุข้อมูลที่น่าสนใจและแผนที่ให้พวกเขา
บางรูปแบบที่เหมาะสม วิธีการนี้มีที่รู้จักกันดี
บกพร่องห่อมีการพัฒนาอยู่เสมอด้วยตนเอง
ก็ทำงานใช้เวลานานมากและยากมากที่จะแก้ปัญหา
ให้พวกเขา ถึงแม้ว่านักวิจัยหลายคนแนะนำเครื่อง
เรียนรู้วิธีการที่จะเพิ่มประสิทธิภาพกระบวนการก็ยังคงไม่มี
อำนาจเพียงพอที่จะจัดการกับหน้าเว็บที่แตกต่างกันหลาย
ห่อมักจะมีผลในบางหน้าเว็บที่คล้ายกันไม่ได้
ส่วนใหญ่ในบรรทัดหน้าเว็บ ที่สองก็เป็นวิธีการที่อยู่บนพื้นฐานของ
HTML DOM วิเคราะห์ต้นไม้ [6-8, 10, 11], มุ่งเน้นการทำงานที่ผ่านมามาก
เกี่ยวกับวิธีการนี้ แนวคิดหลักของวิธีนี้คือการตัดสิน
แต่ละโหนดของต้นไม้ DOM ไม่ว่าจะเป็นโหนดข้อความ.
ถึงแม้ว่านักวิจัยหลายคนพยายามที่จะปรับปรุงให้ดีขึ้นจากหลาย

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ผมแนะนำ
กับการระเบิดของเวิลด์ไวด์เว็บ จำนวนมาก
ข้อมูลในวิชาต่าง ๆได้กลายเป็น
ใช้ได้ออนไลน์ นี้ เปิดโอกาสให้ผู้ใช้
ได้รับประโยชน์จากข้อมูลที่มีอยู่ในวิธีที่น่าสนใจมาก
โดยปกติผู้ใช้ดึงข้อมูลเว็บโดยการเรียกดูและค้นหาคำหลัก
ซึ่งเป็นรูปแบบ ที่ใช้งานง่ายของการเข้าถึงข้อมูลบน
เว็บ อย่างไรก็ตามค้นหากลยุทธ์เหล่านี้ปัจจุบันหลาย
ข้อจำกัด ดูไม่เหมาะกับตำแหน่งเฉพาะ
รายการข้อมูลเพราะการเชื่อมโยงต่อไปนี้เป็นเรื่องน่าเบื่อ และมันคือ
ง่ายที่จะได้รับหายไป การค้นหาคำหลักคือบางครั้งมากขึ้น
มีประสิทธิภาพมากกว่าการเรียกดู แต่มักกลับมาเป็นจำนวนมาก
ข้อมูลมากเกินกว่าที่ผู้ใช้สามารถจัดการ เป็นผลให้ใน
แม้จะต่อสาธารณะและพร้อมใช้งาน ข้อมูลเว็บสามารถ
แทบจะถูกสอบถาม หรือควบคุม ดังนั้น
นักวิจัยเริ่มต้นที่จะต้องพิจารณาวิธีการดึงเนื้อหาของหน้าเว็บสำหรับการจัดการต่อไป
.
วิธีแบบดั้งเดิมสำหรับการสกัดข้อมูลจาก
เว็บเพจสามารถจำแนกดังนี้ แรก , มันเป็นวิธี
ตามห่อ [ 1-5 ] , ห่อบางผู้เชี่ยวชาญ
โปรแกรม ที่ ระบุ ข้อมูลที่น่าสนใจ และแผนที่ให้
บางอย่างเหมาะสม รูปแบบวิธีการนี้มีจุดอ่อนที่รู้จักกันดี
, ห่อมักจะพัฒนาด้วยตนเอง
มันเป็นงานที่ใช้เวลานานมาก และยากมากที่จะแก้ปัญหา
. แม้ว่านักวิจัยหลายคนแนะนำเครื่อง
วิธีการเรียนรู้เพื่อปรับกระบวนการ มันยังไม่เพียงพอที่จะรับมือกับพลัง

หน้าเว็บที่แตกต่างกันหลายห่อมักจะผลในบางหน้าเว็บที่คล้ายกันไม่ได้
ที่สุดของเว็บออนไลน์ ประการที่สอง มันเป็นวิธีสอนที่ใช้ HTML DOM ต้นไม้
การวิเคราะห์ [ 6-8 , 10 , 11 ] ,
มุ่งเน้นผลงานล่าสุดมากในวิธีนี้ แนวคิดหลักของวิธีนี้คือ ผู้พิพากษา
แต่ละโหนดของต้นไม้ DOM ไม่ว่าจะเป็นโหนดข้อความ .
ถึงแม้ว่านักวิจัยหลายคนพยายามที่จะปรับปรุงจากหลาย

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.