The Deep Web, i.e., content hidden

The Deep Web, i.e., content hidden behind HTML forms,
has long been acknowledged as a significant gap in search
engine coverage. Since it represents a large portion of the
structured data on the Web, accessing Deep-Web content
has been a long-standing challenge for the database community.
This paper describes a system for surfacing Deep-Web
content, i.e., pre-computing submissions for each HTML
form and adding the resulting HTML pages into a search
engine index. The results of our surfacing have been incorporated
into the Google search engine and today drive more
than a thousand queries per second to Deep-Web content.
Surfacing the Deep Web poses several challenges. First,
our goal is to index the content behind many millions of
HTML forms that span many languages and hundreds of
domains. This necessitates an approach that is completely
automatic, highly scalable, and very efficient. Second, a
large number of forms have text inputs and require valid
inputs values to be submitted. We present an algorithm
for selecting input values for text search inputs that accept
keywords and an algorithm for identifying inputs which accept
only values of a specific type. Third, HTML forms
often have more than one input and hence a naive strategy
of enumerating the entire Cartesian product of all possible
inputs can result in a very large number of URLs being generated.
We present an algorithm that efficiently navigates
the search space of possible input combinations to identify
only those that generate URLs suitable for inclusion into
our web search index. We present an extensive experimental
evaluation validating the effectiveness of our algorithms

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

เว็บลึก เช่น เนื้อหาถูกซ่อนอยู่เบื้องหลังฟอร์ม HTMLมียาวถูกยอมรับว่า เป็นช่องว่างสำคัญในการค้นหาครอบคลุมเครื่องยนต์ เพราะมันแสดงถึงส่วนใหญ่ของการข้อมูลบนเว็บ การเข้าถึงเนื้อหาเว็บที่ลึกได้รับความท้าทายที่ยาวนานสำหรับฐานข้อมูลชุมชนเอกสารนี้อธิบายถึงระบบสำหรับผิวลึกเว็บเนื้อหา เช่น ก่อนคำนวณส่งสำหรับ HTML แต่ละแบบฟอร์มและเพิ่มเพจ HTML ผลการค้นหาดัชนีเครื่องมือ มีการรวมผลลัพธ์ของผิวของเราเข้า Google ค้นหาและวันนี้ขับเพิ่มเติมกว่าพันแบบสอบถามต่อวินาทีเนื้อหาลึกเว็บพื้นผิวได้ลึกซึ่งทำให้เกิดความท้าทายหลายประการ ครั้งแรกเป้าหมายของเราคือการจัดทำ ดัชนีเนื้อหาอยู่หลายล้านฟอร์ม HTML ที่ครอบคลุมหลายภาษาและหลายร้อยโดเมน นี้ necessitates วิธีการที่สมบูรณ์อัตโนมัติ ปรับขนาดได้สูง และมีประสิทธิภาพมาก สอง การจำนวนมากของแบบฟอร์มมีช่องข้อความ และต้องถูกต้องค่าปัจจัยการผลิตการส่ง เรามีอัลกอริทึมสำหรับการเลือกค่าที่ป้อนเข้าจากการค้นหาข้อความที่ยอมรับคำสำคัญและอัลกอริทึมสำหรับการระบุปัจจัยการผลิตที่ยอมรับเฉพาะค่าของชนิดระบุ ฟอร์ม HTML ที่สามมักจะมีการป้อนข้อมูลมากกว่าหนึ่ง และด้วยเหตุนี้กลยุทธ์หน่อมแน้มการตรวจผลิตภัณฑ์ Cartesian ทั้งของได้ทั้งหมดปัจจัยการผลิตสามารถทำเป็น Url ที่ถูกสร้างขึ้นจำนวนมากเรามีอัลกอริทึมที่นำทางได้อย่างมีประสิทธิภาพพื้นที่การค้นหาของการป้อนข้อมูลรวมเพื่อระบุเฉพาะผู้ที่สร้าง Url ที่เหมาะสมสำหรับการรวมลงในดัชนีค้นหาเว็บ เรานำเสนอการทดลองการประเมินการตรวจสอบประสิทธิภาพของขั้นตอนวิธีการทำงานของเรา

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

เว็บลึกคือเนื้อหาที่ซ่อนอยู่หลังรูปแบบ HTML,
ได้รับการยอมรับว่าเป็นช่องว่างอย่างมีนัยสำคัญในการค้นหา
ความคุ้มครองเครื่องยนต์ เพราะมันแสดงให้เห็นถึงส่วนใหญ่มาจาก
ข้อมูลที่มีโครงสร้างบนเว็บการเข้าถึงเนื้อหา Deep-เว็บ
ที่ได้รับความท้าทายที่ยาวนานสำหรับชุมชนในฐานข้อมูล.
กระดาษนี้จะอธิบายระบบสำหรับผิวลึกเว็บ
เนื้อหาคือการส่งก่อนการคำนวณสำหรับ แต่ละ HTML
รูปแบบและเพิ่มผลหน้าเว็บ HTML ลงในการค้นหา
ดัชนีเครื่องมือ ผลที่ได้จากพื้นผิวของเราได้รับการจัดตั้งขึ้น
ลงในเครื่องมือค้นหาของ Google และในวันนี้ขับรถมากขึ้น
กว่าพันคำสั่งต่อวินาทีไปยังเนื้อหา Deep-เว็บ.
ผิวเว็บลึกความท้าทายหลาย แรก
เป้าหมายของเราคือดัชนีเนื้อหาที่อยู่เบื้องหลังหลายล้าน
รูปแบบ HTML ที่มีระยะเวลานานหลายภาษาและหลายร้อย
โดเมน นี้มีความจำเป็นวิธีการที่เป็นสมบูรณ์
อัตโนมัติสามารถปรับได้สูงและมีประสิทธิภาพมาก ประการที่สอง
จำนวนมากของรูปแบบที่มีปัจจัยข้อความที่ถูกต้องและต้องมี
ค่าปัจจัยการผลิตที่จะส่ง เรานำเสนออัลกอริทึม
สำหรับการเลือกค่าที่ป้อนเข้าปัจจัยการผลิตสำหรับการค้นหาข้อความที่ยอมรับ
คำหลักและอัลกอริทึมสำหรับการระบุปัจจัยการผลิตแห่งหนึ่งซึ่งยอมรับ
เฉพาะค่าของประเภทที่เฉพาะเจาะจง ประการที่สามรูปแบบ HTML
มักจะมีมากกว่าหนึ่งการป้อนข้อมูลและด้วยเหตุนี้เป็นกลยุทธ์ที่ไร้เดียงสา
ของแจงผลิตภัณฑ์ Cartesian ทั้งเป็นไปได้ทั้งหมด
ปัจจัยการผลิตจะส่งผลให้จำนวนมากของ URL ที่ถูกสร้างขึ้น.
เรานำเสนอขั้นตอนวิธีการที่มีประสิทธิภาพนำทาง
พื้นที่การค้นหาของการป้อนข้อมูลที่เป็นไปได้ รวมกันในการระบุ
เพียง แต่ผู้ที่สร้าง URL ที่เหมาะสมสำหรับการรวมเป็น
ดัชนีการค้นหาเว็บของเรา เรานำเสนอการทดลองที่กว้างขวาง
การประเมินผลการตรวจสอบประสิทธิภาพของอัลกอริทึมของเรา

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.