WebDB. WebDB is a persistent custom

WebDB. WebDB is a persistent custom database that tracks every known page and relevant link. It maintains a small set of facts about each, such as the last-crawled date. WebDB is meant to exist for a long time, across many months of operation.

Since WebDB knows when each link was last fetched, it can easily generate a set of fetchlists. These lists contain every URL we’re interested in downloading. WebDB splits the overall workload into several lists, one for each fetcher process. URLs are distributed almost randomly; all the links for a single domain are fetched by the same process, so it can obey politeness constraints.

The fetchers consume the fetchlists and start downloading from the Internet. The fetchers are “polite,” meaning they don’t overload a single site with requests, and they observe the Robots Exclusion Protocol. (This allows Web-site owners to mark parts of the site as off-limits to automated clients such as our fetcher.) Otherwise, the fetcher blindly marches down the fetchlist, writing down the resulting downloaded text.

Fetchers output WebDB updates and Web content. The updates tell WebDB about pages that have appeared or disappeared since the last fetch attempt. The Web content is used to generate the searchable index that users will actually query.

Note that the WebDB-fetch cycle is designed to repeat forever, maintaining an up-to-date image of the Web graph.

Indexing and Querying. Once we have the Web content, Nutch can get ready to process queries. The indexer uses the content to generate an inverted index of all terms and all pages. We divide the document set into a set of index segments, each of which is fed to a single searcher process.

We can thus distribute the current set of index segments over an arbitrary number of searcher processes, allowing us to scale easily with the query load. Further, we can copy an index segment to multiple machines and run a searcher over each one; that allows more good scaling behavior and reliability in case one or more of the searcher machines fail.

Each searcher also draws upon the Web content from earlier, so it can provide a cached copy of any Web page.

Finally, a pool of Web servers handle interactions with users and contact the searchers for results. Each Web server interacts with many different searchers to learn about the entire document set. In this way, the Web server is simultaneously acting as an HTTP server and a Nutch-search client.

Web servers contain very little state and can be easily reproduced to handle increased load. They need to be told only about the existing pool of searcher machines. The only state they do maintain is a list of which searcher processes are available at any time; if a given segment’s searcher fails, the Web server will query a different one instead.

Quality. Generating high-quality results, of course, is the most important barrier for Nutch to overcome. If it cannot find relevant pages as well as commercial engines do, Nutch isn’t much use. But how can it ever compete with large, paid engineering staffs?

Since WebDB knows when each link was last fetched, it can easily generate a set of fetchlists. These lists contain every URL we’re interested in downloading. WebDB splits the overall workload into several lists, one for each fetcher process. URLs are distributed almost randomly; all the links for a single domain are fetched by the same process, so it can obey politeness constraints.

The fetchers consume the fetchlists and start downloading from the Internet. The fetchers are “polite,” meaning they don’t overload a single site with requests, and they observe the Robots Exclusion Protocol. (This allows Web-site owners to mark parts of the site as off-limits to automated clients such as our fetcher.) Otherwise, the fetcher blindly marches down the fetchlist, writing down the resulting downloaded text.

Fetchers output WebDB updates and Web content. The updates tell WebDB about pages that have appeared or disappeared since the last fetch attempt. The Web content is used to generate the searchable index that users will actually query.

Note that the WebDB-fetch cycle is designed to repeat forever, maintaining an up-to-date image of the Web graph.

Indexing and Querying. Once we have the Web content, Nutch can get ready to process queries. The indexer uses the content to generate an inverted index of all terms and all pages. We divide the document set into a set of index segments, each of which is fed to a single searcher process.

We can thus distribute the current set of index segments over an arbitrary number of searcher processes, allowing us to scale easily with the query load. Further, we can copy an index segment to multiple machines and run a searcher over each one; that allows more good scaling behavior and reliability in case one or more of the searcher machines fail.

Each searcher also draws upon the Web content from earlier, so it can provide a cached copy of any Web page.

Finally, a pool of Web servers handle interactions with users and contact the searchers for results. Each Web server interacts with many different searchers to learn about the entire document set. In this way, the Web server is simultaneously acting as an HTTP server and a Nutch-search client.

Web servers contain very little state and can be easily reproduced to handle increased load. They need to be told only about the existing pool of searcher machines. The only state they do maintain is a list of which searcher processes are available at any time; if a given segment’s searcher fails, the Web server will query a different one instead.

Quality. Generating high-quality results, of course, is the most important barrier for Nutch to overcome. If it cannot find relevant pages as well as commercial engines do, Nutch isn’t much use. But how can it ever compete with large, paid engineering staffs?

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

WebDB WebDB เป็นฐานข้อมูลแบบกำหนดเองแบบที่ติดตามทุกหน้ารู้จักและลิงค์ที่เกี่ยวข้อง มันรักษาชุดเล็กของข้อเท็จจริงเกี่ยวกับแต่ละ เช่นวันตระเวนล่าสุด ตั้งใจอยู่เป็นเวลานาน ข้ามหลายเดือนของการดำเนินงาน WebDB

เนื่องจาก WebDB รู้เมื่อเชื่อมโยงแต่ละล่าสุดถูกนำ มันได้อย่างง่ายดายสามารถสร้างชุดของ fetchlists รายการเหล่านี้ประกอบด้วยทุก URL ที่เราสนใจในการดาวน์โหลด WebDB แบ่งปริมาณโดยรวมในหลายรายการ หนึ่งสำหรับแต่ละกระบวน fetcher มีการแจกจ่าย Url เกือบสุ่ม ลิงค์ทั้งหมดสำหรับโดเมนเดียวนำมาใช้กระบวนการเดียวกัน เพื่อให้สามารถฟังข้อจำกัด politeness.

fetchers ที่ใช้ fetchlists การ และเริ่มการดาวน์โหลดจากอินเทอร์เน็ต Fetchers ที่มี "สุภาพ"หมายความว่า พวกเขาไม่โอเวอร์โหลดไซต์เดียวที่ มีคำขอ และพวกเขาสังเกตหุ่นยนต์แยกโพรโทคอล (นี้ให้เจ้าของเว็บไซต์เพื่อทำเครื่องหมายส่วนต่าง ๆ ของเว็บไซต์เป็น off-limits ให้ลูกค้าอัตโนมัติเช่น fetcher ของเรา) มิฉะนั้น fetcher ที่อย่างคนตาบอด marches ลง fetchlist เขียนลงได้ดาวน์โหลดข้อความ

Fetchers ผล WebDB ปรุงและเนื้อหาบนเว็บ โปรแกรมปรับปรุงบอก WebDB เกี่ยวกับหน้าที่ปรากฏ หรือหายไปเนื่องจากความพยายามในการนำมาใช้ล่าสุด เนื้อหาของเว็บจะใช้ในการสร้างดัชนีค้นหาที่ผู้ใช้จะจริงสอบถาม

สังเกตว่า วงจร WebDB นำมาใช้ถูกออกแบบมาเพื่อทำซ้ำตลอด รักษาภาพล่าสุดของเว็บกราฟ

ทำดัชนี และสอบถาม เมื่อเรามีเนื้อหาเว็บ Nutch ได้พร้อมการประมวลผลแบบสอบถาม ตัวสร้างดัชนีที่ใช้เนื้อหาเพื่อสร้างดัชนีกลับทั้งหมดและทุกหน้า เราแบ่งเอกสารการตั้งค่าชุดของดัชนีเซ็กเมนต์ ซึ่งถูกป้อนสู่กระบวนการผู้ค้นหาเดียวได้

เราสามารถจึงกระจายชุดปัจจุบันส่วนดัชนีมากกว่าจำนวนกำหนดของกระบวนการผู้ค้นหา ทำให้เราสามารถปรับขนาดได้อย่างง่ายดายกับโหลดแบบสอบถามได้ เพิ่มเติม เราสามารถคัดลอกส่วนดัชนีมีหลายเครื่อง และทับผู้ที่ค้นหาแต่ละคน ที่ช่วยให้พฤติกรรมมาตราส่วนที่ดีและความน่าเชื่อถือมากขึ้นในกรณีที่ผู้ค้นหาอย่างน้อยหนึ่งเครื่องไม่

ผู้ค้นหาละยังมาจากเนื้อหาเว็บจากก่อนหน้านี้ ดังนั้นมันสามารถให้สำเนาที่แคชไว้ของหน้าเว็บใด ๆ

ในที่สุด กลุ่มของเว็บเซิร์ฟเวอร์จัดการโต้ตอบกับผู้ใช้ และติดต่อผู้ที่ผล แต่ละเว็บเซิร์ฟเวอร์ที่โต้ตอบกับผู้อื่นมากเพื่อเรียนรู้เกี่ยวกับชุดเอกสารทั้งหมด ด้วยวิธีนี้ เว็บเซิร์ฟเวอร์พร้อมทำหน้าที่เป็นเซิร์ฟเวอร์ HTTP และไคลเอนต์ค้นหา Nutch

เว็บเซิร์ฟเวอร์ประกอบด้วยรัฐน้อยมาก และได้ทำขึ้นสามารถจัดการการโหลดที่เพิ่มขึ้น พวกเขาต้องการจะบอกเกี่ยวกับสระว่ายน้ำที่มีอยู่ของเครื่องผู้ค้นหา รัฐเท่านั้นที่จะรักษาเป็นรายชื่อของผู้ค้นหาว่ากระบวนอยู่ตลอดเวลา ถ้าผู้ค้นหาเซ็กเมนต์ที่กำหนด เว็บเซิร์ฟเวอร์จะสอบถามอื่นแทน

คุณภาพ แน่นอน สร้างคุณภาพสูง เป็นอุปสรรคสำคัญสำหรับ Nutch เพื่อเอาชนะ ถ้าทำหน้าที่เกี่ยวข้องเช่นเดียวกับเครื่องยนต์เชิงพาณิชย์ Nutch ไม่ใช้มาก แต่ว่าสามารถก็เคยแข่งขันกับพนักงานวิศวกรรมขนาดใหญ่ ได้รับค่าจ้างหรือไม่

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

WebDB WebDB เป็นฐานข้อมูลที่กำหนดเองถาวรที่ติดตามหน้าเป็นที่รู้จักกันทุกคนและการเชื่อมโยงที่เกี่ยวข้อง มันจะเก็บชุดเล็ก ๆ ของข้อเท็จจริงเกี่ยวกับแต่ละเช่นวันสุดท้ายคลาน WebDB จะหมายถึงการมีชีวิตอยู่เป็นเวลานานหลายเดือนในการดำเนินงานตั้งแต่ WebDB รู้เมื่อการเชื่อมโยงแต่ละเป็นจริงที่ผ่านมาก็สามารถสร้างชุดของ fetchlists ได้อย่างง่ายดาย รายการเหล่านี้มี URL ที่เราสนใจในการดาวน์โหลดทุก WebDB แยกภาระงานโดยรวมในหลายรายการหนึ่งสำหรับแต่ละกระบวนการ fetcher URL ที่จะกระจายเกือบสุ่ม; การเชื่อมโยงทั้งหมดสำหรับโดเมนเดียวจะเรียกโดยกระบวนการเดียวกันเพื่อให้สามารถปฏิบัติตามข้อ จำกัด ของความสุภาพfetchers กิน fetchlists และเริ่มต้นการดาวน์โหลดจากอินเทอร์เน็ต fetchers เป็น "สุภาพ" หมายถึงพวกเขาไม่เกินเว็บไซต์เดียวที่มีการร้องขอและพวกเขาสังเกตโปรโตคอล Robots Exclusion (ซึ่งช่วยให้เจ้าของเว็บไซต์เพื่อทำเครื่องหมายบางส่วนของเว็บไซต์ที่ปิดวงเงินให้กับลูกค้าแบบอัตโนมัติเช่น fetcher ของเรา.) มิฉะนั้น fetcher สุ่มสี่สุ่มห้าเดินลง fetchlist เขียนลงผลข้อความดาวน์โหลดFetchers ปรับปรุง WebDB ออกและเนื้อหาของเว็บ . ปรับปรุง WebDB บอกเกี่ยวกับหน้าเว็บที่มีการปรากฏตัวหรือหายไปตั้งแต่ช่วงเรียกความพยายาม เนื้อหาของเว็บที่ใช้ในการสร้างดัชนีค้นหาที่ผู้ใช้จริงจะสอบถามทราบว่าวงจร WebDB-เรียกถูกออกแบบมาเพื่อทำซ้ำตลอดการรักษาถึงวันที่ภาพของกราฟเว็บการทำดัชนีและการสอบถาม เมื่อเรามีเนื้อหาของเว็บ, นัทช์จะได้รับพร้อมที่จะดำเนินการตามคำสั่ง ดัชนีที่ใช้เนื้อหาเพื่อสร้างดัชนี inverted ของข้อตกลงทั้งหมดและทุกหน้า เราแบ่งเอกสารที่กำหนดเป็นชุดของกลุ่มดัชนีแต่ละแห่งซึ่งเป็นอาหารที่จะดำเนินการค้นหาเพียงครั้งเดียวเราจึงสามารถกระจายชุดปัจจุบันของกลุ่มดัชนีกว่าจำนวนข้อของกระบวนการค้นหาทำให้เราสามารถวัดได้อย่างง่ายดายด้วยการโหลดแบบสอบถาม . นอกจากนี้เราสามารถคัดลอกส่วนดัชนีการหลายเครื่องและเรียกใช้ค้นหามากกว่ากันหนึ่งที่ช่วยให้การปรับพฤติกรรมที่ดีขึ้นและความน่าเชื่อถือในกรณีหนึ่งหรือมากกว่าของเครื่องค้นหาล้มเหลวแต่ละค้นหายังดึงเนื้อหาของเว็บจากก่อนหน้านี้เพื่อ ก็สามารถให้สำเนาแคชของหน้าเว็บใด ๆในที่สุดสระว่ายน้ำของเว็บเซิร์ฟเวอร์จัดการปฏิสัมพันธ์กับผู้ใช้และติดต่อผู้ค้นหาเพื่อให้ได้ผลลัพธ์ เว็บเซิร์ฟเวอร์แต่ละโต้ตอบกับผู้ค้นหาที่แตกต่างกันมากในการเรียนรู้เกี่ยวกับชุดเอกสารทั้งหมด ด้วยวิธีนี้เว็บเซิร์ฟเวอร์ที่พร้อมทำหน้าที่เป็นเซิร์ฟเวอร์และไคลเอนต์นัทช์การค้นหาเว็บเซิร์ฟเวอร์มีรัฐน้อยมากและสามารถทำซ้ำได้อย่างง่ายดายเพื่อจัดการกับภาระที่เพิ่มขึ้น พวกเขาต้องการที่จะบอกเพียงประมาณสระว่ายน้ำที่มีอยู่ของเครื่องค้นหา รัฐเดียวที่พวกเขาทำในการรักษาเป็นรายชื่อของกระบวนการที่มีผู้ค้นหาในเวลาใด ๆ หากผู้ค้นหาส่วนที่ระบุล้มเหลวเว็บเซิร์ฟเวอร์จะค้นหาที่แตกต่างกันอย่างใดอย่างหนึ่งแทนคุณภาพ สร้างผลที่มีคุณภาพสูงของหลักสูตรเป็นอุปสรรคที่สำคัญที่สุดสำหรับนัทช์ที่จะเอาชนะ หากไม่สามารถหาหน้าเว็บที่เกี่ยวข้องได้เป็นอย่างดีเป็นเครื่องมือเชิงพาณิชย์ทำนัทช์ไม่ได้ใช้มาก แต่วิธีการที่สามารถที่เคยแข่งขันกับขนาดใหญ่ที่จ่ายพนักงานวิศวกรรม?

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

webdb . webdb เป็นแบบถาวรที่กำหนดเองฐานข้อมูลทุกแทร็คที่รู้จักหน้าและลิงค์ที่เกี่ยวข้อง มันยังคงตั้งขนาดเล็กของข้อเท็จจริงเกี่ยวกับแต่ละคน เช่น ล่าสุดก็วันที่ webdb ตั้งใจที่จะอยู่เป็นเวลานาน ผ่านหลายเดือนการ

ตั้งแต่ webdb รู้ว่าแต่ละลิงค์สุดท้ายจับมันได้อย่างง่ายดายสามารถสร้างชุดของ fetchlists .รายการเหล่านี้มีทุก URL ที่เราสนใจในการดาวน์โหลด webdb แยกภาระงานโดยรวมเป็นหลายรายการหนึ่งสำหรับแต่ละกระบวนการดํา . URL จะกระจายเกือบสุ่ม ; การเชื่อมโยงทั้งหมดสำหรับโดเมนเดียว จะเรียกโดยกระบวนการเดียวกัน เพื่อให้สามารถปฏิบัติตามเงื่อนไข ) .

fetchers กิน fetchlists และเริ่มต้นการดาวน์โหลดจากอินเทอร์เน็ต การ fetchers " สุภาพ" หมายความว่า พวกเขาไม่เกินไซต์เดียวที่มีการร้องขอและพวกเขาสังเกตหุ่นยนต์ยกเว้นโปรโตคอล ( นี้จะช่วยให้เจ้าของเว็บไซต์เพื่อทำเครื่องหมายบางส่วนของเว็บไซต์ที่ไม่อนุญาตให้ลูกค้าอัตโนมัติ เช่น เฟทเชอร์ ของเรา ) มิฉะนั้น เฟทเชอร์สุ่มสี่สุ่มห้าเดินลง fetchlist เขียนลงผลดาวน์โหลดข้อความ

fetchers ผลผลิต webdb การปรับปรุงเว็บและเนื้อหาการปรับปรุงบอก webdb เกี่ยวกับหน้าเว็บที่ปรากฏหรือหายไปตั้งแต่ช่วงดึงความพยายาม เนื้อหาเว็บที่ใช้ในการสร้างดัชนีการค้นหาที่ผู้ใช้จะค้นหา

สังเกตว่า webdb ดึงวงจรถูกออกแบบมาเพื่อย้ำตลอดไป รักษาภาพลักษณ์ที่ทันสมัยของเว็บกราฟ

ดัชนีและสอบถาม . เมื่อเรามีเว็บเนื้อหา nutch สามารถเตรียมกระบวนการสอบถาม .ที่ใช้เพื่อสร้างดัชนีเนื้อหากลับดัชนีเงื่อนไขทั้งหมดและหน้าเว็บทั้งหมด เราแบ่งเอกสารชุดเป็นชุดของส่วนดัชนีแต่ละที่ได้รับกระบวนการค้นหาเดียว

เราจึงแจกจ่ายชุดปัจจุบันของกลุ่มดัชนีผ่านหมายเลขโดยพลการของกระบวนการค้นหา อนุญาตให้เราปรับขนาดได้อย่างง่ายดายด้วยการโหลด เพิ่มเติมเราสามารถคัดลอกส่วนดัชนีไปหลายเครื่องและเรียกใช้การค้นหาผ่านแต่ละคน ที่ช่วยให้ปรับพฤติกรรมที่ดีและความน่าเชื่อถือในกรณีหนึ่งหรือมากกว่าของค้นหาเครื่องล้มเหลว

แต่ละค้นหายังวาดบนเว็บเนื้อหาจากก่อนหน้านี้ ดังนั้นจึงสามารถให้สำเนาแคชของหน้าเว็บใด ๆ .

ในที่สุด ,สระว่ายน้ำของเว็บเซิร์ฟเวอร์จัดการการโต้ตอบกับผู้ใช้และติดต่อค้นหาสำหรับผลลัพธ์ แต่ละเว็บเซิร์ฟเวอร์มีการโต้ตอบกับผู้ค้นหาที่แตกต่างกันมากที่จะเรียนรู้เกี่ยวกับชุดเอกสารทั้งหมด ด้วยวิธีนี้เซิร์ฟเวอร์เว็บพร้อมกันทำหน้าที่เป็นเซิร์ฟเวอร์ HTTP และ nutch ค้นหาไคลเอนต์ เซิร์ฟเวอร์เว็บ

มีรัฐที่น้อยมาก และสามารถทำซ้ำเพื่อจัดการกับการโหลดเพิ่มขึ้น .พวกเขาจะต้องมีการบอกเกี่ยวกับสระว่ายน้ำที่มีอยู่ของเครื่องค้นหา . รัฐเดียวที่พวกเขาจะรักษา คือ รายการ ซึ่งกระบวนการค้นหาจะสามารถใช้ได้ในเวลาใด ๆถ้าค้นหาที่ได้รับส่วนของล้มเหลว เว็บเซิร์ฟเวอร์จะสอบถามตัวอื่นแทน

คุณภาพ การสร้างผลลัพธ์ที่มีคุณภาพสูงแน่นอน คืออุปสรรคที่สำคัญที่สุดสำหรับ nutch ที่จะเอาชนะหากไม่สามารถหาเพจที่เกี่ยวข้องรวมทั้งเครื่องยนต์พาณิชย์ทำ nutch ไม่มากใช้ แต่ทำไมมันเคยแข่งขันกับขนาดใหญ่จ่ายพนักงานวิศวกรรม ?

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.