Data placementBefore diving into th

Data placement
Before diving into the mechanics ofdistributed processing, consider the problems
of handling huge amounts of data on a single computer. Distributed processing
and large-scale data processing have one major aspect in common, which is that
not all of the input data is available at once. In distributed processing, the data
might be scattered among many machines. In large-scale data processing, most of
the data is on the disk. In both cases, the key to efficient data processing is placing
the data correctly.
Let’s take a simple example. Suppose you have a text file that contains data
about credit card transactions. Each line of the file contains a credit card number
and an amount of money. How might you determine the number of unique credit
card numbers in the file?
If the file is not very big, you could read each line, parse the credit card number, and store the credit card number in a hash table. Once the entire file had been
read, the hash table would contain one entry for each unique credit card number.
Counting the number of entries in the hash table would give you the answer. Unfortunately, for a big file, the hash table would be too large to store in memory.
Now suppose you had the very same credit card data, but the transactions in
the file were ordered by credit card number. Counting the number of unique
credit card numbers in this case is very simple. Each line in the file is read and
the credit card number on the line is parsed. If the credit card number found is
different than the one on the line before it, a counter is incremented. When the
end of the file is reached, the counter contains a count of the unique credit card
numbers in the file. No hash table is necessary for this to work.
Now, back to distributed computation. Suppose you have more than one computer to use for this counting task. You can split the big file of transactions into
small batches of transactions. Each computer can count its fraction, and then the
results can be merged together to produce a final result.
Initially, we start with an unordered file of transactions. We split that file into
small batches of transactions and count the unique credit card numbers in each
batch. How do we combine the results? We could add the number of credit card
numbers found in each batch, but this is incorrect, since the same credit card number might appear in more than one batch, and therefore would be counted more
than once in the final total. Instead, we would need to keep a list of the unique
credit card numbers found in each batch, and then merge those lists together to
make a final result list. The size of this final list is the number of unique credit card
numbers in the whole set.
In contrast, suppose the transactions are split into batches with more care, so
that all transactions made with the same credit card end up in the same batch.
With this extra restriction, each batch can be counted individually, and then the
counts from each batch can be added to make a final result. No merge is necessary,
because there is no possibility of double-counting. Each credit card number will
appear in precisely one batch.
These examples might be a little bit tedious, but the point is that proper data
grouping can radically change the performance characteristics of a task. Using a
sorted input file made the counting task easy, reduced the amount of memory
needed to nearly zero, and made it possible to distribute the computation easily.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

การจัดวางข้อมูลก่อนที่จะดำลงไปในการประมวลผล ofdistributed กลศาสตร์ พิจารณาปัญหาการจัดการข้อมูลจำนวนมากบนคอมพิวเตอร์เครื่องเดียว การประมวลผลแบบกระจายและการประมวลผลข้อมูลขนาดใหญ่มีลักษณะสำคัญที่หนึ่งเหมือนกัน ซึ่งเป็นที่ไม่ทั้งหมดของข้อมูลอินพุตได้ในครั้งเดียว ในการกระจายข้อมูล การประมวลผลอาจจะกระจายอยู่ในหลายเครื่อง ในการประมวลผลข้อมูลขนาดใหญ่ ส่วนใหญ่ข้อมูลอยู่บนดิสก์ ในทั้งสองกรณี วางกุญแจสำคัญในการประมวลผลข้อมูลมีประสิทธิภาพข้อมูลอย่างถูกต้องลองมาตัวอย่างง่าย ๆ สมมติว่า คุณมีแฟ้มข้อความที่ประกอบด้วยข้อมูลเกี่ยวกับธุรกรรมบัตรเครดิต แต่ละบรรทัดของแฟ้มประกอบด้วยหมายเลขบัตรเครดิตและยอดเงิน วิธีการที่คุณอาจกำหนดจำนวนเฉพาะเครดิตหมายเลขบัตรในแฟ้มหรือไม่ถ้าไฟล์ไม่ใหญ่มาก คุณสามารถอ่านแต่ละบรรทัด แยกวิเคราะห์หมายเลขบัตรเครดิต และจัดเก็บหมายเลขบัตรเครดิตในตารางแฮช เมื่อแฟ้มทั้งหมดที่ได้รับอ่าน ตารางแฮจะประกอบด้วยหนึ่งรายการสำหรับแต่ละหมายเลขบัตรเครดิตการนับจำนวนรายการในตารางแฮจะให้คำตอบ อับ สำหรับไฟล์ขนาดใหญ่ ตารางแฮจะใหญ่เกินไปในหน่วยความจำตอนนี้ สมมติว่าคุณมี เครดิตเดียวกันการ์ดข้อมูล แต่ธุรกรรมในแฟ้มรับเรียงลำดับตามหมายเลขบัตรเครดิต การนับจำนวนเฉพาะหมายเลขบัตรเครดิตในกรณีนี้ง่ายมาก แต่ละบรรทัดในแฟ้มเป็นแบบอ่าน และหมายเลขบัตรเครดิตในบรรทัดถูกแยกวิเคราะห์ ถ้าหมายเลขบัตรเครดิตที่พบคือแตกต่างจากบรรทัดก่อนที่จะ เคาน์เตอร์เพิ่มขึ้น เมื่อการถึงจุดสิ้นสุดของแฟ้ม เคาน์เตอร์ประกอบด้วยจำนวนบัตรเครดิตที่ไม่ซ้ำกันตัวเลขในแฟ้ม ตารางแฮไม่เป็นจำเป็นสำหรับการทำงานตอนนี้ กลับไปคำนวณการกระจาย สมมติว่า คุณมีคอมพิวเตอร์มากกว่าหนึ่งเพื่อใช้สำหรับงานนี้นับ คุณสามารถแยกไฟล์ขนาดใหญ่ของธุรกรรมเป็นชุดเล็กของธุรกรรม คอมพิวเตอร์แต่ละเครื่องสามารถนับจำนวนของเศษส่วน และการผลลัพธ์สามารถผสานกันเพื่อสร้างผลลัพธ์ขั้นสุดท้ายเริ่มแรก เราเริ่มต้น ด้วยไฟล์เรียงลำดับของธุรกรรม เราแบ่งแฟ้มนั้นลงในชุดเล็กของธุรกรรมและจำนวนหมายเลขบัตรเครดิตที่ไม่ซ้ำกันในแต่ละชุดงาน เรารวมผลวิธีทำ เราสามารถเพิ่มจำนวนบัตรเครดิตหมายเลขที่พบในแต่ละชุด แต่นี้ไม่ถูกต้อง ตั้งแต่หมายเลขบัตรเครดิตเดียวกันอาจปรากฏในชุดที่หนึ่ง และดังนั้น จะถูกนับเพิ่มเติมกว่าครั้งในท้ายสุด แทน เราจะต้องเก็บรายการไม่ซ้ำกันหมายเลขบัตรเครดิตในแต่ละชุด แล้ว รวมรายการเหล่านั้นไปทำให้ผลสุดท้ายรายการ ขนาดของรายการสุดท้ายคือ หมายเลขของบัตรเครดิตตัวเลขในทั้งชุดตรงกันข้าม สมมติว่า ธุรกรรมถูกแบ่งเป็นชุดด้วยความระมัดระวังมากขึ้น ดังนั้นว่า ธุรกรรมทั้งหมดทำ ด้วยสิ้นสุดบัตรเครดิตเดียวกันขึ้นในชุดเดียวกันด้วยข้อจำกัดนี้พิเศษ แต่ละชุดสามารถนับเป็นรายบุคคล และการนับจากแต่ละชุดสามารถเพิ่มได้เพื่อให้ผลสุดท้าย เวียนไม่มีความจำเป็นเนื่องจากมีนับสอง จะแต่ละหมายเลขบัตรเครดิตปรากฏในชุดงานหนึ่งได้อย่างแม่นยำตัวอย่างเหล่านี้อาจจะน่าเบื่อเล็กน้อย แต่จุดเป็นข้อมูลที่เหมาะสมการจัดกลุ่มอย่างรุนแรงสามารถเปลี่ยนแปลงลักษณะการทำงานของงาน โดยใช้การเรียงลำดับแฟ้มการป้อนข้อมูลทำงานนับง่าย ลดจำนวนหน่วยความจำต้องเกือบศูนย์ และทำให้สามารถกระจายการคำนวณได้อย่างง่ายดาย

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ตำแหน่งข้อมูล
ก่อนการดำน้ำในกลศาสตร์ ofdistributed การประมวลผลการพิจารณาปัญหา
ของการจัดการข้อมูลจำนวนมากบนคอมพิวเตอร์เครื่องเดียว กระจายการประมวลผล
และการประมวลผลข้อมูลขนาดใหญ่ที่มีลักษณะสำคัญหนึ่งที่เหมือนกันซึ่งก็คือว่า
ไม่ทั้งหมดของการป้อนข้อมูลที่มีอยู่ในครั้งเดียว ในการประมวลผลแบบกระจายข้อมูลที่
อาจจะกระจัดกระจายหลายเครื่อง ในการประมวลผลข้อมูลขนาดใหญ่ที่สุดของ
ข้อมูลที่อยู่บนดิสก์ ในทั้งสองกรณีกุญแจสำคัญในการประมวลผลข้อมูลที่มีประสิทธิภาพคือการวาง
ข้อมูลได้อย่างถูกต้อง.
ลองมาเป็นตัวอย่างง่ายๆ สมมติว่าคุณมีแฟ้มข้อความที่มีข้อมูล
เกี่ยวกับการทำธุรกรรมบัตรเครดิต บรรทัดของไฟล์แต่ละคนมีหมายเลขบัตรเครดิต
และจำนวนเงิน วิธีที่คุณอาจกำหนดจำนวนของสินเชื่อที่ไม่ซ้ำกัน
หมายเลขบัตรในไฟล์หรือไม่
หากไฟล์ไม่ใหญ่มากที่คุณสามารถอ่านแต่ละบรรทัดแยกหมายเลขบัตรเครดิตและเก็บหมายเลขบัตรเครดิตในตารางแฮช เมื่อไฟล์ทั้งหมดได้รับการ
อ่านตารางแฮชจะมีหนึ่งรายการสำหรับหมายเลขบัตรเครดิตที่ไม่ซ้ำกันในแต่ละ.
นับจำนวนของรายการในตารางแฮชจะให้คำตอบ แต่น่าเสียดายสำหรับไฟล์ขนาดใหญ่ตารางแฮชจะมีขนาดใหญ่เกินกว่าที่จะเก็บไว้ในหน่วยความจำ.
ตอนนี้สมมติว่าคุณมีข้อมูลบัตรเครดิตที่เดียวกันมาก แต่การทำธุรกรรมใน
ไฟล์ได้รับคำสั่งจากหมายเลขบัตรเครดิต นับจำนวนของที่ไม่ซ้ำกัน
หมายเลขบัตรเครดิตในกรณีนี้เป็นเรื่องง่ายมาก บรรทัดในไฟล์แต่ละครั้งจะถูกอ่านและ
หมายเลขบัตรเครดิตในบรรทัดที่จะแยก หากหมายเลขบัตรเครดิตที่พบคือ
ที่แตกต่างกันมากกว่าหนึ่งบนเส้นก่อนที่จะที่เคาน์เตอร์จะเพิ่มขึ้น เมื่อ
สิ้นสุดของแฟ้มถึงเคาน์เตอร์มีจำนวนบัตรเครดิตที่ไม่ซ้ำกัน
ตัวเลขในไฟล์ ไม่มีตารางแฮชเป็นสิ่งที่จำเป็นสำหรับการทำงาน.
ตอนนี้กลับไปคำนวณการกระจาย สมมติว่าคุณมีมากกว่าหนึ่งเครื่องคอมพิวเตอร์ที่จะใช้สำหรับงานนี้นับ คุณสามารถแยกไฟล์ขนาดใหญ่ของการทำธุรกรรมลงใน
batches ขนาดเล็กของการทำธุรกรรม คอมพิวเตอร์แต่ละเครื่องสามารถนับส่วนของตนและแล้ว
ผลที่ได้สามารถรวมกันเพื่อผลิตผลสุดท้าย.
ตอนแรกเราเริ่มต้นด้วยแฟ้มเรียงลำดับของการทำธุรกรรม เราแยกไฟล์ที่เป็น
batches ขนาดเล็กของการทำธุรกรรมและนับหมายเลขบัตรเครดิตที่ไม่ซ้ำกันในแต่ละ
ชุด ทำอย่างไรเราจึงรวมผลหรือไม่ เราสามารถเพิ่มจำนวนบัตรเครดิตที่
ตัวเลขที่พบในแต่ละชุด แต่นี้ไม่ถูกต้องเนื่องจากหมายเลขบัตรเครดิตเดียวกันอาจปรากฏในมากกว่าหนึ่งชุดและดังนั้นจึงจะนับมากขึ้น
มากกว่าหนึ่งครั้งในรวมสุดท้าย แต่เราจะต้องเก็บรายชื่อของที่ไม่ซ้ำกัน
หมายเลขบัตรเครดิตที่พบในแต่ละชุดแล้วผสานรายการเหล่านั้นร่วมกันเพื่อ
ทำรายการผลสุดท้าย ขนาดของรายการสุดท้ายนี้คือจำนวนของบัตรเครดิตที่ไม่ซ้ำกัน
ตัวเลขในทั้งชุด.
ในทางตรงกันข้ามคิดว่าการทำธุรกรรมจะถูกแบ่งออกเป็นแบตช์ด้วยความระมัดระวังมากขึ้นเพื่อ
ว่าการทำธุรกรรมทั้งหมดที่ทำด้วยบัตรเครดิตเดิมสิ้นสุดในชุดเดียวกัน
ด้วยข้อ จำกัด พิเศษนี้แต่ละชุดสามารถนับเป็นรายบุคคลแล้ว
นับจากแต่ละชุดสามารถเพิ่มที่จะทำให้ผลสุดท้าย ไม่มีการผสานเป็นสิ่งที่จำเป็น
เพราะมีความเป็นไปได้ของการนับซ้ำไม่มี แต่ละหมายเลขบัตรเครดิตจะ
ปรากฏในชุดหนึ่งได้อย่างแม่นยำ.
ตัวอย่างเหล่านี้อาจจะมีนิด ๆ หน่อย ๆ น่าเบื่อ แต่ประเด็นก็คือว่าข้อมูลที่เหมาะสม
การจัดกลุ่มอย่างรุนแรงสามารถเปลี่ยนลักษณะการทำงานของงาน การใช้
แฟ้มใส่เรียงทำให้งานนับง่ายลดจำนวนหน่วยความจำ
ที่จำเป็นในการเกือบศูนย์และทำให้มันเป็นไปได้ที่จะกระจายการคำนวณได้อย่างง่ายดาย

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

การจัดวางข้อมูลก่อนที่จะดำน้ำในกลศาสตร์ ofdistributed การประมวลผล พิจารณาปัญหาของการจัดการขนาดใหญ่ปริมาณของข้อมูลในคอมพิวเตอร์เครื่องเดียว การประมวลผลแบบกระจายและประมวลผลข้อมูลขนาดใหญ่มีลักษณะสำคัญร่วมกัน ซึ่งก็คือไม่ทั้งหมดของข้อมูลที่ป้อนเข้าใช้ได้ทันที ในการประมวลผลข้อมูลแบบกระจายอาจจะมีการกระจายในหมู่หลายเครื่อง ในการประมวลผลข้อมูลขนาดใหญ่ที่สุดของข้อมูลบนดิสก์ ในทั้งสองกรณี , คีย์ข้อมูลประมวลผลที่มีประสิทธิภาพการวางข้อมูลที่ถูกต้องลองดูตัวอย่างง่ายๆ สมมติว่าคุณมีแฟ้มข้อความที่ประกอบด้วยข้อมูลธุรกรรมเกี่ยวกับบัตรเครดิต แต่ละบรรทัดของไฟล์มีหมายเลขบัตรเครดิตและปริมาณเงิน แล้วคุณอาจจะตรวจสอบจำนวนเครดิตกันเลขบัตรในแฟ้มถ้าไฟล์ไม่ใหญ่มาก คุณสามารถอ่านแต่ละบรรทัดแยกหมายเลขบัตรเครดิตและเก็บหมายเลขบัตรเครดิตในตารางแฮช . เมื่อไฟล์ทั้งหมดได้อ่านตารางแฮชจะประกอบด้วยหนึ่งรายการสำหรับแต่ละเฉพาะเลขบัตรเครดิตการนับจำนวนในรายการตารางแฮชจะให้คำตอบ ขออภัย สำหรับไฟล์ใหญ่ , ตารางแฮชจะใหญ่เกินไปที่จะเก็บไว้ในความทรงจำตอนนี้สมมติว่าคุณมีข้อมูลบัตรเครดิตกันมาก แต่การทำธุรกรรมในแฟ้มที่ถูกสั่งโดยหมายเลขบัตรเครดิต การนับจํานวนเฉพาะหมายเลขบัตรเครดิตในกรณีนี้ง่ายมาก ในไฟล์แต่ละบรรทัดจะอ่านและบัตรเครดิตหมายเลขบนบรรทัด แจง ถ้าหมายเลขบัตรเครดิตที่พบคือที่แตกต่างกันกว่าหนึ่งในบรรทัดก่อนที่จะเป็นเคาน์เตอร์มีสั่ง . เมื่อสิ้นสุดแฟ้มมาถึงเคาน์เตอร์ที่มีจำนวนของบัตรเครดิตที่เฉพาะตัวเลขในไฟล์ ตารางแฮชไม่จําเป็นสําหรับการทํางานนี้ตอนนี้กลับมากระจายการคำนวณได้ สมมติว่าคุณมีมากกว่าหนึ่งคอมพิวเตอร์เพื่อใช้สำหรับนับงาน คุณสามารถแยกไฟล์ขนาดใหญ่ของการทำธุรกรรมในชุดขนาดเล็กของการทำธุรกรรม คอมพิวเตอร์แต่ละเครื่องสามารถนับของเศษส่วน แล้วผลลัพธ์สามารถผสานด้วยกันผลิตผลขั้นสุดท้ายตอนแรกที่เราเริ่มต้นด้วยไฟล์เรียงลําดับของธุรกรรม แยกไฟล์ลงในเราขนาดเล็กชุดของธุรกรรมและนับตัวเลขบัตรเครดิตที่ไม่ซ้ำกันในแต่ละชุด อย่างไรเรารวมผล ? เราสามารถเพิ่มจำนวนบัตรเครดิตตัวเลขที่พบในแต่ละชุด แต่นี้ไม่ถูกต้อง เนื่องจากหมายเลขบัตรเดียวกันอาจปรากฏในรุ่นมากกว่าหนึ่งและดังนั้นจึงจะนับได้มากกว่ารวมมากกว่าหนึ่งครั้งในรอบสุดท้าย แทน , เราต้องการที่จะเก็บรายการของเอกลักษณ์หมายเลขบัตรเครดิตที่พบในแต่ละชุดแล้วรวมรายชื่อกันทํารายการผลสุดท้าย ขนาดของรายการนี้ สุดท้ายคือ หมายเลขของบัตรเครดิตที่เฉพาะตัวเลขในชุดทั้งหมดในทางตรงกันข้าม สมมติว่ารายการจะแบ่งออกเป็นชุด ด้วยความระมัดระวังมากขึ้น ดังนั้นว่า ธุรกรรมทั้งหมดกับบัตรเครดิตเดียวกัน อยู่ในชุดเดียวกันกับข้อ จำกัด พิเศษนี้ แต่ละชุด สามารถนับแยกแล้วนับจากแต่ละชุดสามารถเพิ่ม ทำให้ผลขั้นสุดท้าย ไม่รวมที่จําเป็นเพราะมีความเป็นไปได้สองนับ บัตรเครดิตแต่ละหมายเลขจะปรากฏแน่นอนหนึ่งชุดตัวอย่างเหล่านี้อาจจะนิด ๆหน่อย ๆที่น่าเบื่อ แต่เป็นจุดที่เหมาะสมข้อมูลกลุ่มสามารถเปลี่ยนแปลงอย่างรุนแรงลักษณะการปฏิบัติงานของงาน โดยใช้เรียงเข้าแฟ้มให้นับง่าย ลดปริมาณของหน่วยความจำต้องการไปเกือบศูนย์ และทำให้มันเป็นไปได้ที่จะกระจายการคำนวณง่าย

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.