ResultsAlthough our implementation

Results
Although our implementation of Spark is still at an early stage, we relate the results of three experiments that show its promise as a cluster computing framework.
Logistic Regression: We compared the performance of the logistic regression job in Section 3.2 to an implementation of logistic regression for Hadoop, using a 29 GB dataset on 20 “m1.xlarge” EC2 nodes with 4 cores each. The results are shown in Figure 2. With Hadoop, each iteration takes 127s, because it runs as an independent MapReduce job. With Spark, the first iteration takes 174s (likely due to using Scala instead of Java), but subsequent

Figure 2: Logistic regression performance in Hadoop and Spark.
iterations take only 6s, each because they reuse cached data. This allows the job to run up to 10x faster.
We have also tried crashing a node while the job was running. In the 10-iteration case, this slows the job down by 50s (21%) on average. The data partitions on the lost node are recomputed and cached in parallel on other nodes, but the recovery time was rather high in the cur- rent experiment because we used a high HDFS block size (128 MB), so there were only 12 blocks per node and the recovery process could not utilize all cores in the cluster. Smaller block sizes would yield faster recovery times.
Alternating Least Squares: We have implemented the alternating least squares job in Section 3.3 to measure the benefit of broadcast variables for iterative jobs that copy a shared dataset to multiple nodes. We found that without using broadcast variables, the time to resend the ratings matrix R on each iteration dominated the job’s running time. Furthermore, with a na ̈ıve implementation of broad- cast (using HDFS or NFS), the broadcast time grew lin- early with the number of nodes, limiting the scalability of the job. We implemented an application-level multicast system to mitigate this. However, even with fast broad- cast, resending R on each iteration is costly. Caching R in memory on the workers using a broadcast variable im- proved performance by 2.8x in an experiment with 5000 movies and 15000 users on a 30-node EC2 cluster.
Interactive Spark: We used the Spark interpreter to load a 39 GB dump of Wikipedia in memory across 15 “m1.xlarge” EC2 machines and query it interactively. The first time the dataset is queried, it takes roughly 35 sec- onds, comparable to running a Hadoop job on it. How- ever, subsequent queries take only 0.5 to 1 seconds, even if they scan all the data. This provides a qualitatively dif- ferent experience, comparable to working with local data.

Figure 2: Logistic regression performance in Hadoop and Spark.
iterations take only 6s, each because they reuse cached data. This allows the job to run up to 10x faster.
We have also tried crashing a node while the job was running. In the 10-iteration case, this slows the job down by 50s (21%) on average. The data partitions on the lost node are recomputed and cached in parallel on other nodes, but the recovery time was rather high in the cur- rent experiment because we used a high HDFS block size (128 MB), so there were only 12 blocks per node and the recovery process could not utilize all cores in the cluster. Smaller block sizes would yield faster recovery times.
Alternating Least Squares: We have implemented the alternating least squares job in Section 3.3 to measure the benefit of broadcast variables for iterative jobs that copy a shared dataset to multiple nodes. We found that without using broadcast variables, the time to resend the ratings matrix R on each iteration dominated the job’s running time. Furthermore, with a na ̈ıve implementation of broad- cast (using HDFS or NFS), the broadcast time grew lin- early with the number of nodes, limiting the scalability of the job. We implemented an application-level multicast system to mitigate this. However, even with fast broad- cast, resending R on each iteration is costly. Caching R in memory on the workers using a broadcast variable im- proved performance by 2.8x in an experiment with 5000 movies and 15000 users on a 30-node EC2 cluster.
Interactive Spark: We used the Spark interpreter to load a 39 GB dump of Wikipedia in memory across 15 “m1.xlarge” EC2 machines and query it interactively. The first time the dataset is queried, it takes roughly 35 sec- onds, comparable to running a Hadoop job on it. How- ever, subsequent queries take only 0.5 to 1 seconds, even if they scan all the data. This provides a qualitatively dif- ferent experience, comparable to working with local data.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

ผลลัพธ์แม้ว่าจุดประกายนำของเราจะอยู่ในระยะแรก ๆ การ เราเกี่ยวข้องกับผลการทดลองที่สามที่แสดงสัญญาเป็นคลัสเตอร์คอมพิวเตอร์กรอบถดถอยโลจิสติก: เราเปรียบเทียบประสิทธิภาพของการถดถอยโลจิสติกงานในส่วน 3.2 ดำเนินการถดถอยโลจิสติกสำหรับอย่างไร Hadoop ใช้เป็นชุดข้อมูล 29 GB บนโหน EC2 "m1.xlarge" 20 มี 4 แกน ผลลัพธ์จะแสดงในรูปที่ 2 มีอย่างไร Hadoop เนื่องใช้ 127s เนื่องจากมันทำงานเป็นงาน MapReduce เป็นอิสระ มีประกาย เกิดซ้ำครั้งแรกใช้ 174s (อาจจะ เพราะใช้ประกอบแทน Java), แต่ต่อมารูปที่ 2: ประสิทธิภาพถดถอยโลจิสติกอย่างไร Hadoop และจุดประกายแผนใช้เฉพาะ 6s แต่ละเนื่องจากพวกเขาใช้แคข้อมูล นี้ช่วยให้งานที่จะทำงานได้เร็วขึ้น 10 xเราได้พยายาม crashing โหนขณะรันงาน ในกรณีเกิดซ้ำ 10 นี้ช้างานผสม (21%) เฉลี่ย พาร์ติชันข้อมูลบนโหนแพ้ recomputed และแคขนานบนโหนอื่น ๆ แต่เวลากู้ค่อนข้างสูงในปัจจุบันเช่าทดลองเนื่องจากเราใช้สูง HDFS บล็อกขนาด (128 MB), ดังนั้นเพียงมีบล็อก 12 ต่อโหนด และการกู้คืนอาจใช้แกนทั้งหมดในคลัสเตอร์ บล็อกเล็กขนาดจะผลผลิตเวลากู้คืนเร็วสลับกำลังสองน้อยสุด: เราได้ใช้งานอย่างน้อยสี่เหลี่ยมสลับใน 3.3 ส่วนเพื่อประโยชน์ของตัวแปรออกอากาศซ้ำงานที่คัดลอกการชุดข้อมูลที่ใช้ร่วมกันกับโหนหลายวัด เราพบว่า โดยไม่ต้องใช้ตัวแปรออกอากาศ เวลาที่จะส่งประเมินเมตริกซ์ R บนเนื่องครอบงำของงานเวลาทำงาน นอกจากนี้ กับปฏิบัติการ ̈ıve นาหล่อกว้างเวลาออกอากาศเพิ่มขึ้น (โดยใช้ HDFS หรือ NFS), หลิน-ต้น ด้วยหมายเลขของโหน จำกัดขนาดของงาน เราใช้ระบบแบบหลายผู้รับระดับโปรแกรมประยุกต์การลดนี้ อย่างไรก็ตาม แม้กว้างรวดเร็วหล่อ ส่ง R อีกครั้งบนเนื่องมีค่าใช้จ่าย แค R ในหน่วยความจำในคนงานที่ใช้ออกอากาศแปร im แบบพิสูจน์ประสิทธิภาพ โดย x 2.8 ในการทดลองกับภาพยนตร์ 5000 15000 ผู้ใช้บน EC2 30-โหนคลัสเตอร์หัวเทียนแบบโต้ตอบ: เราใช้ล่ามประกายโหลดการ 39 GB ถ่ายโอนข้อมูลของวิกิพีเดียในหน่วยความจำในเครื่อง "m1.xlarge" EC2 15 และแบบสอบถามสำหรับ ครั้งแรกสอบถามชุดข้อมูล ใช้เวลาประมาณ 35 วินาที - onds เทียบเท่ากับการใช้งานอย่างไร Hadoop มัน วิธี - เคย แบบสอบถามภายหลังใช้เพียง 0.5-1 วินาที แม้ว่าพวกเขาสแกนข้อมูลทั้งหมด ให้เป็น qualitatively dif ferent ประสบการณ์ เทียบเท่ากับการทำงานกับข้อมูลภายในเครื่อง

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

ผลการ
ดำเนินงานของเราถึงแม้ว่าของ Spark ยังอยู่ในช่วงเริ่มต้นเราเกี่ยวข้องกับผลของการทดลองสามที่แสดงสัญญาที่เป็นคลัสเตอร์กรอบคอมพิวเตอร์.
โลจิสติกการถดถอย: เราเมื่อเทียบกับประสิทธิภาพของงานที่ถดถอยโลจิสติในมาตรา 3.2 การดำเนินการโลจิสติก การถดถอยสำหรับ Hadoop โดยใช้ชุดข้อมูล 29 GB เมื่อวันที่ 20 "m1.xlarge" โหนด EC2 กับ 4 แกนแต่ละ ผลที่ได้แสดงในรูปที่ 2 กับ Hadoop, ซ้ำกันใช้เวลา 127S เพราะมันทำงานเป็นงาน MapReduce อิสระ ด้วยประกายซ้ำครั้งแรกใช้เวลา 174s (น่าจะเกิดจากการใช้สกาล่าแทน Java) แต่ต่อมารูปที่ 2:. ประสิทธิภาพการถดถอยโลจิสติกใน Hadoop และ Spark ซ้ำจะใช้เวลาเพียง 6s แต่ละเพราะพวกเขานำมาใช้ข้อมูลที่เก็บไว้ นี้จะช่วยให้งานในการทำงานถึง 10 เท่าได้เร็วขึ้น. เรายังพยายามบุกโหนดขณะที่งานกำลังวิ่ง ในกรณีที่ 10 ย้ำนี้ช้างานลง 50s (21%) โดยเฉลี่ย พาร์ทิชันข้อมูลบนโหนดหายไปจะ recomputed และที่เก็บไว้ในแบบคู่ขนานบนโหนอื่น ๆ แต่เวลาการกู้คืนที่ค่อนข้างสูงในการทดลองให้เช่าศรเพราะเราใช้ขนาดบล็อก HDFS สูง (128 MB) จึงมีเพียง 12 ต่อบล็อก โหนดและกระบวนการกู้คืนไม่สามารถใช้แกนทั้งหมดในคลัสเตอร์ มีขนาดเล็กลงบล็อกจะได้เวลาการกู้คืนได้เร็วขึ้น. สลับสี่เหลี่ยมน้อย: เราได้ดำเนินงานที่สลับสี่เหลี่ยมน้อยในมาตรา 3.3 การวัดประโยชน์ของตัวแปรออกอากาศสำหรับงานที่ซ้ำคัดลอกชุดข้อมูลที่ใช้ร่วมกันเพื่อโหนดหลาย เราพบว่าโดยไม่ต้องใช้ตัวแปรออกอากาศเวลาในการส่งการจัดอันดับเมทริกซ์ R ในแต่ละซ้ำเวลาการทำงานที่โดดเด่นของงาน นอกจากนี้ยังมี na Ive การดำเนินงานของที่ทำงานแบบกว้างหล่อ (ใช้ HDFS หรือ NFS) เวลาออกอากาศเพิ่มขึ้น lin- ต้นด้วยหมายเลขของโหนดที่ จำกัด การขยายขนาดของงาน เราดำเนินการระบบหลายผู้รับระดับโปรแกรมประยุกต์เพื่อบรรเทานี้ อย่างไรก็ตามแม้จะมีนักแสดงที่ทำงานแบบกว้างอย่างรวดเร็ว resending R ในแต่ละย้ำเป็นค่าใช้จ่าย แคช R ในความทรงจำเกี่ยวกับคนงานโดยใช้ตัวแปรออกอากาศญได้รับการพิสูจน์ประสิทธิภาพโดย 2.8 เท่าในการทดสอบกับ 5000 ภาพยนตร์และ 15000 ผู้ใช้ในคลัสเตอร์ EC2 30 โหนด. อินเตอร์แอคที Spark: เราใช้ล่ามจุดประกายในการโหลดการถ่ายโอนข้อมูล 39 กิกะไบต์ วิกิพีเดียในหน่วยความจำข้าม 15 "m1.xlarge" เครื่อง EC2 และแบบสอบถามมันโต้ตอบ ครั้งแรกชุดข้อมูลที่จะถูกสอบถามก็จะใช้เวลาประมาณ 35 วินาทีเมื่อเทียบกับการทำงานงาน Hadoop บนมัน อย่างไรก็ตามการที่เคยคำสั่งที่ตามมาจะใช้เวลาเพียง 0.5-1 วินาทีแม้ว่าพวกเขาจะสแกนข้อมูลทั้งหมด นี้จะให้ประสบการณ์ที่แตกต่างกันในเชิงคุณภาพเทียบเท่ากับการทำงานกับข้อมูลท้องถิ่น

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

ผลการดําเนินงานของเรา
ถึงแม้ว่าตัวยังอยู่ในช่วงเริ่มต้น เราเกี่ยวข้องกับผลการทดลองที่ 3 แสดงสัญญาเป็นคอมพิวเตอร์กลุ่มกรอบ
ถดถอยโลจิสติก : เราเปรียบเทียบประสิทธิภาพของงานถดถอยโลจิสติกในส่วน 3.2 มีการถดถอยโลจิสติกสำหรับ Hadoop ใช้วันที่ 29 GB บน 20 นิ้ว M1 xlarge " EC2 โหนดที่มี 4 แกนแต่ละผลลัพธ์ที่แสดงในรูปที่ 2 กับ Hadoop แต่ละซ้ำใช้ 127s เพราะวิ่งงาน mapreduce อิสระ กับประกาย ซ้ำก่อนจะ 174s ( น่าจะเกิดจากการใช้ Java Language แทน ) แต่ต่อมา

รูปที่ 2 : แสดงการถดถอยโลจิสติกใน Hadoop และจุดประกาย .
ซ้ำแค่ 6S แต่ละเนื่องจากพวกเขาใช้ข้อมูลแคช นี้จะช่วยให้งานมาหา
10x เร็วกว่าเรายังพยายามบุกโหนดในขณะที่งานกำลังวิ่ง ใน 10 ซ้ำ กรณีนี้ ช้า งาน ลง โดย 50 ( 21% ) โดยเฉลี่ย ข้อมูลสูญหายพาร์ทิชันบนโหนด recomputed แคชและขนานบนโหนดอื่น ๆแต่เวลากู้คืนค่อนข้างสูงใน cur ให้เช่าทดลองเพราะเราใช้ขนาดบล็อก hdfs สูง ( 128 MB )ดังนั้นมีเพียง 12 บล็อกต่อโหนดและกระบวนการกู้คืนไม่สามารถใช้ทั้งแกน ในกลุ่ม ขนาดของบล็อกขนาดเล็กเพิ่มเวลาการกู้คืนได้เร็วขึ้น .
สลับอย่างน้อย : เราได้ใช้สลับอย่างน้อยงานในส่วน 3.3 วัดประโยชน์ตัวแปรที่แพร่ภาพซ้ำงานที่คัดลอกข้อมูลไปยังโหนดที่ใช้ร่วมกันหลาย ๆเราพบว่ามีการใช้ตัวแปรออกอากาศ เวลาที่จะส่งคะแนนเมตริกซ์ R ในแต่ละ iteration ครอบงำของงานทำงานเวลา นอกจากนี้ ด้วยนา ̈ıเคยใช้กว้าง - หล่อ ( ใช้ hdfs หรือ NFS ) , เวลาออกอากาศเพิ่มขึ้นหลิน - ต้นกับโหนด การจํากัด ( งาน เราใช้ระบบการส่งข้อมูลเพื่อลดระดับนี้อย่างไรก็ตาม แม้ด้วยความรวดเร็วกว้าง - หล่อ , การส่ง R ในแต่ละ iteration เป็นบทเรียนราคาแพง แคชในหน่วยความจำที่คนงานใช้ตัวแปรออกอากาศ im - พิสูจน์ผลงานโดย 2.8x ในการทดลองกับ 5000 ภาพยนตร์ และ 15 , 000 ผู้ใช้บน EC2 30 โหนดคลัสเตอร์
จุดประกายโต้ตอบ : เราใช้ประกายล่ามโหลด 39 GB ถ่ายโอนข้อมูลจากวิกิพีเดียในความทรงจำผ่าน 15 " M1xlarge " EC2 เครื่องและสอบถามมันโต้ตอบ . ครั้งแรกข้อมูลเป็นสอบถาม ใช้เวลาประมาณ 30 วินาที - onds เปรียบได้กับใช้ Hadoop งานบน วิธีการค้นหาเคยต่อมาใช้เวลาเพียง 0.5 - 1 วินาที แม้ว่าพวกเขาจะสแกนข้อมูลทั้งหมด นี้มีคุณภาพ ferent DIF - ประสบการณ์ เปรียบได้กับการทำงานกับข้อมูลท้องถิ่น

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.