AbstractAnalyzing data sets of bill

Abstract
Analyzing data sets of billions of records has
now become a regular task in many companies
and institutions. In the statistical analysis
of those massive data sets, sampling generally
plays a very important role. In this
work, we describe a scalable simple random
sampling algorithm, named ScaSRS, which
uses probabilistic thresholds to decide on the
fly whether to accept, reject, or wait-list an
item independently of others. We prove, with
high probability, it succeeds and needs only
O(
√
k) storage, where k is the sample size.
ScaSRS extends naturally to a scalable stratified
sampling algorithm, which is favorable
for heterogeneous data sets. The proposed algorithms,
when implemented in MapReduce,
can effectively reduce the size of intermediate
output and greatly improve load balancing.
Empirical evaluation on large-scale data sets
clearly demonstrates their superiority

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

AbstractAnalyzing data sets of billions of records hasnow become a regular task in many companiesand institutions. In the statistical analysisof those massive data sets, sampling generallyplays a very important role. In thiswork, we describe a scalable simple randomsampling algorithm, named ScaSRS, whichuses probabilistic thresholds to decide on thefly whether to accept, reject, or wait-list anitem independently of others. We prove, withhigh probability, it succeeds and needs onlyO(√k) storage, where k is the sample size.ScaSRS extends naturally to a scalable stratifiedsampling algorithm, which is favorablefor heterogeneous data sets. The proposed algorithms,when implemented in MapReduce,can effectively reduce the size of intermediateoutput and greatly improve load balancing.Empirical evaluation on large-scale data setsclearly demonstrates their superiority

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

บทคัดย่อชุดข้อมูลการวิเคราะห์ของพันล้านของระเบียนได้ตอนนี้กลายเป็นงานประจำในหลายบริษัทและสถาบันการศึกษา ในการวิเคราะห์ทางสถิติของชุดข้อมูลขนาดใหญ่เหล่านั้นสุ่มตัวอย่างโดยทั่วไปมีบทบาทที่สำคัญมาก ในการนี้การทำงานของเราจะอธิบายสุ่มปรับขนาดได้ง่ายขั้นตอนวิธีการสุ่มตัวอย่างScaSRS ชื่อที่ใช้น่าจะเป็นเกณฑ์ในการตัดสินใจในทันทีว่าจะยอมรับปฏิเสธหรือรอรายการรายการอิสระของคนอื่นๆ เราพิสูจน์ได้ว่ามีความน่าจะเป็นสูงก็ประสบความสำเร็จและต้องการเพียงO (√ k) การจัดเก็บข้อมูลที่ k คือขนาดของกลุ่มตัวอย่าง. ScaSRS ขยายตามธรรมชาติที่สามารถปรับขนาดได้แบ่งชั้นขั้นตอนวิธีการสุ่มตัวอย่างซึ่งเป็นที่ดีสำหรับชุดข้อมูลต่างกัน ขั้นตอนวิธีการที่นำเสนอเมื่อนำมาใช้ใน MapReduce, ได้อย่างมีประสิทธิภาพสามารถลดขนาดของกลางส่งออกและช่วยปรับปรุงสมดุลภาระ. การประเมินผลเชิงประจักษ์ในชุดข้อมูลขนาดใหญ่ได้อย่างชัดเจนแสดงให้เห็นถึงความเหนือกว่าของพวกเขา

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

นามธรรม
การวิเคราะห์ชุดข้อมูลเป็นข้อมูลที่มีตอนนี้กลายเป็นงานปกติ

ในหลาย บริษัท และสถาบัน ในการวิเคราะห์ทางสถิติของข้อมูลชุดใหญ่

) โดยทั่วไป , เล่นบทบาทสำคัญมาก ในงานนี้

เราอธิบายยืดหยุ่นแบบง่ายตัวอย่างอัลกอริทึมชื่อ scasrs ซึ่งใช้เกณฑ์การตัดสิน

บินว่า จะยอมรับ ปฏิเสธหรือรอรายการ
รายการอิสระของผู้อื่น เราพิสูจน์ด้วย
ความน่าจะเป็นสูง มันสำเร็จและความต้องการเท่านั้น
o
√
K ) กระเป๋าที่ k คือขนาดตัวอย่าง .
scasrs ขยายเพื่อแบ่งขั้นตอนวิธีได้อย่างเป็นธรรมชาติ
) ซึ่งเป็นมงคล
สำหรับชุดข้อมูลที่แตกต่างกัน เสนอขั้นตอนวิธีที่ใช้ใน mapreduce

เมื่อ , ได้อย่างมีประสิทธิภาพสามารถลดขนาดกลาง
ผลผลิตและปรับปรุงความสมดุลโหลด

ชุดการประเมินเชิงประจักษ์ที่ชัดเจนแสดงให้เห็นถึงความเหนือกว่าของพวกเขาขนาดใหญ่ข้อมูล

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.