On statistics, computation and scalability MICHAEL I. JORDAN Department of Statistics and Department of EECS, University of California, Berkeley, CA, USA. E-mail: jordan@stat.berkeley.edu; url: www.cs.berkeley.edu/˜jordan Howshould statistical procedures be designed so as to be scalable computationally to the massive datasets that are increasingly the norm? When coupled with the requirement that an answer to an inferential question be delivered within a certain time budget, this question has significant repercussions for the field of statistics. With the goal of identifying “time-data tradeoffs,” we investigate some of the statistical consequences of computational perspectives on scability, in particular divide-and-conquer methodology and hierarchies of convex relaxations. The fields of computer science and statistics have undergone mostly separate evolutions during their respective histories. This is changing, due in part to the phenomenon of “Big Data.” Indeed, science and technology are currently generating very large datasets and the gatherers of these data have increasingly ambitious inferential goals, trends which point towards a future in which statistics will be forced to deal with problems of scale in order to remain relevant. Currently the field seems little prepared to meet this challenge. To the key question “Can you guarantee a certain level of inferential accuracy within a certain time budget even as the data grow in size?” the field is generally silent. Many statistical procedures either have unknown runtimes or runtimes that render the procedure unusable on large-scale data. Although the field of sequential analysis provides tools to assess risk after a certain number of data points have arrived, this is different from an algorithmic analysis that predicts a relationship between time and risk. Faced with this situation, gatherers of large-scale data are often forced to turn to ad hoc procedures that perhaps do provide algorithmic guarantees but which may provide no statistical guarantees and which in fact may have poor or even disastrous statistical properties. On the other hand, the field of computer science is also currently poorly equipped to provide solutions to the inferential problems associated with Big Data. Database researchers rarely view the data in a database as noisy measurements on an underlying population about which inferential statements are desired. Theoretical computer scientists are able to provide analyses of the resource requirements of algorithms (e.g., time and space), and are often able to provide comparative analyses of different algorithms for solving a given problem, but these problems rarely refer to inferential goals. In particular, the notion that it may be possible to save on computation because of the growth This is an electronic reprint of the original article published by the ISI/BS in Bernoulli, 2013, Vol. 19, No. 4, 1378–1390. This reprint differs from the original in pagination and typographic detail. 1350-7265 c2013 ISI/BS
สถิติการคำนวณและ scalability ไมเคิลจอร์แดน I. ภาควิชาสถิติและกรม EECS มหาวิทยาลัยแคลิฟอร์เนียเบิร์กลีย์, แคลิฟอร์เนีย, สหรัฐอเมริกา E-mail: jordan@stat.berkeley.edu; url: www.cs.berkeley.edu/~jordan Howshould วิธีการทางสถิติที่ได้รับการออกแบบเพื่อที่จะขยายขีดความสามารถให้กับคอมพิวเตอร์ชุดข้อมูลขนาดใหญ่ที่มีมากขึ้นบรรทัดฐาน? เมื่อคู่กับความต้องการที่คำตอบของคำถามที่อนุมานถูกส่งภายในเวลางบประมาณบางคำถามนี้มีผลกระทบอย่างมีนัยสำคัญสำหรับเขตข้อมูลสถิติ โดยมีเป้าหมายในการระบุ "ความสมดุลเวลาข้อมูล" เราจะตรวจสอบบางส่วนของผลกระทบทางสถิติของมุมมองในการคำนวณ scability โดยเฉพาะอย่างยิ่งการแบ่งและพิชิตวิธีการและลำดับชั้นของ relaxations นูน สาขาวิทยาการคอมพิวเตอร์และสถิติส่วนใหญ่ได้รับการวิวัฒนาการแยกจากกันในช่วงประวัติศาสตร์ของตน นี้มีการเปลี่ยนแปลงเนื่องจากในส่วนที่ปรากฏการณ์ของ "ข้อมูลขนาดใหญ่." แท้จริงวิทยาศาสตร์และเทคโนโลยีกำลังสร้างชุดข้อมูลขนาดใหญ่มากและเก็บข้อมูลเหล่านี้มีเป้าหมายเชิงอนุมานทะเยอทะยานมากขึ้นแนวโน้มที่ชี้ไปในอนาคตซึ่งจะเป็นสถิติ บังคับให้จัดการกับปัญหาที่เกิดขึ้นของระดับเพื่อที่จะยังคงอยู่ที่เกี่ยวข้อง ปัจจุบันสนามดูเหมือนว่าเตรียมที่เล็ก ๆ น้อย ๆ เพื่อตอบสนองความท้าทายนี้ คำถามที่สำคัญ "คุณสามารถรับประกันในระดับหนึ่งของความถูกต้องสรุปภายในงบประมาณเวลาที่แน่นอนแม้ในขณะที่ข้อมูลที่เติบโตในขนาด" สนามเงียบทั่วไป วิธีการทางสถิติหลายคนอาจมี runtimes ที่ไม่รู้จักหรือ runtimes ที่ทำให้ขั้นตอนการใช้ไม่ได้กับข้อมูลขนาดใหญ่ แม้ว่าด้านการวิเคราะห์ลำดับให้เครื่องมือในการประเมินความเสี่ยงหลังจากที่จำนวนหนึ่งของจุดข้อมูลที่ได้มาถึงนี้จะแตกต่างจากการวิเคราะห์อัลกอริทึมที่คาดการณ์ความสัมพันธ์ระหว่างเวลาและความเสี่ยง ต้องเผชิญกับสถานการณ์เช่นนี้เก็บข้อมูลขนาดใหญ่มักจะถูกบังคับให้หันไปโฆษณาเฉพาะกิจขั้นตอนที่อาจจะไม่ให้การค้ำประกันอัลกอริทึม แต่ที่อาจจะไม่ให้การค้ำประกันทางสถิติและซึ่งในความเป็นจริงอาจจะมีคุณสมบัติทางสถิติที่ไม่ดีหรือแม้กระทั่งภัยพิบัติ ในทางตรงกันข้าม, สาขาวิทยาศาสตร์คอมพิวเตอร์ยังเป็นอุปกรณ์ที่ไม่ดีในขณะนี้เพื่อให้การแก้ปัญหาเชิงอนุมานที่เกี่ยวข้องกับข้อมูลขนาดใหญ่ ฐานข้อมูลนักวิจัยไม่ค่อยดูข้อมูลในฐานข้อมูลเป็นวัดที่มีเสียงดังในประชากรพื้นฐานเกี่ยวกับการที่งบอนุมานเป็นที่ต้องการ นักวิทยาศาสตร์คอมพิวเตอร์ทฤษฎีสามารถที่จะให้การวิเคราะห์ความต้องการทรัพยากรของขั้นตอนวิธี (เช่นเวลาและพื้นที่) และมักจะสามารถที่จะให้การวิเคราะห์เปรียบเทียบขั้นตอนวิธีการที่แตกต่างกันสำหรับการแก้ปัญหาที่กำหนด แต่ปัญหาเหล่านี้ไม่ค่อยอ้างถึงเป้าหมายเชิงอนุมาน โดยเฉพาะอย่างยิ่งความคิดที่ว่ามันอาจจะเป็นไปได้ที่จะบันทึกในการคำนวณเพราะการเจริญเติบโตนี้เป็นพิมพ์อิเล็กทรอนิกส์ของบทความเดิมที่ตีพิมพ์โดยเอส / ปริญญาตรีสาขาใน Bernoulli, 2013, ฉบับที่ 19, ฉบับที่ 4, 1378-1390 พิมพ์นี้แตกต่างไปจากเดิมในการแบ่งหน้าและรายละเอียดการพิมพ์ 1350-7265 c2013 เอส / ปริญญาตรี
การแปล กรุณารอสักครู่..

สถิติการคำนวณและเซอร์ไมเคิลจอร์แดน . ภาควิชาสถิติ และกรม eecs , มหาวิทยาลัยแคลิฟอร์เนีย , CA , USA e-mail : jordan@stat.berkeley.edu ; URL : www.cs . Berkeley . edu / ˜ howshould จอร์แดนวิธีการทางสถิติถูกออกแบบมาเพื่อให้สามารถจัดการกับข้อมูลที่มีขนาดใหญ่ computationally มากขึ้นปกติ ?เมื่อบวกกับความต้องการที่คำตอบของคำถามที่ 2 จะจัดส่งภายในงบประมาณ เวลา ที่แน่นอน คำถามนี้ มีผลกระทบทางด้านสาขาสถิติ มีเป้าหมายในการระบุ " เวลา tradeoffs ข้อมูล " เราตรวจสอบบางส่วนของผลกระทบทางสถิติของมุมมองใน scability คอมพิวเตอร์ ,โดยเฉพาะแบ่งและพิชิตวิธีการลำดับชั้นของนูน เป็นการผสมผสานระหว่างศิลปะ . สาขาวิทยาศาสตร์คอมพิวเตอร์และสถิติได้รับส่วนใหญ่ของตนแยกวิวัฒนาการในประวัติศาสตร์ นี้มีการเปลี่ยนแปลง เนื่องจากในส่วนของปรากฏการณ์ของ " บิ๊ก ดาต้า " แน่นอนวิทยาศาสตร์และเทคโนโลยีในการสร้างข้อมูลที่มีขนาดใหญ่มาก และ gatherers ข้อมูลเหล่านี้ได้ทะเยอทะยานมากขึ้นด้วยเป้าหมาย ซึ่งชี้ถึงแนวโน้มในอนาคตซึ่งสถิติจะถูกบังคับให้จัดการกับปัญหา ) เพื่อที่จะยังคงอยู่ที่เกี่ยวข้อง ขณะนี้สนามดูเหมือนเล็กน้อยเตรียมที่จะตอบสนองความท้าทายนี้สำหรับคำถาม " คีย์คุณสามารถรับประกันระดับของความถูกต้องและภายในงบประมาณเวลาที่แน่นอนเช่นเดียวกับข้อมูลที่เติบโตในขนาด " สนามโดยทั่วไปเงียบ วิธีการทางสถิติหลาย ทั้งไม่รู้จัก runtimes หรือ runtimes ที่แสดงขั้นตอนการใช้งานข้อมูล ขนาดใหญ่แม้ว่าด้านการวิเคราะห์ระบบมีเครื่องมือในการประเมินความเสี่ยง หลังจากที่จำนวนหนึ่งของจุดข้อมูลที่ได้มานี้ จะแตกต่างจากที่คาดการณ์ ขั้นตอนวิธีการวิเคราะห์ความสัมพันธ์ระหว่างระยะเวลาและความเสี่ยง ประสบกับสถานการณ์นี้gatherers ข้อมูลขนาดใหญ่มักจะถูกบังคับให้เปิดเฉพาะกิจที่อาจทำให้กระบวนการขั้นตอนที่รับประกัน แต่อาจให้ไม่รับประกันและสถิติซึ่งในความเป็นจริงอาจจะไม่ดี หรือแม้กระทั่งภัยพิบัติทางสถิติ . บนมืออื่น ๆสาขาวิทยาศาสตร์คอมพิวเตอร์อยู่ยังไม่ดีพร้อม เพื่อให้การแก้ไขปัญหาและเกี่ยวข้องกับข้อมูลใหญ่ ฐานข้อมูลวิจัยไม่ค่อยดูข้อมูลในฐานข้อมูล เช่น การวัดเสียงดังบนพื้นฐานประชากร ซึ่งอ้างอิงข้อความที่ต้องการนักวิทยาศาสตร์คอมพิวเตอร์เชิงทฤษฎีสามารถให้การวิเคราะห์ความต้องการทรัพยากรของขั้นตอนวิธี ( เช่นเวลาและพื้นที่ ) และมักจะสามารถให้เปรียบเทียบการวิเคราะห์ขั้นตอนวิธีที่แตกต่างกันสำหรับการแก้ไขปัญหาให้ แต่ปัญหาเหล่านี้มักจะอ้างถึงเป้าหมายเชิงอนุมาน โดยเฉพาะอย่างยิ่งความคิดว่ามันอาจเป็นไปได้เพื่อช่วยในการคำนวณ เพราะการเจริญเติบโตนี้เป็นสำเนาอิเล็กทรอนิกส์ของต้นฉบับบทความที่ตีพิมพ์ ISI / BS ในแบร์นูลลี , 2013 , 19 , Vol . 4 , 146 – 1390 . พิมพ์นี้แตกต่างจากเดิมในการฉีดและรายละเอียดเกี่ยวกับการพิมพ์ . 1350-7265 c2013 ISI / BS
การแปล กรุณารอสักครู่..
