On statistics, computation and scal

On statistics, computation and scalability
MICHAEL I. JORDAN
Department of Statistics and Department of EECS, University of California, Berkeley, CA,
USA. E-mail: jordan@stat.berkeley.edu; url: www.cs.berkeley.edu/˜jordan
How should statistical procedures be designed so as to be scalable computationally to the massive
datasets that are increasingly the norm? When coupled with the requirement that an answer to
an inferential question be delivered within a certain time budget, this question has significant
repercussions for the field of statistics. With the goal of identifying “time-data tradeoffs,” we
investigate some of the statistical consequences of computational perspectives on scability, in
particular divide-and-conquer methodology and hierarchies of convex relaxations.
The fields of computer science and statistics have undergone mostly separate evolutions
during their respective histories. This is changing, due in part to the phenomenon of
“Big Data.” Indeed, science and technology are currently generating very large datasets
and the gatherers of these data have increasingly ambitious inferential goals, trends
which point towards a future in which statistics will be forced to deal with problems of
scale in order to remain relevant. Currently the field seems little prepared to meet this
challenge. To the key question “Can you guarantee a certain level of inferential accuracy
within a certain time budget even as the data grow in size?” the field is generally silent.
Many statistical procedures either have unknown runtimes or runtimes that render the
procedure unusable on large-scale data. Although the field of sequential analysis provides
tools to assess risk after a certain number of data points have arrived, this is different from
an algorithmic analysis that predicts a relationship between time and risk. Faced with
this situation, gatherers of large-scale data are often forced to turn to ad hoc procedures
that perhaps do provide algorithmic guarantees but which may provide no statistical
guarantees and which in fact may have poor or even disastrous statistical properties.
On the other hand, the field of computer science is also currently poorly equipped
to provide solutions to the inferential problems associated with Big Data. Database researchers
rarely view the data in a database as noisy measurements on an underlying
population about which inferential statements are desired. Theoretical computer scientists
are able to provide analyses of the resource requirements of algorithms (e.g., time
and space), and are often able to provide comparative analyses of different algorithms
for solving a given problem, but these problems rarely refer to inferential goals. In particular,
the notion that it may be possible to save on computation because of the growth

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

สถิติ คำนวณ และขยับI. ไมเคิลจอร์แดนวิชาสถิติและภาควิชาของ EECS มหาวิทยาลัยแคลิฟอร์เนีย เบิร์กลีย์ CAสหรัฐอเมริกา อีเมล์: jordan@stat.berkeley.edu; url: www.cs.berkeley.edu/ ˜jordanวิธีควรกระบวนงานทางสถิติถูกออกแบบมาเพื่อปรับสเกล computationally จะตัวใหญ่ได้หรือไม่datasets ที่ขึ้นปกติหรือไม่ เมื่อควบคู่กับความต้องการที่คำตอบคำถามที่ชัดเจนพอจะจัดส่งภายในกำหนดเวลางบประมาณ คำถามนี้ได้อย่างมีนัยสำคัญร้ายในด้านสถิติ โดยมีเป้าหมายเพื่อระบุ "ยืนยันข้อมูลเวลา เราตรวจสอบบางส่วนของผลกระทบทางสถิติของคำนวณมุมใน scability ในวิธีการแบ่ง และพิชิตเฉพาะและลำดับชั้นของ relaxations นูนมีระดับส่วนใหญ่แยกวิวัฒนาการทั้งด้านวิทยาการคอมพิวเตอร์และสถิติในช่วงประวัติที่เกี่ยวข้องของพวกเขา นี้มีการเปลี่ยนแปลง ผลบางส่วนกับปรากฏการณ์ของ"ข้อมูลขนาดใหญ่" แน่นอน วิทยาศาสตร์และเทคโนโลยีปัจจุบันสร้าง datasets ขนาดใหญ่มากgatherers ข้อมูลเหล่านี้มีเป้าหมายเพียงน้อยนิดมากทะเยอทะยาน แนวโน้มซึ่งจุดต่อจะบังคับสถิติการจัดการกับปัญหาในอนาคตอัตราการคงอยู่เกี่ยวข้อง ขณะนี้ฟิลด์น่าน้อยเตรียมการนี้ความท้าทาย ถึงคีย์คำถาม "คุณรับประกันระดับความถูกต้องเพียงน้อยนิดในบางครั้งงบประมาณว่าเป็นข้อมูลเติบโตในขนาด "ฟิลด์เป็นสภาพโดยทั่วไปวิธีการทางสถิติหลายอย่างใดอย่างหนึ่งได้รู้จัก runtimes หรือ runtimes ที่แสดงการขั้นตอนที่ใช้กับข้อมูลขนาดใหญ่ ถึงแม้ว่าเขตการวิเคราะห์ลำดับเครื่องมือในการประเมินความเสี่ยงหลังจากจำนวนของจุดข้อมูลมาถึง จะแตกต่างจากวิเคราะห์ algorithmic ที่ทำนายความสัมพันธ์ระหว่างเวลาและความเสี่ยง ประสบกับสถานการณ์นี้ gatherers ข้อมูลขนาดใหญ่มักจะถูกบังคับให้เปิดกระบวนงานกิจที่บางทีให้ algorithmic ประกัน แต่อาจให้ทางสถิติไม่รับประกันคุณภาพและซึ่งในความเป็นจริงอาจจะดี หรือร้ายแม้คุณสมบัติทางสถิติในทางกลับกัน นอกจากนี้ในปัจจุบันไม่ดีได้พร้อมด้านวิทยาการคอมพิวเตอร์เพื่อให้การแก้ไขปัญหาเพียงน้อยนิดที่เกี่ยวข้องกับข้อมูลขนาดใหญ่ ฐานข้อมูลนักวิจัยไม่ค่อยดูข้อมูลในฐานข้อมูลเป็นวัดเสียงดังเป็นต้นประชากรที่ต้องงบเพียงน้อยนิด นักวิทยาศาสตร์ทฤษฎีคอมพิวเตอร์จะสามารถให้การวิเคราะห์ความต้องการทรัพยากรของอัลกอริทึม (เช่น เวลาและพื้นที่), และมักจะให้วิเคราะห์เปรียบเทียบของอัลกอริทึมต่าง ๆสำหรับการแก้ปัญหาที่กำหนด แต่ปัญหาเหล่านี้ไม่ค่อยถึงเป้าหมายเพียงน้อยนิด โดยเฉพาะความที่มันอาจไปบันทึกบนคำนวณเนื่องจากการเจริญเติบโต

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

สถิติการคำนวณและ scalability
ไมเคิลจอร์แดน I.
ภาควิชาสถิติและกรม EECS มหาวิทยาลัยแคลิฟอร์เนียเบิร์กลีย์, แคลิฟอร์เนีย,
สหรัฐอเมริกา E-mail: jordan@stat.berkeley.edu; url: www.cs.berkeley.edu/~jordan
วิธีวิธีการทางสถิติที่ควรได้รับการออกแบบเพื่อที่จะขยายขีดความสามารถในการคำนวณขนาดใหญ่
ชุดข้อมูลที่มีมากขึ้นบรรทัดฐาน? เมื่อคู่กับความต้องการที่คำตอบของ
คำถามที่อนุมานถูกส่งภายในเวลางบประมาณบางคำถามนี้อย่างมีนัยสำคัญมี
ผลกระทบสำหรับเขตข้อมูลสถิติ โดยมีเป้าหมายในการระบุ "ความสมดุลเวลาข้อมูล" เรา
ตรวจสอบบางส่วนของผลกระทบทางสถิติของมุมมองในการคำนวณ scability ใน
โดยเฉพาะอย่างยิ่งการแบ่งและพิชิตวิธีการและลำดับชั้นของ relaxations นูน.
สาขาวิทยาการคอมพิวเตอร์และสถิติได้รับการแยกส่วนใหญ่ วิวัฒนาการ
ในช่วงประวัติศาสตร์ของตน นี้มีการเปลี่ยนแปลงเนื่องจากในส่วนที่ปรากฏการณ์ของ
"ข้อมูลขนาดใหญ่." แท้จริงวิทยาศาสตร์และเทคโนโลยีกำลังสร้างชุดข้อมูลขนาดใหญ่มาก
และเก็บข้อมูลเหล่านี้มีเป้าหมายเชิงอนุมานทะเยอทะยานมากขึ้นแนวโน้ม
ที่ชี้ไปในอนาคตซึ่งจะเป็นสถิติ บังคับให้จัดการกับปัญหาที่เกิดขึ้นของ
ระดับเพื่อที่จะยังคงอยู่ที่เกี่ยวข้อง ปัจจุบันสนามดูเหมือนว่าเตรียมที่เล็ก ๆ น้อย ๆ นี้เพื่อตอบสนองความ
ท้าทาย คำถามที่สำคัญ "คุณสามารถรับประกันในระดับหนึ่งของความถูกต้องสรุป
ภายในงบประมาณเวลาที่แน่นอนแม้ในขณะที่ข้อมูลที่เติบโตในขนาด "สนามเงียบทั่วไป.
วิธีการทางสถิติหลายคนอาจมี runtimes ที่ไม่รู้จักหรือ runtimes ที่ทำให้
ไม่สามารถใช้งานในขั้นตอนที่มีขนาดใหญ่ ข้อมูล -scale แม้ว่าด้านการวิเคราะห์ลำดับมี
เครื่องมือในการประเมินความเสี่ยงหลังจากที่จำนวนหนึ่งของจุดข้อมูลที่ได้มาถึงนี้จะแตกต่างจาก
การวิเคราะห์อัลกอริทึมที่คาดการณ์ความสัมพันธ์ระหว่างเวลาและความเสี่ยง ต้องเผชิญกับ
สถานการณ์เช่นนี้เก็บข้อมูลขนาดใหญ่มักจะถูกบังคับให้หันไปโฆษณาเฉพาะกิจขั้นตอน
ที่อาจจะไม่ให้การค้ำประกัน แต่อัลกอริทึมที่อาจมีสถิติที่ไม่มี
การค้ำประกันและในความเป็นจริงอาจจะมีคุณสมบัติทางสถิติที่ไม่ดีหรือแม้กระทั่งภัยพิบัติ.
ในทางกลับกัน ข้อมูลของวิทยาการคอมพิวเตอร์ยังเป็นอุปกรณ์ที่ไม่ดีในขณะนี้
เพื่อให้การแก้ปัญหาเชิงอนุมานที่เกี่ยวข้องกับข้อมูลขนาดใหญ่ ฐานข้อมูลนักวิจัย
ไม่ค่อยดูข้อมูลในฐานข้อมูลเป็นวัดที่มีเสียงดังบนพื้นฐาน
ของประชากรเกี่ยวกับการที่งบอนุมานเป็นที่ต้องการ นักวิทยาศาสตร์คอมพิวเตอร์ทฤษฎี
สามารถที่จะให้การวิเคราะห์ความต้องการทรัพยากรของขั้นตอนวิธี (เช่นเวลา
และพื้นที่) และมักจะสามารถที่จะให้การวิเคราะห์เปรียบเทียบขั้นตอนวิธีการที่แตกต่างกัน
สำหรับการแก้ปัญหาที่กำหนด แต่ปัญหาเหล่านี้ไม่ค่อยอ้างถึงเป้าหมายเชิงอนุมาน โดยเฉพาะอย่างยิ่ง
ความคิดที่ว่ามันอาจจะเป็นไปได้ที่จะบันทึกในการคำนวณเพราะการเจริญเติบโต

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

สถิติการคำนวณและไมเคิลจอร์แดน (
.
ภาควิชาสถิติและกรม eecs มหาวิทยาลัยแคลิฟอร์เนีย เบิร์กลีย์ , แคลิฟอร์เนีย , สหรัฐอเมริกา jordan@stat.berkeley.edu E-mail :
; URL : www.cs . Berkeley . edu / ˜จอร์แดน
อย่างไร วิธีการทางสถิติถูกออกแบบมาเพื่อให้สามารถปรับขนาดให้ใหญ่ computationally
ข้อมูลที่มากขึ้น ปกติ ?เมื่อบวกกับความต้องการที่คำตอบเป็นคำถามเชิง

ส่งภายในงบประมาณ เวลา ที่แน่นอน คำถามนี้มีผลกระทบอย่างมีนัยสำคัญ
สำหรับสาขาสถิติ มีเป้าหมายในการระบุ " เวลา tradeoffs ข้อมูล " เรา
ตรวจสอบบางส่วนของผลกระทบทางสถิติของการคำนวณในมุมมอง scability ใน
โดยเฉพาะแบ่งและพิชิตวิธีการลำดับชั้นของนูน เป็นการผสมผสานระหว่างศิลปะ .
สาขาวิทยาการคอมพิวเตอร์และสถิติได้รับส่วนใหญ่ของตนแยกวิวัฒนาการ
ในประวัติศาสตร์ นี้มีการเปลี่ยนแปลง เนื่องจากในส่วนของปรากฏการณ์ของ
" ใหญ่ข้อมูล จริง วิทยาศาสตร์ และ เทคโนโลยีในปัจจุบันมีการสร้างชุดข้อมูล
ขนาดใหญ่มากและ gatherers ข้อมูลเหล่านี้ได้ทะเยอทะยานมากขึ้นด้วยเป้าหมายแนวโน้ม
ซึ่งชี้ไปยังอนาคตที่สถิติจะถูกบังคับให้จัดการกับปัญหา
ขนาดเพื่อที่จะยังคงอยู่ที่เกี่ยวข้อง ขณะนี้สนามดูเหมือนเล็กน้อยเตรียมที่จะตอบสนองความท้าทายนี้

สำหรับคำถาม " คีย์คุณสามารถรับประกันได้ในระดับหนึ่งและความถูกต้อง
ภายในงบประมาณเวลาที่แน่นอนเช่นเดียวกับข้อมูลที่เติบโตในขนาด " สนามโดยทั่วไปเงียบ
วิธีการทางสถิติหลายใด ไม่รู้จัก runtimes หรือ runtimes ที่สร้างภาพ
ขั้นตอนใช้ไม่ได้ข้อมูลขนาดใหญ่ แม้ว่าด้านการวิเคราะห์ลำดับให้
เครื่องมือเพื่อประเมินความเสี่ยงหลังจากที่จำนวนหนึ่งของจุดข้อมูลที่ได้มานี้ จะแตกต่างจาก
เป็นขั้นตอนการวิเคราะห์เพื่อทำนายความสัมพันธ์ระหว่างเวลา และความเสี่ยง ประสบกับสถานการณ์นี้ gatherers
, ข้อมูลขนาดใหญ่มักจะถูกบังคับให้เปิดเฉพาะกิจ
บางทีทำให้กระบวนการขั้นตอนวิธีรับประกันแต่ซึ่งอาจให้ไม่รับประกันสถิติ
และที่ในความเป็นจริงอาจจะไม่ดี หรือแม้กระทั่งภัยพิบัติทางสถิติ .
บนมืออื่น ๆสาขาวิทยาศาสตร์คอมพิวเตอร์อยู่ยังไม่ดีพร้อม
ให้การแก้ไขปัญหาและเกี่ยวข้องกับข้อมูลใหญ่ ฐานข้อมูลวิจัย
ไม่ค่อยดูข้อมูลในฐานข้อมูล เช่น การวัดเสียงดังบนพื้นฐานซึ่งอ้างอิง
ประชากรข้อความที่ต้องการ นักวิทยาศาสตร์คอมพิวเตอร์ทฤษฎี
สามารถให้บริการการวิเคราะห์ความต้องการทรัพยากรของขั้นตอนวิธี ( เช่นเวลา
และอวกาศ ) และมักจะสามารถให้เปรียบเทียบการวิเคราะห์ขั้นตอนวิธีในการแก้ปัญหาแตกต่างกัน
กําหนดปัญหา แต่ปัญหาเหล่านี้มักจะอ้างถึงเป้าหมายเชิงอนุมาน โดย
ความคิดว่ามันอาจเป็นไปได้เพื่อช่วยในการคำนวณ เพราะการเจริญเติบโต

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.