On statistics, computation and scal

On statistics, computation and scalability
MICHAEL I. JORDAN
Department of Statistics and Department of EECS, University of California, Berkeley, CA,
USA. E-mail: jordan@stat.berkeley.edu; url: www.cs.berkeley.edu/˜jordan
How should statistical procedures be designed so as to be scalable computationally to the massive
datasets that are increasingly the norm? When coupled with the requirement that an answer to
an inferential question be delivered within a certain time budget, this question has significant
repercussions for the field of statistics. With the goal of identifying “time-data tradeoffs,” we
investigate some of the statistical consequences of computational perspectives on scability, in
particular divide-and-conquer methodology and hierarchies of convex relaxations.
The fields of computer science and statistics have undergone mostly separate evolutions
during their respective histories. This is changing, due in part to the phenomenon of
“Big Data.” Indeed, science and technology are currently generating very large datasets
and the gatherers of these data have increasingly ambitious inferential goals, trends
which point towards a future in which statistics will be forced to deal with problems of
scale in order to remain relevant. Currently the field seems little prepared to meet this
challenge. To the key question “Can you guarantee a certain level of inferential accuracy
within a certain time budget even as the data grow in size?” the field is generally silent.
Many statistical procedures either have unknown runtimes or runtimes that render the
procedure unusable on large-scale data. Although the field of sequential analysis provides
tools to assess risk after a certain number of data points have arrived, this is different from
an algorithmic analysis that predicts a relationship between time and risk. Faced with
this situation, gatherers of large-scale data are often forced to turn to ad hoc procedures
that perhaps do provide algorithmic guarantees but which may provide no statistical
guarantees and which in fact may have poor or even disastrous statistical properties.
On the other hand, the field of computer science is also currently poorly equipped
to provide solutions to the inferential problems associated with Big Data. Database researchers
rarely view the data in a database as noisy measurements on an underlying
population about which inferential statements are desired. Theoretical computer scientists
are able to provide analyses of the resource requirements of algorithms (e.g., time
and space), and are often able to provide comparative analyses of different algorithms
for solving a given problem, but these problems rarely refer to inferential goals. In particular,
the notion that it may be possible to save on computation because of the growth of statistical power as problem instances grow in size is not (yet) a common perspective
in computer science.
In this paper we discuss some recent research initiatives that aim to draw computer
science and statistics closer together, with particular reference to “Big Data” problems.
There are two main underlying perspectives driving these initiatives, both of which
present interesting conceptual challenges for statistics. The first is that large computational
problems are often usefully addressed via some notion of “divide-and-conquer.”
That is, the large problem is divided into subproblems that are hopefully simpler than
the original problem, these subproblems are solved (sometimes again with a divide-andconquer
strategy) and the solutions are pieced together to solve the original problem. In
the statistical setting, one natural subdivision strategy involves breaking the data into
subsets. The estimator of interest is applied to the subsets and the results are combined.
The challenge in the statistical setting is that the analysis of subsets of data may present
different statistical properties than the overall dataset. For example, confidence intervals
based on subsets of data will generally be wider than confidence intervals based on the
original data; thus, care must be taken that the overall divide-and-conquer procedure
yields a correctly calibrated interval.
The second perspective involves a notion of “algorithmic weakening,” whereby we do
not consider a single algorithm for solving an inference problem, but instead consider a
hierarchy of algorithms that are ordered by computational complexity. As data accrue,
we want to back off to cheaper algorithms that run more quickly and deliver a result
that would be viewed as being of poorer quality from a classical algorithmic point of
view. We hope to do this in a way such that the increasing statistical strength of the
data compensate for the poor algorithmic quality, so that in fact the overall quality
of inference increases as data accrue, even if we impose a computational budget. The
challenge is to do this in a theoretically sound way.
The remainder of the paper is organized into three subsections, the first two concerned
with divide-and-conquer algorithms, and the third concerned with algorithmic weakening.

0/5000

จาก: -

เป็น: -

ผลลัพธ์ (ไทย) 1: [สำเนา]

คัดลอก!

สถิติ คำนวณ และขยับI. ไมเคิลจอร์แดนวิชาสถิติและภาควิชาของ EECS มหาวิทยาลัยแคลิฟอร์เนีย เบิร์กลีย์ CAสหรัฐอเมริกา อีเมล์: jordan@stat.berkeley.edu; url: www.cs.berkeley.edu/ ˜jordanวิธีควรกระบวนงานทางสถิติถูกออกแบบมาเพื่อปรับสเกล computationally จะตัวใหญ่ได้หรือไม่datasets ที่ขึ้นปกติหรือไม่ เมื่อควบคู่กับความต้องการที่คำตอบคำถามที่ชัดเจนพอจะจัดส่งภายในกำหนดเวลางบประมาณ คำถามนี้ได้อย่างมีนัยสำคัญร้ายในด้านสถิติ โดยมีเป้าหมายเพื่อระบุ "ยืนยันข้อมูลเวลา เราตรวจสอบบางส่วนของผลกระทบทางสถิติของคำนวณมุมใน scability ในวิธีการแบ่ง และพิชิตเฉพาะและลำดับชั้นของ relaxations นูนมีระดับส่วนใหญ่แยกวิวัฒนาการทั้งด้านวิทยาการคอมพิวเตอร์และสถิติในช่วงประวัติที่เกี่ยวข้องของพวกเขา นี้มีการเปลี่ยนแปลง ผลบางส่วนกับปรากฏการณ์ของ"ข้อมูลขนาดใหญ่" แน่นอน วิทยาศาสตร์และเทคโนโลยีปัจจุบันสร้าง datasets ขนาดใหญ่มากgatherers ข้อมูลเหล่านี้มีเป้าหมายเพียงน้อยนิดมากทะเยอทะยาน แนวโน้มซึ่งจุดต่อจะบังคับสถิติการจัดการกับปัญหาในอนาคตอัตราการคงอยู่เกี่ยวข้อง ขณะนี้ฟิลด์น่าน้อยเตรียมการนี้ความท้าทาย ถึงคีย์คำถาม "คุณรับประกันระดับความถูกต้องเพียงน้อยนิดในบางครั้งงบประมาณว่าเป็นข้อมูลเติบโตในขนาด "ฟิลด์เป็นสภาพโดยทั่วไปวิธีการทางสถิติหลายอย่างใดอย่างหนึ่งได้รู้จัก runtimes หรือ runtimes ที่แสดงการขั้นตอนที่ใช้กับข้อมูลขนาดใหญ่ ถึงแม้ว่าเขตการวิเคราะห์ลำดับเครื่องมือในการประเมินความเสี่ยงหลังจากจำนวนของจุดข้อมูลมาถึง จะแตกต่างจากวิเคราะห์ algorithmic ที่ทำนายความสัมพันธ์ระหว่างเวลาและความเสี่ยง ประสบกับสถานการณ์นี้ gatherers ข้อมูลขนาดใหญ่มักจะถูกบังคับให้เปิดกระบวนงานกิจที่บางทีให้ algorithmic ประกัน แต่อาจให้ทางสถิติไม่รับประกันคุณภาพและซึ่งในความเป็นจริงอาจจะดี หรือร้ายแม้คุณสมบัติทางสถิติในทางกลับกัน นอกจากนี้ในปัจจุบันไม่ดีได้พร้อมด้านวิทยาการคอมพิวเตอร์เพื่อให้การแก้ไขปัญหาเพียงน้อยนิดที่เกี่ยวข้องกับข้อมูลขนาดใหญ่ ฐานข้อมูลนักวิจัยไม่ค่อยดูข้อมูลในฐานข้อมูลเป็นวัดเสียงดังเป็นต้นประชากรที่ต้องงบเพียงน้อยนิด นักวิทยาศาสตร์ทฤษฎีคอมพิวเตอร์จะสามารถให้การวิเคราะห์ความต้องการทรัพยากรของอัลกอริทึม (เช่น เวลาและพื้นที่), และมักจะให้วิเคราะห์เปรียบเทียบของอัลกอริทึมต่าง ๆสำหรับการแก้ปัญหาที่กำหนด แต่ปัญหาเหล่านี้ไม่ค่อยถึงเป้าหมายเพียงน้อยนิด โดยเฉพาะแนวคิดที่อาจมีการบันทึกในการคำนวณเนื่องจากการเติบโตของพลังงานสถิติปัญหากรณีขยายขนาด (ยังไม่) มุมมองทั่วไปในวิทยาการคอมพิวเตอร์ในเอกสารนี้ เราหารือบางแผนงานวิจัยล่าสุดที่วาดคอมพิวเตอร์วิทยาศาสตร์และสถิติใกล้กัน มีเฉพาะอ้างอิง "ขนาดใหญ่ข้อมูล" ปัญหามีสองหลักพื้นฐานมุมมองขับรถริเริ่มเหล่านี้ ซึ่งทั้งสองนำเสนอความท้าทายแนวคิดสำหรับสถิติที่น่าสนใจ ครั้งแรกมีขนาดใหญ่ซึ่งคอมพิวเตอร์usefully มักจะระบุปัญหาผ่านความบางของ "แบ่ง และพิชิตงาน"คือ แบ่งปัญหาใหญ่เป็น subproblems ที่หวังว่าง่ายกว่าปัญหาเดิม subproblems เหล่านี้จะแก้ไขได้ (บางครั้งอีกครั้ง โดยแบ่ง-andconquerกลยุทธ์) และโซลูชั่นมี pieced ร่วมกันเพื่อแก้ไขปัญหาเดิม ในการตั้งค่าทางสถิติ กลยุทธ์ธรรมชาติอำเภอหนึ่งเกี่ยวข้องกับการแบ่งข้อมูลเป็นย่อย ประมาณการที่น่าสนใจกับการย่อย และผลรวมความท้าทายในการตั้งค่าทางสถิติคือ วิเคราะห์ชุดย่อยของข้อมูลอาจแสดงคุณสมบัติทางสถิติแตกต่างกว่าชุดข้อมูลโดยรวม ตัวอย่าง ช่วงความเชื่อมั่นตามชุดย่อยของข้อมูลโดยทั่วไปจะกว้างกว่าช่วงความเชื่อมั่นตามข้อมูลเดิม ดังนั้น ต้องดูแลที่ดำเนินกระบวนการโดยรวมแบ่ง และพิชิตทำให้ช่วงที่ calibrated อย่างถูกต้องมุมมองที่สองเกี่ยวข้องกับแนวคิดของ "algorithmic ลดลง โดยเราทำพิจารณาขั้นตอนวิธีเดียวสำหรับการแก้ปัญหาข้อความ แต่พิจารณาแทน การลำดับชั้นของอัลกอริทึมที่สั่ง โดยคำนวณซับซ้อน เป็นข้อมูลการรับรู้เราต้องไปปิดอัลกอริทึมถูกกว่าที่ทำงานได้เร็วขึ้น และส่งผลที่จะดูเป็นของคุณภาพย่อมจากจุด algorithmic คลาสสิกของดู เราหวังว่าจะทำในลักษณะดังกล่าวที่แรงสถิติเพิ่มขึ้นของการข้อมูลชดเชย algorithmic คุณภาพดี ดังนั้นความจริงในที่ดีของข้อเพิ่มเป็นข้อมูลการรับรู้ แม้ว่าเรากำหนดงบประมาณที่คำนวณ ที่ความท้าทายคือการ ทำในลักษณะเสียงตามหลักวิชาส่วนเหลือของกระดาษแบ่งส่วนย่อยสาม สองแรกที่เกี่ยวข้องมีแบ่ง และพิชิตอัลกอริทึม และอื่น ๆ ที่เกี่ยวข้องกับ algorithmic ลดลง

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 2:[สำเนา]

คัดลอก!

สถิติการคำนวณและ scalability
ไมเคิลจอร์แดน I.
ภาควิชาสถิติและกรม EECS มหาวิทยาลัยแคลิฟอร์เนียเบิร์กลีย์, แคลิฟอร์เนีย,
สหรัฐอเมริกา E-mail: jordan@stat.berkeley.edu; url: www.cs.berkeley.edu/~jordan
วิธีวิธีการทางสถิติที่ควรได้รับการออกแบบเพื่อที่จะขยายขีดความสามารถในการคำนวณขนาดใหญ่
ชุดข้อมูลที่มีมากขึ้นบรรทัดฐาน? เมื่อคู่กับความต้องการที่คำตอบของ
คำถามที่อนุมานถูกส่งภายในเวลางบประมาณบางคำถามนี้อย่างมีนัยสำคัญมี
ผลกระทบสำหรับเขตข้อมูลสถิติ โดยมีเป้าหมายในการระบุ "ความสมดุลเวลาข้อมูล" เรา
ตรวจสอบบางส่วนของผลกระทบทางสถิติของมุมมองในการคำนวณ scability ใน
โดยเฉพาะอย่างยิ่งการแบ่งและพิชิตวิธีการและลำดับชั้นของ relaxations นูน.
สาขาวิทยาการคอมพิวเตอร์และสถิติได้รับการแยกส่วนใหญ่ วิวัฒนาการ
ในช่วงประวัติศาสตร์ของตน นี้มีการเปลี่ยนแปลงเนื่องจากในส่วนที่ปรากฏการณ์ของ
"ข้อมูลขนาดใหญ่." แท้จริงวิทยาศาสตร์และเทคโนโลยีกำลังสร้างชุดข้อมูลขนาดใหญ่มาก
และเก็บข้อมูลเหล่านี้มีเป้าหมายเชิงอนุมานทะเยอทะยานมากขึ้นแนวโน้ม
ที่ชี้ไปในอนาคตซึ่งจะเป็นสถิติ บังคับให้จัดการกับปัญหาที่เกิดขึ้นของ
ระดับเพื่อที่จะยังคงอยู่ที่เกี่ยวข้อง ปัจจุบันสนามดูเหมือนว่าเตรียมที่เล็ก ๆ น้อย ๆ นี้เพื่อตอบสนองความ
ท้าทาย คำถามที่สำคัญ "คุณสามารถรับประกันในระดับหนึ่งของความถูกต้องสรุป
ภายในงบประมาณเวลาที่แน่นอนแม้ในขณะที่ข้อมูลที่เติบโตในขนาด "สนามเงียบทั่วไป.
วิธีการทางสถิติหลายคนอาจมี runtimes ที่ไม่รู้จักหรือ runtimes ที่ทำให้
ไม่สามารถใช้งานในขั้นตอนที่มีขนาดใหญ่ ข้อมูล -scale แม้ว่าด้านการวิเคราะห์ลำดับมี
เครื่องมือในการประเมินความเสี่ยงหลังจากที่จำนวนหนึ่งของจุดข้อมูลที่ได้มาถึงนี้จะแตกต่างจาก
การวิเคราะห์อัลกอริทึมที่คาดการณ์ความสัมพันธ์ระหว่างเวลาและความเสี่ยง ต้องเผชิญกับ
สถานการณ์เช่นนี้เก็บข้อมูลขนาดใหญ่มักจะถูกบังคับให้หันไปโฆษณาเฉพาะกิจขั้นตอน
ที่อาจจะไม่ให้การค้ำประกัน แต่อัลกอริทึมที่อาจมีสถิติที่ไม่มี
การค้ำประกันและในความเป็นจริงอาจจะมีคุณสมบัติทางสถิติที่ไม่ดีหรือแม้กระทั่งภัยพิบัติ.
ในทางกลับกัน ข้อมูลของวิทยาการคอมพิวเตอร์ยังเป็นอุปกรณ์ที่ไม่ดีในขณะนี้
เพื่อให้การแก้ปัญหาเชิงอนุมานที่เกี่ยวข้องกับข้อมูลขนาดใหญ่ ฐานข้อมูลนักวิจัย
ไม่ค่อยดูข้อมูลในฐานข้อมูลเป็นวัดที่มีเสียงดังบนพื้นฐาน
ของประชากรเกี่ยวกับการที่งบอนุมานเป็นที่ต้องการ นักวิทยาศาสตร์คอมพิวเตอร์ทฤษฎี
สามารถที่จะให้การวิเคราะห์ความต้องการทรัพยากรของขั้นตอนวิธี (เช่นเวลา
และพื้นที่) และมักจะสามารถที่จะให้การวิเคราะห์เปรียบเทียบขั้นตอนวิธีการที่แตกต่างกัน
สำหรับการแก้ปัญหาที่กำหนด แต่ปัญหาเหล่านี้ไม่ค่อยอ้างถึงเป้าหมายเชิงอนุมาน โดยเฉพาะอย่างยิ่ง
ความคิดที่ว่ามันอาจจะเป็นไปได้ที่จะบันทึกในการคำนวณเพราะการเจริญเติบโตของการใช้พลังงานทางสถิติเช่นกรณีปัญหาเติบโตในขนาดไม่ได้ (ยัง) มุมมองร่วมกัน
ในสาขาวิทยาศาสตร์คอมพิวเตอร์.
ในบทความนี้เราจะหารือบางความคิดริเริ่มการวิจัยล่าสุดที่มีจุดมุ่งหมาย การวาดคอมพิวเตอร์
วิทยาศาสตร์และสถิติใกล้ชิดกันมีการอ้างอิงโดยเฉพาะ "ข้อมูลขนาดใหญ่" ปัญหา.
มีสองมุมมองที่พื้นฐานหลักของการขับรถการริเริ่มเหล่านี้มีทั้งที่
นำเสนอความท้าทายแนวความคิดที่น่าสนใจสำหรับสถิติ แรกคือการคำนวณที่มีขนาดใหญ่
มักจะมีปัญหาที่เป็นประโยชน์ผ่านทางความคิดของบางคน "แบ่งและพิชิต."
นั่นคือปัญหาใหญ่แบ่งออกเป็นปัญหาย่อยที่มีความหวังว่าจะง่ายกว่า
ปัญหาเดิม subproblems เหล่านี้จะแก้ไขได้ (บางครั้งอีกครั้งกับ หาร andconquer
กลยุทธ์) และการแก้ปัญหาที่มีการปะติดปะต่อในการแก้ปัญหาเดิม ใน
การตั้งค่าทางสถิติซึ่งเป็นหนึ่งในกลยุทธ์การแบ่งธรรมชาติที่เกี่ยวข้องกับการทำลายข้อมูลใน
ส่วนย่อย ประมาณการที่สนใจจะนำไปใช้ย่อยและผลที่จะรวมกัน.
ความท้าทายในการตั้งค่าทางสถิติคือการวิเคราะห์ย่อยของข้อมูลที่อาจมี
คุณสมบัติที่แตกต่างกันทางสถิติกว่าชุดข้อมูลโดยรวม ยกตัวอย่างเช่นช่วงความเชื่อมั่น
อยู่บนพื้นฐานของข้อมูลย่อยโดยทั่วไปจะกว้างกว่าช่วงความเชื่อมั่นอยู่บนพื้นฐานของ
ข้อมูลเดิม; จึงต้องระมัดระวังเป็นพิเศษว่าขั้นตอนการแบ่งและพิชิตโดยรวม
มีผลเป็นช่วงเวลาการสอบเทียบอย่างถูกต้อง.
มุมมองที่สองเกี่ยวข้องกับความคิดของ "อัลกอริทึมลดลง" โดยที่เราไม่
ได้พิจารณาขั้นตอนวิธีการเดียวในการแก้ปัญหาการอนุมาน แต่แทนที่จะพิจารณา
ลำดับขั้นตอนวิธีการที่ได้รับคำสั่งจากคอมพิวเตอร์ที่ซับซ้อน เป็นข้อมูลเกิดขึ้น,
เราต้องการที่จะกลับออกไปขั้นตอนวิธีการที่ถูกกว่าที่ทำงานได้อย่างรวดเร็วและส่งผล
ที่จะถูกมองว่าเป็นความเป็นอยู่ของด้อยคุณภาพจากจุดขั้นตอนวิธีคลาสสิกของ
มุมมอง เราหวังที่จะทำเช่นนี้ในลักษณะดังกล่าวที่มีความแข็งแรงทางสถิติที่เพิ่มขึ้นของ
ข้อมูลชดเชยอัลกอริทึมที่มีคุณภาพไม่ดีเพื่อที่ว่าในความเป็นจริงที่มีคุณภาพโดยรวม
ของการเพิ่มขึ้นของการอนุมานเป็นข้อมูลเกิดขึ้นแม้ว่าเรากำหนดงบประมาณการคำนวณ
ความท้าทายคือการทำเช่นนี้ในทางทฤษฎีเสียง.
ที่เหลือของกระดาษจัดเป็นสามส่วนย่อยสองคนแรกที่เกี่ยวข้อง
กับการแบ่งและพิชิตอัลกอริทึมและคนที่สามที่เกี่ยวข้องกับการลดลงอัลกอริทึม

การแปล กรุณารอสักครู่..

ผลลัพธ์ (ไทย) 3:[สำเนา]

คัดลอก!

สถิติการคำนวณและไมเคิลจอร์แดน (
.
ภาควิชาสถิติและกรม eecs มหาวิทยาลัยแคลิฟอร์เนีย เบิร์กลีย์ , แคลิฟอร์เนีย , สหรัฐอเมริกา jordan@stat.berkeley.edu E-mail :
; URL : www.cs . Berkeley . edu / ˜จอร์แดน
อย่างไร วิธีการทางสถิติถูกออกแบบมาเพื่อให้สามารถปรับขนาดให้ใหญ่ computationally
ข้อมูลที่มากขึ้น ปกติ ?เมื่อบวกกับความต้องการที่คำตอบเป็นคำถามเชิง

ส่งภายในงบประมาณ เวลา ที่แน่นอน คำถามนี้มีผลกระทบอย่างมีนัยสำคัญ
สำหรับสาขาสถิติ มีเป้าหมายในการระบุ " เวลา tradeoffs ข้อมูล " เรา
ตรวจสอบบางส่วนของผลกระทบทางสถิติของการคำนวณในมุมมอง scability ใน
โดยเฉพาะแบ่งและพิชิตวิธีการลำดับชั้นของนูน เป็นการผสมผสานระหว่างศิลปะ .
สาขาวิทยาการคอมพิวเตอร์และสถิติได้รับส่วนใหญ่ของตนแยกวิวัฒนาการ
ในประวัติศาสตร์ นี้มีการเปลี่ยนแปลง เนื่องจากในส่วนของปรากฏการณ์ของ
" ใหญ่ข้อมูล จริง วิทยาศาสตร์ และ เทคโนโลยีในปัจจุบันมีการสร้างชุดข้อมูล
ขนาดใหญ่มากและ gatherers ข้อมูลเหล่านี้ได้ทะเยอทะยานมากขึ้นด้วยเป้าหมายแนวโน้ม
ซึ่งชี้ไปยังอนาคตที่สถิติจะถูกบังคับให้จัดการกับปัญหา
ขนาดเพื่อที่จะยังคงอยู่ที่เกี่ยวข้อง ขณะนี้สนามดูเหมือนเล็กน้อยเตรียมที่จะตอบสนองความท้าทายนี้

สำหรับคำถาม " คีย์คุณสามารถรับประกันได้ในระดับหนึ่งและความถูกต้อง
ภายในงบประมาณเวลาที่แน่นอนเช่นเดียวกับข้อมูลที่เติบโตในขนาด " สนามโดยทั่วไปเงียบ
วิธีการทางสถิติหลายใด ไม่รู้จัก runtimes หรือ runtimes ที่สร้างภาพ
ขั้นตอนใช้ไม่ได้ข้อมูลขนาดใหญ่ แม้ว่าด้านการวิเคราะห์ลำดับให้
เครื่องมือเพื่อประเมินความเสี่ยงหลังจากที่จำนวนหนึ่งของจุดข้อมูลที่ได้มานี้ จะแตกต่างจาก
เป็นขั้นตอนการวิเคราะห์เพื่อทำนายความสัมพันธ์ระหว่างเวลา และความเสี่ยง ประสบกับสถานการณ์นี้ gatherers
, ข้อมูลขนาดใหญ่มักจะถูกบังคับให้เปิดเฉพาะกิจ
บางทีทำให้กระบวนการขั้นตอนวิธีรับประกันแต่ซึ่งอาจให้ไม่รับประกันสถิติ
และที่ในความเป็นจริงอาจจะไม่ดี หรือแม้กระทั่งภัยพิบัติทางสถิติ .
บนมืออื่น ๆสาขาวิทยาศาสตร์คอมพิวเตอร์อยู่ยังไม่ดีพร้อม
ให้การแก้ไขปัญหาและเกี่ยวข้องกับข้อมูลใหญ่ ฐานข้อมูลวิจัย
ไม่ค่อยดูข้อมูลในฐานข้อมูล เช่น การวัดเสียงดังบนพื้นฐานซึ่งอ้างอิง
ประชากรข้อความที่ต้องการ นักวิทยาศาสตร์คอมพิวเตอร์ทฤษฎี
สามารถให้บริการการวิเคราะห์ความต้องการทรัพยากรของขั้นตอนวิธี ( เช่นเวลา
และอวกาศ ) และมักจะสามารถให้เปรียบเทียบการวิเคราะห์ขั้นตอนวิธีในการแก้ปัญหาแตกต่างกัน
กําหนดปัญหา แต่ปัญหาเหล่านี้มักจะอ้างถึงเป้าหมายเชิงอนุมาน โดย
ความคิดว่ามันอาจเป็นไปได้เพื่อช่วยในการคำนวณ เพราะการเจริญเติบโตของอำนาจทางสถิติ เช่น กรณีปัญหาเติบโตในขนาด ยังเป็นมุมมองทั่วไป

ในคอมพิวเตอร์ ในบทความนี้เราคุยเรื่องผลวิจัยล่าสุดว่า จุดมุ่งหมายในการวาดวิทยาศาสตร์คอมพิวเตอร์
และสถิติใกล้เคียงกันด้วยโดยเฉพาะการอ้างอิงถึง " ข้อมูล " ปัญหาใหญ่ .
มีอยู่สองหลักภายใต้มุมมองทำให้โครงการเหล่านี้ ซึ่งทั้งสอง
ปัจจุบันความท้าทายแนวคิดที่น่าสนใจสำหรับสถิติ แรกคือ ปัญหาคอมพิวเตอร์
ขนาดใหญ่มักจะมีประโยชน์อยู่บ้างทางความคิดของ " แบ่งแยกและพิชิต "
นั่นคือปัญหาใหญ่ แบ่งเป็น subproblems ที่หวังว่าง่ายกว่า
ปัญหาเดิมsubproblems เหล่านี้จะแก้ไขได้ ( บางครั้งอีกครั้งกับการแบ่ง andconquer
กลยุทธ์ ) และโซลูชั่นเป็น pieced ร่วมกันเพื่อแก้ปัญหาเดิม ในการตั้งค่าสถิติ
หนึ่งฝ่ายกลยุทธ์เกี่ยวข้องกับธรรมชาติแบ่งข้อมูลเป็นส่วนย่อย
. ประมาณการของดอกเบี้ยที่ใช้กับข้อมูลและผลลัพธ์
รวมความท้าทายในการตั้งค่าทางสถิติ คือ การวิเคราะห์จากข้อมูลอาจแตกต่างกันทางสถิติปัจจุบัน
กว่า ข้อมูลโดยรวม ตัวอย่าง ช่วงความเชื่อมั่น
ตามชุดย่อยของข้อมูลโดยทั่วไปจะกว้างกว่าความเชื่อมั่นตาม
ข้อมูลเดิม ดังนั้น ต้องระมัดระวังว่าแบ่งโดยรวมและพิชิตขั้นตอน
ผลผลิตอย่างถูกต้องโดยช่วง
มุมมองที่สองเกี่ยวข้องกับความคิดของ " ลงขั้นตอนวิธี " ซึ่งเราทำ
ไม่พิจารณาขั้นตอนวิธีเดียวแก้ปัญหาการอนุมาน แต่แทนที่จะพิจารณา
ลำดับชั้นของขั้นตอนวิธีที่ถูกสั่งโดยการคำนวณที่ซับซ้อน . เป็นข้อมูลเกิดขึ้น ,
เราอยากกลับไปถูกกว่าขั้นตอนวิธีที่วิ่งอย่างรวดเร็วและส่งมอบผล
จะดูเป็นภาพที่ยากจนจากจุดขั้นตอนวิธีคลาสสิกของ
มุมมอง เราหวังว่าการทำเช่นนี้ในทางสถิติเช่นที่เพิ่มความแข็งแรงของ
ข้อมูลชดเชยคุณภาพขั้นตอนวิธีไม่ดีดังนั้นในความเป็นจริงคุณภาพโดยรวมของการรับรู้รายได้เพิ่มขึ้น
เป็นข้อมูล ถ้าเรากำหนดงบประมาณในการคำนวณ
เป็นความท้าทายที่จะทำเช่นนี้ในทางทฤษฎี
เสียง .ส่วนที่เหลือของกระดาษแบ่งเป็นสามส่วนย่อย สองข้อแรกกังวล
กับแบ่งและพิชิตขั้นตอนวิธีและที่สามเกี่ยวข้องกับการปรับขั้นตอนวิธี

การแปล กรุณารอสักครู่..

ภาษาอื่น ๆ

การสนับสนุนเครื่องมือแปลภาษา: กรีก, กันนาดา, กาลิเชียน, คลิงออน, คอร์สิกา, คาซัค, คาตาลัน, คินยารวันดา, คีร์กิซ, คุชราต, จอร์เจีย, จีน, จีนดั้งเดิม, ชวา, ชิเชวา, ซามัว, ซีบัวโน, ซุนดา, ซูลู, ญี่ปุ่น, ดัตช์, ตรวจหาภาษา, ตุรกี, ทมิฬ, ทาจิก, ทาทาร์, นอร์เวย์, บอสเนีย, บัลแกเรีย, บาสก์, ปัญจาป, ฝรั่งเศส, พาชตู, ฟริเชียน, ฟินแลนด์, ฟิลิปปินส์, ภาษาอินโดนีเซี, มองโกเลีย, มัลทีส, มาซีโดเนีย, มาราฐี, มาลากาซี, มาลายาลัม, มาเลย์, ม้ง, ยิดดิช, ยูเครน, รัสเซีย, ละติน, ลักเซมเบิร์ก, ลัตเวีย, ลาว, ลิทัวเนีย, สวาฮิลี, สวีเดน, สิงหล, สินธี, สเปน, สโลวัก, สโลวีเนีย, อังกฤษ, อัมฮาริก, อาร์เซอร์ไบจัน, อาร์เมเนีย, อาหรับ, อิกโบ, อิตาลี, อุยกูร์, อุสเบกิสถาน, อูรดู, ฮังการี, ฮัวซา, ฮาวาย, ฮินดี, ฮีบรู, เกลิกสกอต, เกาหลี, เขมร, เคิร์ด, เช็ก, เซอร์เบียน, เซโซโท, เดนมาร์ก, เตลูกู, เติร์กเมน, เนปาล, เบงกอล, เบลารุส, เปอร์เซีย, เมารี, เมียนมา (พม่า), เยอรมัน, เวลส์, เวียดนาม, เอสเปอแรนโต, เอสโทเนีย, เฮติครีโอล, แอฟริกา, แอลเบเนีย, โคซา, โครเอเชีย, โชนา, โซมาลี, โปรตุเกส, โปแลนด์, โยรูบา, โรมาเนีย, โอเดีย (โอริยา), ไทย, ไอซ์แลนด์, ไอร์แลนด์, การแปลภาษา.