environment in parallel while subsequent measurements
are taken at the instrument and other instruments are
sending data.
Once the data file is stored within an HPC environment,
the next stage of the workflow includes conversion
to a data model suitable for HPC-based analysis,
generally using the Hierarchical Data Format version 5
(HDF5). With the data set now converted and resident
on a parallel file system, the next stage of the workflow,
analysis via scalable methods, can be executed. At this
juncture, an analysis algorithm is selected based on the
instrument, the measurement, the material composition,
and other user-specified criteria. Once selected, the analysis
is executed on an HPC system. The resultant data
and statistics are then made available to the user for inspection
and further analysis. Initial experimentation of
this concept has shown that analysis can be completed
in seconds, allowing near real-time feedback from the
measurement. Upon completion of the analysis, the data
is then organized for possible archival. Once data movement
and analysis is completed, interactive visual analysis
is made available for further inspection of the data.
Scalable analytics
It is important to note that the difficulties surrounding
scalable analytics in the context of the imaging methods
insofar discussed extend far beyond the need for taskbased
and data-based parallelism. In particular, one of
the primary challenges expected to impede further progress
is the application of statistical methods in extremely
high dimensions. Due to the structure of the
analysis problems in computational settings, the complexity
of the problem space manifests itself as a highdimensional
analysis problem, where dimensionality is
most often associated with the number of measurements
being considered simultaneously. The curse of dimensionality
is a persistent phenomenon in modern statistics due
to our ability to measure at rates and scales unheard of
until the modern era [94]. However, there are many strategies
to mitigate the statistical consequences of high
dimensionality.
While some of the methods noted earlier in this paper
are computationally scalable, in many cases, they are not
appropriate for other reasons. For example, although
PCA, ICA, k-means, and back propagation for neural
networks all fit the Statistical Query Model, and thus belong
to a known set of problems that can essentially
scale linearly, this does not necessarily solve the issues
raised by high-dimensional analysis [95]. For example, it
is important to observe that in high-dimensional spaces,
nearest neighbors become nearly equidistant [96]. This
is particularly problematic for clustering algorithms but
also has significant consequences for other dimensionality
reduction techniques.
สิ่งแวดล้อมในแบบคู่ขนาน ขณะที่การวัดตามมาไปที่เครื่องมือและอุปกรณ์อื่น ๆส่งข้อมูลที่เมื่อไฟล์จะถูกเก็บไว้ภายในสภาพแวดล้อม HPC ,ขั้นตอนต่อไปของเวิร์กโฟลว์รวมถึงการแปลงเป็นรูปแบบข้อมูลที่เหมาะสมสำหรับ HPC การวิเคราะห์ตามโดยทั่วไปใช้รุ่นของรูปแบบข้อมูลแบบลำดับชั้น 5( hdf5 ) กับชุดข้อมูลแล้วแปลงและถิ่นที่อยู่บนระบบแฟ้มแบบขนานขั้นต่อไปของเวิร์กโฟลว์การวิเคราะห์ผ่านทางวิธีการที่ยืดหยุ่น สามารถดำเนินการ ในนี้ช่วงหัวเลี้ยวหัวต่อ การวิเคราะห์ขั้นตอนวิธีที่ใช้ในเครื่องมือ , วัด , องค์ประกอบของวัสดุและผู้ใช้อื่น ๆที่ระบุไว้ เมื่อเลือก , การวิเคราะห์เป็นดำเนินการบนอุปกรณ์ระบบ ข้อมูล ผลลัพธ์และสถิติจะทำใช้ได้กับผู้ใช้สำหรับการตรวจสอบและการวิเคราะห์เพิ่มเติม เริ่มต้นการทดลองของแนวคิดนี้ได้แสดงการวิเคราะห์สามารถเสร็จในวินาทีที่ให้ความคิดเห็นแบบเรียลไทม์จากใกล้การวัด เมื่อเสร็จสิ้นการวิเคราะห์ข้อมูลแล้วจัดที่สุด จดหมายเหตุ เมื่อเคลื่อนไหวข้อมูลและการวิเคราะห์การวิเคราะห์ภาพแบบสมบูรณ์มีให้สำหรับการตรวจสอบเพิ่มเติม ของข้อมูลระบบการวิเคราะห์มันเป็นสิ่งสำคัญที่จะทราบว่าปัญหาโดยรอบระบบวิเคราะห์ในบริบทของภาพ วิธีการลดได้ขยายไกลเกินกว่าความจำเป็น taskbasedและข้อมูลความตาม โดยเฉพาะหนึ่งของความท้าทายหลักคาดว่าจะขัดขวางความคืบหน้าเพิ่มเติมคือ การประยุกต์ใช้วิธีการทางสถิติมากขนาดสูง เนื่องจากโครงสร้างของการวิเคราะห์ปัญหาในการตั้งค่าการคำนวณ , ความซับซ้อนของปัญหาพื้นที่ปรากฏตัวเป็น highdimensionalการวิเคราะห์ปัญหาที่ dimensionality คือส่วนใหญ่มักจะเกี่ยวข้องกับจำนวนของการวัดการพิจารณาพร้อมกัน คำสาปของ dimensionalityเป็นปรากฏการณ์ที่ถาวรในสถิติใหม่เนื่องจากความสามารถของเราที่จะวัดอัตราและระดับ unheard ของจนกระทั่งยุคสมัย [ 94 ] อย่างไรก็ตาม มีกลยุทธ์มากมายเพื่อลดผลกระทบทางด้านสูงdimensionality .ในขณะที่บางส่วนของวิธีการที่กล่าวไว้ก่อนหน้านี้ในบทความนี้เป็น computationally ยืดหยุ่น ในหลายกรณี พวกเขาจะไม่ที่เหมาะสมสำหรับเหตุผลอื่น ๆ ตัวอย่างเช่น แม้ว่าPCA ICA , k-means และ back propagation ประสาทเครือข่ายทั้งหมดให้พอดีกับรูปแบบของแบบสอบถามสถิติ และดังนั้นจึงมารู้จักชุดของปัญหาที่สามารถเป็นหลักขนาดน้ำหนักนี้ไม่ต้องแก้ปัญหายกสูง - มิติการวิเคราะห์ [ 95 ] ตัวอย่างเช่นเป็นสิ่งสำคัญที่จะสังเกตว่าในสูง - มิติช่องว่างเพื่อนบ้านที่ใกล้ที่สุดกลายเป็นเกือบเท่ากัน [ 96 ] นี้โดยเฉพาะอย่างยิ่งปัญหาสำหรับการจัดกลุ่มขั้นตอนวิธีแต่นอกจากนี้ยังมีผลกระทบทางด้าน dimensionality อื่น ๆเทคนิคในการลด
การแปล กรุณารอสักครู่..
