During a research project’s lifecycle, functions such as data analysis, curation, archiving and access may be carried out simultaneously. These functions involve diverse technologies and require computational power relative to the size and complexity of the data collection. For large, complex and evolving data collections like ICA’s, data management tasks such as extracting metadata or calculating checksums quickly become effort- and resource-intensive. Thus, repeating these tasks at the desired frequency and speed becomes challenging in a non-scalable desktop computing environment. The quest for bigger computing and storage resources leads to HPC platforms and solutions. However, using these platforms, which are mostly Linux- based, might be initially challenging for data curators without prior experience, as was the case with the curators at ICA. Through their collaboration with TACC, the ICA staff received HPC user environment training and consultancy in the development of a practical workflow for ongoing curation. They were first trained to install the required software, run scripts for data transfers, and run the scripts for metadata extraction on an HPC platform. During the workflow development phase, the curators were involved in testing when needed. The collaboration prepared them to work independently in an HPC environment, and the experiences gained in the process may be valuable for other projects with similar data management needs.
ในวงจรชีวิตของโครงการวิจัยของ ฟังก์ชัน เช่น การวิเคราะห์ข้อมูล การเข้าถึงอาจ curation , เก็บข้อมูลและนำออกมาพร้อมกัน ฟังก์ชันเหล่านี้เกี่ยวข้องกับเทคโนโลยีที่หลากหลาย และต้องใช้พลังการคำนวณเทียบกับขนาดและความซับซ้อนของการเก็บข้อมูล ขนาดใหญ่ที่ซับซ้อนและการพัฒนาข้อมูลคอลเลกชัน เช่น ICA , ข้อมูลการบริหารงาน เช่น การสกัดข้อมูลหรือคํานวณ checksums อย่างรวดเร็วกลายเป็นความพยายามและทรัพยากรที่เข้มข้น ดังนั้น ย้ำงานเหล่านี้ที่ความถี่ที่ต้องการ และความเร็วจะท้าทายในระบบคอมพิวเตอร์เดสก์ท็องค์กรสิ่งแวดล้อม ค้นหา คอมพิวเตอร์ขนาดใหญ่และทรัพยากรที่เก็บไปสู่แพลตฟอร์มอื่นๆ และโซลูชั่น อย่างไรก็ตาม การใช้แพลตฟอร์มเหล่านี้ ซึ่งส่วนใหญ่จะเป็น Linux - based , อาจจะเริ่มต้นที่ภัณฑารักษ์ข้อมูลโดยไม่ต้องมีประสบการณ์ , เป็นกรณีที่มีภัณฑารักษ์ใน Ica . โดยความร่วมมือของพวกเขากับ tacc เจ้าหน้าที่ไอซี HPC ผู้ใช้ได้รับสภาพแวดล้อมการฝึกอบรมและให้คำปรึกษาในการพัฒนาเวิร์กโฟลว์ปฏิบัติสำหรับ curation อย่างต่อเนื่อง พวกเขาถูกฝึกให้ติดตั้งซอฟต์แวร์ที่จำเป็น , รันสคริปต์สำหรับการถ่ายโอนข้อมูลและเรียกใช้สคริปต์การสกัดข้อมูลบน PPC แพลตฟอร์ม ในระหว่างขั้นตอนการพัฒนาเวิร์กโฟลว์ , ภัณฑารักษ์เกี่ยวข้องในการทดสอบเมื่อจำเป็น ความร่วมมือ พร้อมที่จะทำงานอย่างอิสระในสภาพแวดล้อม HPC และประสบการณ์ที่ได้รับในกระบวนการอาจจะมีคุณค่าสำหรับโครงการอื่น ๆ กับความต้องการของการจัดการข้อมูลที่คล้ายกัน
การแปล กรุณารอสักครู่..
