Software metrics continue to be of interest for researchers and practitioners. Metrics such as volume [3], McCabe Complexity [26], the C&K metric suite [12] and a wide range of architecture metrics (see Koziolek [23] for an overview) are well-known and used in practice. Moreover, new software metrics continue to be defined by the research community.
The evaluation of a new metric typically consists of correlating the (change in) value of the metric with other quality indicators such as likelihood of change [25] or its ability to predict the presence of bugs [28]. In other cases, the evaluation consists of an analysis of the values of a metric for a set of open-source systems, either on one single snapshot or over a period of time [30], [29]. More theoretical approaches of metric evaluation inspect mathematical properties of metrics (see, for example, Briand et al. [11], [10] and Fenton et al. [15]) or focus on metrological properties of metrics (see, for example, Abran [1]).
The focus of these types of evaluation is to determine whether the designed metric is related to the quality property it has been designed to quantify, a property known as “construct validity” [21]. Although this is an important part of the evaluation of a metric, these types of evaluations cannot be used to determine whether a metric is useful. For a metric to be considered useful its value should correspond to the intuition of an measurer [15] and should be actively used in a decision-making process [16].
In this paper we evaluate the usefulness of two architecture level metrics, Component Balance [7] and Dependency Profiles [8], which are designed to quantify the analyzability and encapsulation within a software system. Evidence of the construct validity of these metrics has been previously gathered in small-scale experiments [7], [8]. The large-scale study presented here aims to gain an understanding of the usefulness of these two metrics in practice.
The context of this research is the Software Improvement Group (SIG), a consultancy firm specialized in providing strategic advice to IT management based on technical findings. As a first step both metrics are embedded in the measurement model used to monitor and assess the technical quality of a large set (500+) of systems developed by (or for) clients of SIG. The metrics are interpreted by consultants working at SIG, who fulfill the role of external quality assessors.
Data about the usefulness of the metrics is collected using two different methods. First, data about the challenges involved in actually applying the metrics is collected by observing the quality assessors and documented in the form of memos. Secondly, semi-structured interviews are conducted with the quality assessors who interpreted the metrics when assessing their customers' software systems.
Our analysis of the collected data leads to two types of findings. First, we identify in which situations and under which conditions the metrics are useful. Second, we discover how to improve the metrics themselves and ways to apply them better.
In addition to reporting on the evaluation of these specific metrics in this particular context, we reflect upon a general method for evaluating software metrics in a practical setting. The challenges involved in designing and executing such a study are outlined and the generalizability of the results is discussed. We conclude that despite the inherent limitations of this type of studies, the execution of such a study is crucial for the proper evaluation of any software metric.
วัดซอฟต์แวร์ยังเป็นประโยชน์สำหรับนักวิจัยและผู้ วัดเช่นเสียง [3], McCabe ซับซ้อน [26], C & K วัดชุด [12] และความหลากหลายของสถาปัตยกรรมวัด (โปรดดู Koziolek [23] ในภาพ) ได้รู้จัก และใช้ในทางปฏิบัติ นอกจากนี้ วัดซอฟต์แวร์ใหม่ต่อไปจะกำหนด โดยชุมชนวิจัยการประเมินการวัดใหม่โดยทั่วไปประกอบด้วยของกำลังรวบรวม (เปลี่ยนแปลง) มูลค่าของการวัดด้วยดัชนีคุณภาพอื่น ๆ เช่นความเป็นไปได้ของการเปลี่ยนแปลง [25] หรือความสามารถในการทำนายของบัก [28] ในบางกรณี การประเมินผลประกอบด้วยการวิเคราะห์มูลค่าของการวัดสำหรับชุดระบบซอร์ส ในหนึ่งช็อตเดียว หรือระยะของเวลา [30], [29] ทฤษฎีมากขึ้นวิธีการวัดประเมินตรวจสอบคุณสมบัติทางคณิตศาสตร์ของการวัด (ดู เช่น เม et al. [11], [10] และ al. et Fenton [15]) หรือเน้นคุณสมบัติฝลของวัด (ดู เช่น Abran [1])จุดเน้นของการประเมินประเภทนี้จะกำหนดว่า วัดออกแบบเกี่ยวข้องกับคุณสมบัติคุณภาพได้รับการออกแบบการวัดปริมาณ คุณสมบัติที่เรียกว่า "สร้างตั้งแต่" [21] แม้ว่าจะเป็นส่วนสำคัญของการประเมินผลของการวัด การประเมินประเภทนี้ไม่สามารถใช้เพื่อตรวจสอบว่าการวัดประโยชน์ สำหรับการวัดเพื่อเป็นประโยชน์ ค่าควรสอดคล้องกับสัญชาตญาณของการ measurer [15] และควรอย่างใช้ในกระบวนการตัดสินใจ [16]ในเอกสารนี้ เราประเมินประโยชน์ของสองสถาปัตยกรรมระดับวัด ส่วนประกอบยอดดุล [7] และประวัติอ้างอิง [8], ซึ่งถูกออกแบบมาเพื่อกำหนดปริมาณ analyzability การ encapsulation ในระบบซอฟต์แวร์ หลักฐานที่ มีโครงสร้างการวัดเหล่านี้ได้รับการรวบรวมก่อนหน้านี้ในระบุทดลอง [7], [8] การศึกษาขนาดใหญ่นำเสนอจุดมุ่งหมายเพื่อความเข้าใจเกี่ยวกับประโยชน์ของการวัดเหล่านี้สองในทางปฏิบัติบริบทของงานวิจัยนี้เป็นกลุ่มการปรับปรุงซอฟต์แวร์ (SIG) บริษัทที่ปรึกษาผู้เชี่ยวชาญในการให้คำแนะนำเชิงกลยุทธ์เพื่อการบริหารจัดการได้ตามผลการวิจัยทางเทคนิค เป็นขั้นตอนแรกการวัดทั้งสองถูกฝังอยู่ในการประเมิน แบบจำลองที่ใช้ในการตรวจสอบ และประเมินคุณภาพทางเทคนิคของชุดใหญ่ (500 +) ระบบพัฒนาโดย (หรือสำหรับ) ลูกค้าของ SIG. ดการแปลความหมาย โดยที่ปรึกษาที่ทำงานที่ SIG ผู้ปฏิบัติตามบทบาทของการประเมินคุณภาพภายนอกได้รวบรวมข้อมูลเกี่ยวกับประโยชน์ของการวัดโดยใช้สองวิธี ครั้งแรก ข้อมูลเกี่ยวกับความท้าทายเกี่ยวข้องกับการใช้วัดจริง เป็นรวบรวม โดยการสังเกตการประเมินคุณภาพ และจัดทำเอกสารในรูปแบบของบันทึก ประการที่สอง การสัมภาษณ์กึ่งโครงสร้างจะดำเนินกับประเมินคุณภาพที่ตีดเมื่อประเมินระบบซอฟต์แวร์ของลูกค้าของพวกเขาเราวิเคราะห์ข้อมูลที่รวบรวมนำไปสู่การค้นพบสองชนิด ครั้งแรก เราระบุ ในสถานการณ์ใด และภาย ใต้เงื่อนไขการวัดมีประโยชน์ สอง เราค้นพบวิธีการปรับปรุงวัดเองและวิธีการใช้ดีกว่านอกจากรายงานการประเมินผลการวัดเหล่านี้เฉพาะในบริบทเฉพาะนี้ เราสะท้อนตามวิธีการทั่วไปสำหรับประเมินซอฟต์แวร์การวัดการปฏิบัติ ความท้าทายเกี่ยวข้องกับการออกแบบ และดำเนินการศึกษาดังกล่าวจะถูกล้อมรอบ และกล่าว generalizability ผล เราสรุปที่แม้ มีข้อจำกัดแต่กำเนิดชนิดนี้ของการศึกษา การดำเนินการของการศึกษาเป็นสิ่งสำคัญสำหรับการประเมินที่เหมาะสมของมาตรวัดซอฟต์แวร์ใด ๆ
การแปล กรุณารอสักครู่..

การวัดซอฟต์แวร์ยังคงเป็นประโยชน์สำหรับนักวิจัยและผู้ปฏิบัติ . ตัวชี้วัดเช่นปริมาณ [ 3 ] , แมคเคบความซับซ้อน [ 26 ] , C & K , แต่งงาน [ 12 ] และหลากหลายของตัวชี้วัดสถาปัตยกรรม ( ดู koziolek [ 23 ] สำหรับภาพรวม ) เป็นที่รู้จักกันดีและใช้ในการปฏิบัติงาน นอกจากนี้ การวัดซอฟต์แวร์ใหม่ยังคงถูกกำหนดโดยชุมชนการวิจัยการประเมินตัวชี้วัดใหม่มักจะมีความสัมพันธ์ ( เปลี่ยน ) ค่าเมตริกกับตัวชี้วัดคุณภาพอื่น ๆเช่น ความน่าจะเป็นของการเปลี่ยนแปลง [ 25 ] หรือความสามารถที่จะทำนายการปรากฏตัวของแมลง [ 28 ] ในกรณีอื่น ๆ , ประเมินผลประกอบด้วยการวิเคราะห์ค่าของตัวชี้วัดสำหรับชุดของระบบเปิดแหล่งที่มาทั้งในหนึ่งเดียว ภาพรวมหรือช่วงเวลา [ 30 ] , [ 29 ] ทฤษฎีเพิ่มเติมวิธีการประเมินผลเมตริกตรวจสอบคุณสมบัติทางคณิตศาสตร์ของการวัด ( ดู ตัวอย่าง briand et al . [ 11 ] [ 10 ] และเฟนตัน et al . [ 15 ] ) หรือมุ่งเน้นในคุณสมบัติของตัวชี้วัดมาตรวิทยา ( ดู ตัวอย่าง abran [ 1 ] )โฟกัสของเหล่านี้ประเภทของการประเมินผล คือ การตรวจสอบว่า การออกแบบ ซึ่งมีความสัมพันธ์กับคุณภาพคุณสมบัติของ มันถูกออกแบบมาเพื่อวัดเป็นสถานที่ที่เรียกว่า " สร้างความถูกต้อง " [ 21 ] แม้ว่านี้เป็นส่วนที่สำคัญของการประเมินตัวชี้วัดเหล่านี้ประเภทของการประเมินไม่สามารถใช้เพื่อตรวจสอบว่า ตัวชี้วัดที่มีประโยชน์ เป็นระบบเมตริกเป็นประโยชน์คุณค่าควรสอดคล้องกับสัญชาตญาณของผู้วัด [ 15 ] และควรอย่างที่ใช้ในกระบวนการการตัดสินใจ [ 16 ]ในกระดาษนี้เราประเมินประโยชน์ของทั้งสองวัดระดับสถาปัตยกรรม องค์ประกอบสมดุล [ 7 ] และโปรไฟล์พึ่งพา [ 8 ] , ซึ่งถูกออกแบบมาเพื่อวัด analyzability encapsulation ภายในและระบบซอฟต์แวร์ หลักฐานการตรวจสอบ ความตรงตามโครงสร้างของตัวชี้วัดเหล่านี้ได้เคยรวมตัวกันในกระบวนการทดลอง [ 7 ] , [ 8 ] การศึกษานี้มีวัตถุประสงค์เพื่อนำเสนอและได้รับความเข้าใจในประโยชน์ของทั้งสองตัวชี้วัดการปฏิบัติบริบทของการวิจัยนี้เป็นซอฟต์แวร์ที่ปรับปรุง Group ( SIG ) เป็นบริษัทที่ปรึกษาผู้เชี่ยวชาญในการให้คำแนะนำเชิงกลยุทธ์การจัดการบนพื้นฐานของข้อมูลทางเทคนิค เป็นขั้นตอนแรกการวัดทั้งสองฝังอยู่ในรูปแบบการวัดที่ใช้ในการตรวจสอบและประเมินคุณภาพทางเทคนิคของชุดใหญ่ ( 500 + ) ระบบที่พัฒนาโดย ( หรือ ) ลูกค้าของ sig ตัวชี้วัดที่ถูกตีความโดยที่ปรึกษาทำงานที่ Sig ที่ตอบสนองบทบาทของผู้ประเมินคุณภาพภายนอกข้อมูลเกี่ยวกับประโยชน์ของตัวชี้วัด คือ เก็บรวบรวมข้อมูลโดยใช้วิธีการสองวิธีที่แตกต่างกัน แรก , ข้อมูลเกี่ยวกับความท้าทายที่เกี่ยวข้องในจริง ๆ ใช้วัดที่เก็บรวบรวมโดยการสังเกตผู้ประเมินคุณภาพ และบันทึกในรูปแบบของบันทึก . โดยการสัมภาษณ์แบบกึ่งโครงสร้างจะดำเนินการกับผู้ประเมินคุณภาพที่ตีความตัวชี้วัดเมื่อการประเมินระบบซอฟต์แวร์ของลูกค้าของพวกเขาการวิเคราะห์ของเราจากข้อมูลไปสู่สองชนิดของการค้นพบ ครั้งแรกที่เราระบุ ซึ่งในสถานการณ์ และภายใต้เงื่อนไขที่ตัวชี้วัดที่เป็นประโยชน์ ที่สองเราค้นพบวิธีการปรับปรุงตัวชี้วัดเอง และวิธีที่จะใช้พวกเขาดีกว่านอกจากการรายงานการประเมินผลตัวชี้วัดที่เฉพาะเจาะจงเหล่านี้ในบริบทนี้เฉพาะ เราสะท้อนให้เห็นถึงวิธีการทั่วไปสำหรับการประเมินวัดซอฟต์แวร์ในการปฏิบัติ ความท้าทายที่เกี่ยวข้องในการออกแบบและการดําเนินการดังกล่าวจะถูกระบุไว้ และศึกษาวิชาของผลนี้ เราสรุปได้ว่า แม้จะมีข้อ จำกัด ที่แท้จริงของการศึกษาชนิดนี้ การ เช่น การศึกษาเป็นสิ่งสำคัญสำหรับการประเมินที่เหมาะสมของเมตริกซอฟต์แวร์ใด ๆ
การแปล กรุณารอสักครู่..
