การประมาณค่าสูญหายในการวิเคราะห์การถดถอยเชิงเส้นพหุคูณ
DOI:
https://doi.org/10.14456/ndj.2015.14Keywords:
ค่าสูญหาย, การถดถอยพหุคูณ, วิธีการประมาณค่าสูญหาย, ค่าเฉลี่ยของเปอร์เซ็นต์ความ, คลาดเคลื่อนสัมบูรณ์, Missing data, Multiple regression, Imputation, MAPEAbstract
งานวิจัยครั้งนี้เป็นการศึกษาวิธีการประมาณค่าสูญหายของตัวแปรตามในการวิเคราะห์การถดถอยเชิงเส้นพหุคูณ โดยนำเสนอวิธีประมาณค่าสูญหายของตัวแปรตาม 4 วิธี คือ วิธีอัตราส่วนควอไทล์ที่1 วิธีอัตราส่วนควอไทล์ที่3 วิธีสมการถดถอย-อัตราส่วนควอไทล์ที่1 และวิธีสมการถดถอย-อัตราส่วนควอไทล์ที่3 ซึ่งพัฒนามาจากตัวประมาณอัตราส่วน พร้อมทั้งเปรียบเทียบประสิทธิภาพของวิธีที่นำเสนอ 4 วิธีดังกล่าวกับวิธีประมาณค่าสูญหายที่มีการใช้กันอยู่แล้ว 2 วิธี ได้แก่ วิธีประมาณค่าสูญหายด้วยค่าเฉลี่ยและวิธีประมาณค่าสูญหายด้วยค่าการถดถอย โดยใช้ค่าเฉลี่ยของเปอร์เซ็นต์ความคลาดเคลื่อนสัมบูรณ์เป็นเกณฑ์ในการเปรียบเทียบ ภายใต้สถานการณ์ต่าง ๆ ซึ่งได้จากการจำลอง ผลการศึกษา พบว่า ค่าเฉลี่ยของเปอร์เซ็นต์ความคลาดเคลื่อนสัมบูรณ์ของทุกวิธีมีแนวโน้มเพิ่มขึ้น เมื่อเปอร์เซ็นต์ของค่าสูญหายในตัวแปรตามเพิ่มขึ้น และเมื่อค่าความแปรปรวนของความคลาดเคลื่อนเพิ่มขึ้น นอกจากนั้นในทุกสถานการณ์ วิธีสมการถดถอย-อัตราส่วนควอไทล์ที่1 วิธีสมการถดถอย-อัตราส่วนควอไทล์ที่3 และวิธีสมการถดถอย จะให้ค่าเฉลี่ยของเปอร์เซ็นต์ความคลาดเคลื่อนสัมบูรณ์ ที่ต่ำใกล้เคียงกัน (ความแตกต่างไม่มีนัยสำคัญทางสถิติที่ระดับ = 0.05) และยังเป็นวิธีการประมาณค่าที่มีประสิทธิภาพสูงในการประมาณค่าสูญหาย ส่วนวิธีค่าเฉลี่ย วิธีอัตราส่วนควอไทล์ที่ 1 และวิธีอัตราส่วนควอไทล์ที่ 3 นั้น ทั้ง 3 วิธีนี้เป็นวิธีที่มีประสิทธิภาพต่ำ และมีค่าความคลาดเคลื่อนสูง
Missing Imputation in Multiple Linear Regression Analysis
The objective of this research is to propose imputation estimators when there are missing observations on dependent variable in the multiple linear regression analysis. The proposed ones are called ratio-Q1 (RQ1), ratio-Q3 (RQ3), regression-ratio-Q1 (RRQ1), and regression-ratio-Q3 (RRQ3). In various simulation situations, efficiency of the proposed estimators are compared to two existing methods, namely mean imputation and regression imputation, by using the mean absolute percentage error (MAPE) as a criterion. For each situation, linear regression model with 2 independent variables are considered under the assumption that the error is distributed as normal with various values of variances, sample sizes and percentages of missing observations on dependent variable. Findings reveal that the MAPE of all estimators increase as either the percentage of missing values or the variance of the error increases. Moreover, in all situations, RRQ1, RRQ3 and Regression imputation attain insignificantly different lowest values of MAPE. While the mean imputation, ratio-Q1 (RQ1), and ratio-Q3 (RQ3) are less efficient for their MAPE’s are quite high.