Chào các bạn, hôm nay nhóm Thạc Sĩ QTKD ĐH Bách Khoa HCM giới thiệu đến các bạn chi tiết nội dung ý nghĩa của hai giá trị khá quan trọng khi chạy mô hình hồi quy tuyến tính đa biến, đó là hệ số R bình phương (R Square) và R bình phương hiệu chỉnh( còn gọi là R bình phương điều chỉnh, hay Adjusted R Square). Hai giá trị này dùng đo sự phù hợp của mô hình hồi quy, còn gọi là hệ số xác định ( coefficient of detemination). Hệ số R bình phương từ đây sẽ được gọi tắt là R2 nhé.
Contents
Công thức tính hệ số R bình phương.
Công thức tính hệ số R bình phương xuất phát từ ý tưởng: toàn bộ sự biến thiên của biến phụ thuộc được chia làm hai phần: phần biến thiên do hồi quy và phần biến thiên không do hồi quy( còn gọi là phần dư).
Regression Sum of Squares(RSS): tổng các độ lệch bình phương giải thích từ hồi quy
Residual Sum of Squares(ESS): tổng các độ lệch bình phương phần dư
Total Sum of Squares(TSS): tổng các độ lệch bình phương toàn bộ
Giá trị R bình phương dao động từ 0 đến 1. R bình phương càng gần 1 thì mô hình đã xây dựng càng phù hợp với bộ dữ liệu dùng chạy hồi quy. R bình phương càng gần 0 thì mô hình đã xây dựng càng kém phù hợp với bộ dữ liệu dùng chạy hồi quy. Trường hợp đặt biệt, phương trình hồi quy đơn biến ( chỉ có 1 biến độc lập) thì R2 chính là bình phương của hệ số tương quan r giữa hai biến đó.
Ý nghĩa R bình phương
Ý nghĩa cụ thể:giả sử R bình phương là 0.60, thì mô hình hồi quy tuyến tính này phù hợp với tập dữ liệu ở mức 60%. Nói cách khác, 60% biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập.( còn 40% còn lại ở đâu, dĩ nhiên là do sai số đo lường, do cách thu thập dữ liệu, do có thể có biến độc lập khác giải thích cho biến phụ thuộc mà chưa được được vào mô hình nghiên cứu…vv). Thông thường, ngưỡng của R2 phải trên 50%, vì như thế mô hình mới phù hợp. Tuy nhiên tùy vào dạng nghiên cứu, như các mô hình về tài chính, không phải tất cả các hệ số R2 đều bắc buộc phải thỏa mãn lớn hơn 50%.( do rất khó dể dự đoán giá vàng, giá cổ phiếu mà chỉ đơn thuần dựa vào các biến độc lập ví dụ GDP, ROA,ROE….)
Hạn chế của hệ số R bình phương
Càng đưa thêm nhiều biến vào mô hình, mặc dù chưa xác định biến đưa vào có ý nghĩa hay không thì giá trị R2 sẽ tăng. Lý do là khi càng đưa thêm biến giải thích vào mô hình thì sẽ càng khiến phần dư giảm xuống (vì bản chất những gì không giải thích được đều nằm ở phần dư), do vậy tăng thêm biến sẽ khiến tổng bình phương phần dư(Residual Sum of Squares) giảm, trong khi Total Sum of Squares không đổi, dẫn tới R2 luôn luôn tăng. Giá trị R2 tăng khả năng giải thích của mô hình, nhưng bản chất thì lại không làm rõ được tầm quan trọng của biến đưa vào, do đó nếu dựa vào giá trị R2 để đánh giá tính hiệu quả của mô hình sẽ dẫn đến tình huống không chính xác vì sẽ đưa quá nhiều biến không cần thiết, làm phức tạp mô hình.
Để ngăn chặn tình trạng như đã nêu trên, một phép đo khác về mức độ thích hợp được sử dụng thường xuyên hơn. Phép đo này gọi là R2 hiệu chỉnh hoặc R2 hiệu chỉnh theo bậc tự do.
Hệ số R bình phương hiệu chỉnh
Công thức tính hệ số R bình phương hiệu chỉnh
Trong đó:
n= số lượng mẫu quan sát.
k= số tham số của mô hình, bằng số lượng biến độc lập cộng 1
R2: hệ số R bình phương
Việc thêm vào một biến dẫn đến tăng R2 nhưng cũng làm giảm đi một bậc tự do, bởi vì chúng ta đang ước lượng thêm một tham số nữa. R2 hiệu chỉnh là một phép đo độ thích hợp tốt hơn bởi vì nó cho phép đánh đổi giữa việc tăng R2 và giảm bậc tự do. Cũng cần lưu ý là vì (n-1)/(n – k) không bao giờ nhỏ hơn 1 nên R2 hiệu chỉnh sẽ không bao giờ lớn hơn R2 . Tuy nhiên, mặc dù R2 không thể âm, R2 hiệu chỉnh có thể nhỏ hơn không. Ví dụ, khi n = 26, k = 6, và R2 = 0,1, chúng ta có R2 hiệu chỉnh = 0,125 .
Ví dụ tính R2 và R2 hiệu chỉnh bằng tay theo công thức dựa trên kết quả phân tích hồi quy đa biến
Sau khi thực hiện phân tích hồi quy đa biến, sẽ ra được bảng kết quả sau:
Trong bảng Model Summary đã có sẵn R2 và R2 hiệu chỉnh. Tuy nhiên ta sẽ thực hiện tính toán giá trị này dựa vào bảng ANOVA bên dưới để hiểu rõ vấn đề.
Nhắc lại công thức tính R bình phương:
Trong bài này:
ESS=Residual Sum of Squares= 30.036
TSS=Total Sum of Squares = 86.721
do đó: R2=1-(ESS/TSS) =1-(30.036/86.721)= 0.654
Như vậy ta đã tính được bằng công thức giá trị R square=0.654. Bây giờ ta tính tiếp giá trị adjusted R square nhé
R2_hiệuchỉnh=1-(n-1)*(1-R2)/(n-k)
n= số lượng mẫu quan sát=160
k= số tham số của mô hình, bằng số lượng biến độc lập cộng 1= 6+1=7
vậy R2_hiệuchỉnh=1-(n-1)*(1-R2)/(n-k)=1-(160-1)*(1-0.654)/(160-7)= 0.640
Như vậy R_bìnhphương_hiệuchỉnh=0.640 bé hơn R_bìnhphương=0.654
Khi các bạn làm bài dạng như: các yếu tố ảnh hưởng đến quyết định, ý định, sự hài lòng… nói chung là các bài dạng khảo sát thị trường , nếu gặp trường hợp R bình phương thấp hơn 0.5, hãy gởi mô hình nghiên cứu, bảng câu hỏi, thông tin liên quan… để nhóm tư vấn cách xử lý triệt để nhé. Nhóm sẽ có cách tư vấn xử lý để hệ số R bình phương lớn hơn 50%.
Chúc các bạn làm bài tốt.
-Viber/zalo qua số điện thoại
-Facebook: http://facebook.com/hoidapSPSS/
-Email: hotrospss@gmail.com