X residual sai số trung bình toàn phương năm 2024

Một công việc quan trọng của bất kỳ thủ tục thống kê xây dựng mô hình từ dữ liệu nào cũng đều là chứng minh sự phù hợp của mô hình. Để biết mô hình hồi quy tuyến tính đã xây dựng trên dữ liệu mẫu phù hợp đến mức độ nào với dữ liệu, chúng ta cần dùng một thước đo nào đó về độ phù hợp của nó.

X residual sai số trung bình toàn phương năm 2024

1. R bình phương là gì?

Một thước đo sự phù hợp của mô hình tuyến tính thường dùng là hệ số xác định R bình phương (Coefficient of Determination). Công thức tính R bình phương (R square) xuất phát từ ý tưởng xem toàn bộ biến thiên quan sát được của biến phụ thuộc được chia thành 2 phần: phần biến thiên do Hồi quy (Regression) và phần biến thiên do Phần dư (Residual). Nếu phần biến thiên do Phần dư càng nhỏ, nghĩa là khoảng cách từ các điểm quan sát đến đường ước lượng hồi quy càng nhỏ thì phần biến thiên do Hồi quy sẽ càng cao, khi đó giá trị R bình phương sẽ càng cao.

Hệ số R bình phương là hàm không giảm theo số biến độc lập được đưa vào mô hình, nếu chúng ta càng đưa thêm biến độc lập vào mô hình thì R bình phương càng tăng. Tuy nhiên, điều này cũng được chứng minh rằng không phải phương trình càng có nhiều biến thì càng tốt hơn.

2. R bình phương hiệu chỉnh là gì?

Ý nghĩa của R bình phương hiệu chỉnh cũng giống như R bình phương là phản ánh mức độ phù hợp của mô hình. R bình phương hiệu chỉnh được tính từ R bình phương thường được sử dụng hơn vì giá trị này phản ánh sát hơn mức độ phù hợp của mô hình hồi quy tuyến tính đa biến. R bình phương hiệu chỉnh không nhất thiết tăng lên khi chúng ta đưa thêm các biến độc lập vào mô hình.

X residual sai số trung bình toàn phương năm 2024

So sánh 2 giá trị như ở hình trên, giá trị R bình phương hiệu chỉnh (Adjusted R Square) nhỏ hơn giá trị R bình phương (R Square), dùng nó để đánh giá độ phù hợp của mô hình sẽ an toàn hơn vì nó không thổi phồng mức độ phù hợp của mô hình.

3. Ý nghĩa của R bình phương hiệu chỉnh

Mức dao động của R bình phương hiệu chỉnh là từ 0 đến 1, tuy nhiên việc đạt được mức giá trị bằng 1 là gần như không tưởng dù mô hình đó tốt đến nhường nào.

X residual sai số trung bình toàn phương năm 2024

Về ý nghĩa của R bình phương hiệu chỉnh, như đã đề cập ở trên. Chỉ số này phản ánh mức độ giải thích của các biến độc lập đối với biến phụ thuộc trong mô hình hồi quy.

Trong ví dụ đọc kết quả hồi quy trên SPSS ở trên, giá trị R bình phương hiệu chỉnh là 0.725. Như vậy, các biến độc lập giải thích được 72.5% sự biến thiên của biến phụ thuộc. Phần còn lại 27.5% được giải thích bởi các biến ngoài mô hình và sai số ngẫu nhiên.

4. R bình phương hiệu chỉnh dưới 0.5 (50%)

Không có tiêu chuẩn chính xác R bình phương hiệu chỉnh ở mức bao nhiêu thì mô hình mới đạt yêu cầu, chỉ số này nếu càng tiến về 1 thì mô hình càng có ý nghĩa, càng tiến về 0 thì ý nghĩa mô hình càng yếu. Mức R bình phương này phụ thuộc vào số lượng biến độc lập tác động vào biến phụ thuộc của phép hồi quy đó. Nhiều biến độc lập tác động vào biến phụ thuộc Y chúng ta thường sẽ kỳ vọng mức R2 cao hơn so với chỉ có 1 biến độc lập tác động vào Y bởi Y sẽ được giải thích bởi nhiều yếu tố hơn.

Thường với hồi quy SPSS ở mô hình đơn giản nhiều độc lập tác động vào 1 phụ thuộc, chúng ta chọn mức trung gian là 0.5 để phân ra 2 nhánh ý nghĩa mạnh/ý nghĩa yếu, từ 0.5 đến 1 thì mô hình là tốt, bé hơn 0.5 là mô hình chưa tốt. Tuy nhiên, điều này chỉ phù hợp trong một số ít tình huống, việc yêu cầu giá trị R2 phải lớn hơn 0.5 là đi ngược với lý thuyết thống kê.

Như vậy, nếu kết quả hồi quy bạn phân tích được có R bình phương hiệu chỉnh dưới 50% (0.5) thì kết quả vẫn được chấp nhận.

Nếu bạn gặp khó khăn khi thực hiện phân tích hồi quy vì số liệu khảo sát không tốt, vi phạm các tiêu chí kiểm định. Bạn có thể tham khảo dịch vụ chạy SPSS của Phạm Lộc Blog hoặc liên hệ trực tiếp email [email protected] để tối ưu thời gian làm bài và đạt kết quả tốt.

Chào các bạn, hôm nay nhóm Thạc Sĩ QTKD ĐH Bách Khoa HCM giới thiệu đến các bạn chi tiết nội dung ý nghĩa của hai giá trị khá quan trọng khi chạy mô hình hồi quy tuyến tính đa biến, đó là hệ số R bình phương (R Square) và R bình phương hiệu chỉnh( còn gọi là R bình phương điều chỉnh, hay Adjusted R Square). Hai giá trị này dùng đo sự phù hợp của mô hình hồi quy, còn gọi là hệ số xác định ( coefficient of detemination). Hệ số R bình phương từ đây sẽ được gọi tắt là R2 nhé.

Công thức tính hệ số R bình phương xuất phát từ ý tưởng: toàn bộ sự biến thiên của biến phụ thuộc được chia làm hai phần: phần biến thiên do hồi quy và phần biến thiên không do hồi quy( còn gọi là phần dư).

X residual sai số trung bình toàn phương năm 2024

Regression Sum of Squares(RSS): tổng các độ lệch bình phương giải thích từ hồi quy

Residual Sum of Squares(ESS): tổng các độ lệch bình phương phần dư

Total Sum of Squares(TSS): tổng các độ lệch bình phương toàn bộ

Giá trị R bình phương dao động từ 0 đến 1. R bình phương càng gần 1 thì mô hình đã xây dựng càng phù hợp với bộ dữ liệu dùng chạy hồi quy. R bình phương càng gần 0 thì mô hình đã xây dựng càng kém phù hợp với bộ dữ liệu dùng chạy hồi quy. Trường hợp đặt biệt, phương trình hồi quy đơn biến ( chỉ có 1 biến độc lập) thì R2 chính là bình phương của hệ số tương quan r giữa hai biến đó.

Ý nghĩa R bình phương

Ý nghĩa cụ thể:giả sử R bình phương là 0.60, thì mô hình hồi quy tuyến tính này phù hợp với tập dữ liệu ở mức 60%. Nói cách khác, 60% biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập.( còn 40% còn lại ở đâu, dĩ nhiên là do sai số đo lường, do cách thu thập dữ liệu, do có thể có biến độc lập khác giải thích cho biến phụ thuộc mà chưa được được vào mô hình nghiên cứu…vv). Thông thường, ngưỡng của R2 phải trên 50%, vì như thế mô hình mới phù hợp. Tuy nhiên tùy vào dạng nghiên cứu, như các mô hình về tài chính, không phải tất cả các hệ số R2 đều bắc buộc phải thỏa mãn lớn hơn 50%.( do rất khó dể dự đoán giá vàng, giá cổ phiếu mà chỉ đơn thuần dựa vào các biến độc lập ví dụ GDP, ROA,ROE….)

Hạn chế của hệ số R bình phương

Càng đưa thêm nhiều biến vào mô hình, mặc dù chưa xác định biến đưa vào có ý nghĩa hay không thì giá trị R2 sẽ tăng. Lý do là khi càng đưa thêm biến giải thích vào mô hình thì sẽ càng khiến phần dư giảm xuống (vì bản chất những gì không giải thích được đều nằm ở phần dư), do vậy tăng thêm biến sẽ khiến tổng bình phương phần dư(Residual Sum of Squares) giảm, trong khi Total Sum of Squares không đổi, dẫn tới R2 luôn luôn tăng. Giá trị R2 tăng khả năng giải thích của mô hình, nhưng bản chất thì lại không làm rõ được tầm quan trọng của biến đưa vào, do đó nếu dựa vào giá trị R2 để đánh giá tính hiệu quả của mô hình sẽ dẫn đến tình huống không chính xác vì sẽ đưa quá nhiều biến không cần thiết, làm phức tạp mô hình.

Để ngăn chặn tình trạng như đã nêu trên, một phép đo khác về mức độ thích hợp được sử dụng thường xuyên hơn. Phép đo này gọi là R2 hiệu chỉnh hoặc R2 hiệu chỉnh theo bậc tự do.

Hệ số R bình phương hiệu chỉnh

Công thức tính hệ số R bình phương hiệu chỉnh

X residual sai số trung bình toàn phương năm 2024

Trong đó:

n= số lượng mẫu quan sát.

k= số tham số của mô hình, bằng số lượng biến độc lập cộng 1

R2: hệ số R bình phương

Việc thêm vào một biến dẫn đến tăng R2 nhưng cũng làm giảm đi một bậc tự do, bởi vì chúng ta đang ước lượng thêm một tham số nữa. R2 hiệu chỉnh là một phép đo độ thích hợp tốt hơn bởi vì nó cho phép đánh đổi giữa việc tăng R2 và giảm bậc tự do. Cũng cần lưu ý là vì (n-1)/(n – k) không bao giờ nhỏ hơn 1 nên R2 hiệu chỉnh sẽ không bao giờ lớn hơn R2 . Tuy nhiên, mặc dù R2 không thể âm, R2 hiệu chỉnh có thể nhỏ hơn không. Ví dụ, khi n = 26, k = 6, và R2 = 0,1, chúng ta có R2 hiệu chỉnh = 0,125 .

Ví dụ tính R2 và R2 hiệu chỉnh bằng tay theo công thức dựa trên kết quả phân tích hồi quy đa biến

Sau khi thực hiện phân tích hồi quy đa biến, sẽ ra được bảng kết quả sau:

X residual sai số trung bình toàn phương năm 2024

Trong bảng Model Summary đã có sẵn R2 và R2 hiệu chỉnh. Tuy nhiên ta sẽ thực hiện tính toán giá trị này dựa vào bảng ANOVA bên dưới để hiểu rõ vấn đề.

Nhắc lại công thức tính R bình phương:

X residual sai số trung bình toàn phương năm 2024

Trong bài này:

ESS=Residual Sum of Squares= 30.036

TSS=Total Sum of Squares = 86.721

do đó: R2=1-(ESS/TSS) =1-(30.036/86.721)= 0.654

Như vậy ta đã tính được bằng công thức giá trị R square=0.654. Bây giờ ta tính tiếp giá trị adjusted R square nhé