Kiểm định independent sample t-test là gì

Kiểm định t-mẫu độc lập (independent t-test) để so sánh giá trị trung bình giữa hai nhóm không liên quan trên cùng một biến liên tục. Ví dụ, chúng ta có thể sử dụng bài kiểm tra t-test độc lập để hiểu liệu mức lương của sinh viên tốt nghiệp năm đầu tiên có khác nhau dựa trên giới tính hay không (tức là, biến phụ thuộc của bạn sẽ là “lương của sinh viên tốt nghiệp năm đầu tiên” và biến độc lập của bạn sẽ là “giới tính”, có hai nhóm: “Nam và nữ”). Ngoài ra, chúng ta có thể sử dụng một bài kiểm tra t-test độc lập để hiểu liệu có sự khác biệt về mức độ lo lắng khi kiểm tra dựa trên trình độ học vấn hay không (nghĩa là, biến phụ thuộc của bạn sẽ là “lo lắng khi kiểm tra” và biến độc lập của bạn sẽ là “trình độ học vấn”, có hai nhóm: “sinh viên chưa tốt nghiệp” và “sinh viên sau đại học”).

Nội dung chính Show

1. Khi nào sử dụng?
2. Giả thuyết vô hiệu và suy luận thống kê
3. Các giả định thống kê
4. Thủ tục phân tích t-test độc lập
5. Phân tích t-test độc lập trong SPSS
Tài liệu tham khảo

1. Khi nào sử dụng?

Kiểm định t độc lập hai mẫu (two-sample independent t-test) được sử dụng thường xuyên nhất trong các thiết kế khảo sát và thực nghiệm (nhóm song song) khi điều tra viên muốn xác định liệu có sự khác biệt đáng kể giữa hai trung bình nhóm độc lập hay không. Ví dụ: một nhà nghiên cứu giáo dục có thể muốn biết hoạt động nào trong hai hoạt động trên lớp, đọc thầm hoặc kể chuyện của giáo viên là hữu ích nhất trong việc cải thiện từ vựng của trẻ em. Một giáo viên so sánh điểm từ vựng của hai nhóm lớp độc lập, một nhóm học theo chương trình đọc bao gồm cả phần kể chuyện của giáo viên và nhóm còn lại theo cùng chương trình đọc nhưng có các khoảng thời gian đọc thầm ở góc đọc thay vì kể chuyện.

Trong kiểm định t-test, các trung bình mẫu được sử dụng để ước tính các trung bình dân số chưa biết. Với phép thử t hai mẫu (two-sample t-test), một nhà nghiên cứu quan tâm đến việc liệu bất kỳ sự khác biệt quan sát được nào về các trung bình có thể hiện sự khác biệt thực sự (không phải do cơ may) hay không và do đó biện minh cho suy luận rằng hai mẫu đại diện cho hai quần thể khác biệt với các trung bình dân số khác nhau. Thống kê t (t-statistic) là một ước tính của sự khác biệt giữa hai trung bình dân số. Ý nghĩa của sự khác biệt này được đánh giá bằng cách tính toán sự khác biệt giữa hai trung bình (means) chia cho sai số chuẩn (standard error) của sự khác biệt này. Ý tưởng của việc tính toán tỷ lệ này là để so sánh sự thay đổi của sự khác biệt được dự đoán trong điểm số, chỉ đơn giản là sự khác biệt giữa điểm số trung bình của hai nhóm, với độ biến thiên tổng của tất cả các điểm số (trong cả hai mẫu). Hãy coi nó như một tỷ lệ của độ biến thiên được dự đoán so với độ biến động tổng. Sai số chuẩn của sự khác biệt giữa các trung bình là thước đo của độ biến thiên tổng này. Độ lệch chuẩn của phân bố mẫu thường được gọi là sai số chuẩn của phân bố đó. Do đó độ lệch chuẩn của giá trị trung bình được gọi là sai số chuẩn của giá trị trung bình. Sự khác biệt giữa hai trung bình cũng có một phân phối mẫu, chúng có giá trị trung bình và độ lệch chuẩn, sau này được gọi là sai số chuẩn của sự khác biệt trong các trung bình.

Độ nhạy của t-test trong việc phát hiện sự khác biệt phụ thuộc vào độ biến thiên tổng của điểm số (sai số chuẩn của sự khác biệt trong các trung bình). Nếu sự biến thiên tổng thể về điểm số là nhỏ nhất thì chỉ một sự khác biệt nhỏ giữa các trung bình của hai nhóm. Tuy nhiên, nếu có sự biến thiên tổng thể lớn trong các điểm số thì một sự khác biệt lớn hơn giữa các trung bình là cần thiết để đạt được ý nghĩa thống kê. Khó phát hiện sự khác biệt thực sự với các nhóm không đồng nhất (heterogeneous) vì nhiều sự khác biệt về điểm số của các cá nhân có thể là do lỗi hoặc các tác động (không được đo lường) khác hơn là sự khác biệt được dự đoán. Ngụ ý cho thiết kế nghiên cứu là bạn có nhiều khả năng phát hiện ra sự khác biệt đáng kể giữa các nhóm nếu điểm tổng thể là đồng nhất (homogeneous).

Khi mẫu nhỏ (n <30), độ lệch chuẩn của mẫu có thể không phải là một công cụ ước lượng tốt về độ lệch chuẩn dân số chưa biết và do đó tỷ lệ của sự khác biệt giữa các trung bình và sai số chuẩn của sự khác biệt (x̅1 – x̅2)/SE khác biệt trong các phương tiện, có thể không có phân phối chuẩn. Tỷ lệ này được gọi là thống kê t (t-statistic) và khi các phương sai trong cả hai mẫu là tương tự nhau, t-statistic có phân phối xác suất được gọi là t-distribution. Hình dạng của phân phối t thay đổi theo cỡ mẫu, tức là có sự phân phối t khác nhau cho mỗi cỡ mẫu, vì vậy khi chúng ta sử dụng phân phối t, chúng ta cũng cần tham khảo các bậc tự do thích hợp dựa trên cỡ mẫu và số lượng các tham số được ước tính. Khi kích thước mẫu tăng trên 30, phân phối t tiến tới một phân phối chuẩn về hình dạng.

2. Giả thuyết vô hiệu và suy luận thống kê

Chúng ta sử dụng t-test để xem liệu có sự khác biệt giữa hai giá trị trung bình hay không, do đó giả thuyết vô hiệu là H0: μ1 − μ2 = 0; điều này tương đương với μ1 = μ2. Nói cách khác, điều này nói rằng trung bình dân số là giống nhau, tương đương với việc nói rằng đó là một quần thể chứ không phải hai. Giả thuyết thay thế là không có hướng, H1: μ1 ≠ μ2, vùng bác bỏ | t | > t1 − α / 2 (điều này có nghĩa là giá trị tuyệt đối của t lớn hơn giá trị tới hạn của t ở mức ý nghĩa 0.025, nếu alpha là 5%) hoặc nó có thể là một phía, μ1 > μ2 hoặc μ1 <μ2, vùng loại bỏ t> t1 − α hoặc t <−t1 − α. Phân phối mẫu của sự khác biệt giữa các trung bình là được sử dụng để kiểm tra giả thuyết vô hiệu này.

Ước lượng phương sai tổng hợp của thống kê t hay t-ratio (phương sai bằng nhau): T-test có một phân phối chính xác chỉ khi hai dân số có cùng phương sai. Đây được gọi là tính đồng nhất (homogeneity) của giả định phương sai. Ước lượng tổng hợp của phương sai dân số, σ 2, được sử dụng trong tính toán t-test, nó được gọi là ước tính phương sai tổng hợp. Bậc tự do liên quan đến ước lượng phương sai tổng hợp của thống kê t là n1 + n2 − 2; một bậc tự do được liên kết với mỗi phương sai mẫu (phương sai mẫu có n − 1 df). Sự đồng nhất của giả định phương sai hợp lý hơn với các thiết kế thử nghiệm vì các thiết kế như vậy thường giả định rằng các nhóm là tương đương nhau trước khi xử lý.

Trong đó, S là các trọng số phương sai mẫu riêng biệt (separate sample variances weighted) được tính theo cỡ mẫu tương ứng của chúng. Phương sai S2 của n quan sát x1, x2, … xn là:

Ước lượng phương sai riêng biệt của t’-ratio gần đúng (phương sai không bằng nhau): Khi giả định về tính đồng nhất của phương sai là không hợp lý, thống kê t gần đúng (approximate t-statistic) ký hiệu là t′ được tính bằng cách sử dụng các ước lượng phương sai riêng biệt từ mỗi mẫu. Phân phối mẫu của t′ không có một t-distribution và không có n1 + n2−2 bậc tự do. Việc phân bố mẫu chính xác đã được đánh giá nhưng thường không được sử dụng. Thay vào đó, các quy trình gần đúng đã được phát triển để xác định các giá trị tới hạn để sử dụng với phân phối t′ gần đúng thông qua df. Giá trị df được tính gần đúng theo Satterthwaite (1946) là:

3. Các giả định thống kê

Các giả định cho t-test độc lập là:

Các dân số mà từ đó các mẫu được chọn phải có một phân phối chuẩn gần đúng (approximate normal distribution). Điều có nghĩa ở đây là các phân phối mẫu của các trung bình được phân phối chuẩn. Nếu mẫu đủ lớn thì do Định lý giới hạn trung tâm, ngay cả khi phân phối của các biến là không chuẩn, thì trung bình mẫu của chúng sẽ là chuẩn. Nếu các mẫu nhỏ và cả hai biến đều được phân phối chuẩn thì nghĩa là của chúng cũng sẽ có phân phối chuẩn cơ bản. (Xác minh giả định về tính chuẩn bằng cách vẽ biểu đồ xác suất chuẩn cho hai biến).
Các phương sai dân số phải bằng nhau, đây được gọi là giả định phương sai đồng nhất (homogeneity of variance assumption). Một F-test có thể được sử dụng, tỷ lệ của hai phương sai mẫu được phân phối với n1 + n2 − 2 df hoặc sử dụng quy tắc ngón tay cái gần đúng (approximate rule of thumb) cho tính đồng nhất của các phương sai (đòi hỏi cỡ mẫu bằng nhau), các phương sai là đồng nhất nếu tỷ lệ của độ lệch chuẩn lớn hơn (SD) với độ lệch chuẩn nhỏ hơn là nhỏ hơn hoặc bằng hai ‘2’. Việc sử dụng quy tắc ngon tay cái thường dựa trên kinh nghiệm, vì vậy SPSS cung cấp kiểm tra Levene’s test cho tính đồng nhất (Levene’s test for homogeneity) trong ANOVA. Giả định này là không cần thiết nếu t′-ratio xấp xỉ (approximate t′-ratio) được sử dụng.
Mẫu là độc lập và được chọn ngẫu nhiên. (Giả định này có liên quan đến thiết kế nghiên cứu.)

4. Thủ tục phân tích t-test độc lập

T-test độc lập liên quan đến việc các giả định này có thể được nới lỏng đến mức nào mà không làm mất hiệu lực của các suy luận.

Giả định chuẩn (Normality assumption). Điều quan trọng là các trung bình mẫu được phân phối chuẩn trong dân số. Với kích thước mẫu lớn (n> 30 trong mỗi mẫu) thì đây không phải là vấn đề. Với các mẫu nhỏ hơn, sự bằng nhau về kích thước mẫu là quan trọng. T-test độc lập chống lại sự không chuẩn mực ngay cả với các cỡ mẫu nhỏ (n <10), miễn là các cỡ mẫu bằng nhau.
Các phân phối lệch vừa phải (Moderately skewed distributions). Nếu cả hai mẫu có độ lệch vừa phải, có hình dạng giống nhau và có kích thước xấp xỉ bằng nhau trong mẫu nhỏ, với mẫu nhỏ hơn là khoảng 15, thì t-test có thể được sử dụng một cách thận trọng.
Các phân phối bị lệch nghiêm trọng (Severely skewed distributions). t-test chỉ nên được xem xét với các mẫu lớn hơn, n1 + n2 > 45, chúng là xấp xỉ bằng nhau trong kích cỡ và có phương sai tương tự. Nếu những giả định này không được đáp ứng, hãy xem xét việc chuyển đổi dữ liệu, hoặc sử dụng thử nghiệm phi tham số hoặc sử dụng một phương pháp phân tích khác.
Phương sai không bằng nhau (Unequal variances). Nếu sử dụng t′ gần đúng (ước lượng phương sai không bằng nhau) thì giả định về tính đồng nhất không phải là trọng yếu.
Sự độc lập (Independence). Các quan sát mẫu phải độc lập, đây là một giả định quan trọng.
Những quan sát ngoại lệ (Outlier observations). Không nên sử dụng t-test độc lập khi có các quan sát ngoại lệ cực trị (extreme outlier). Những quan sát này sẽ ảnh hưởng lớn đến các trung bình và làm mất hiệu lực của bất kỳ suy luận nào. (đọc bài kiểm tra điểm ngoại lệ)

Ví dụ, một nhà nghiên cứu muốn biết liệu có sự khác biệt về điểm số từ vựng tiếng Anh giữa học sinh tiểu học ở thành thị và nông thôn khi sử dụng phương pháp kể chuyện hay không. Có 20 học sinh (10 học sinh thành thị và 10 học sinh nông thôn) được chọn ngẫu nhiên tham gia một cuộc thử nghiệm. Kết thúc bài thi, nhà nghiên cứu thu thập điểm số của 20 học sinh này theo thang điểm 100, và tổng hợp theo bảng dưới đây.

Trường hợp 1: Ước lượng phương sai riêng biệt

Để tính toán ước lượng phương sai riêng cho t′, có ba bước liên quan, i) tìm sự khác biệt trong các trung bình giữa hai nhóm; ii) tính toán sai số chuẩn của sự khác biệt trong các trung bình; và iii) đánh giá t′, một là tỷ số giữa sự khác biệt trong các trung bình (i ở trên) với sai số chuẩn của sự khác biệt trong các trung bình (ii ở trên).

– Sự khác biệt trong các trung bình giữa hai nhóm: x̅1 – x̅2 = 79.6-67.6=12

– Tính sai số chuẩn của sự khác biệt trong các trung bình:

– Tính giá trị t′-value: (x̅1 – x̅2)/SE = 12/4.89 = 2.454

– Tính bậc tự do của ước lượng phương sai riêng biệt:

Kết luận: Thống kê t′ đại diện cho kích thước của sự khác biệt giữa hai nhóm, giá trị t′ càng lớn thì kích thước của sự khác biệt càng lớn. Trong ví dụ này, giả thuyết thay thế, H1: μ1 ≠ μ2, và vùng bác bỏ là | t |> t1 − α / 2. Để có ý nghĩa thống kê, giá trị t′ được tính toán cần phải vượt quá giá trị t tới hạn, với 15.07 df ở mức 5%. Chú ý rằng bậc tự do không phải là một số nguyên và giá trị tới hạn đối với 15.07 df không được thể hiện trong bảng t (t-table), vui lòng xem bảng phân phối t. Chúng ta có thể tìm giá trị tới hạn bằng cách nội suy giữa hai giá trị gần nhất là df = 15 (tới hạn t = 2.131) và df = 16 (tới hạn t = 2.120). Giá trị tới hạn xấp xỉ 2.126 với df = 15.07.

Trong ví dụ này, giá trị t′ quan sát được của 2.454 vượt quá giá trị t′ tới hạn là 2.126 và chúng ta có thể kết luận rằng giá trị trung bình khác nhau đáng kể ở mức 5% với phép thử hai phía. Học sinh thành thị dường như có điểm số cao hơn đáng kể so với học sinh nông thôn về điểm số từ vựng tiếng Anh khi sử dụng phương pháp kể chuyện (t ′ = – 2.454, df = 15.07, p <0.05).

Trường hợp 2: Ước lượng phương sai tổng hợp

Ba bước liên quan đến việc tính toán ước lượng phương sai tổng hợp (phương sai bằng nhau): i) Kiểm tra xem các phương sai mẫu có đồng nhất và tìm sự khác biệt trong các trung bình giữa hai nhóm; ii) Tính sai số chuẩn của sự khác biệt trong trung bình; và iii) tính toán giá trị t (ii ở trên).

Sự khác biệt về các trung bình và kiểm tra tính đồng nhất:

– Sự khác biệt về các trung bình: x̅1 – x̅2 = 79.6-67.6=12

– Kiểm tra tính đồng nhất: sử dụng quy tắc ngón tay cái gần đúng (một quy tắc may rủi dựa trên kinh nghiệm đưa ra kết quả đến mức chấp nhận được) cho tính đồng nhất của các phương sai, (

nhỏ hơn 2), các phương sai là tương tự nhau.

Sai số chuẩn của sự khác biệt trong các trung bình:

và S = 10.94

Tính giá trị t:

Bậc tự do liên quan cho một ước lượng phương sai tổng hợp là df = n1 + n2 −2 = 18.

Nhận xét: Giả định một kiểm tra hai phía và mức ý nghĩa 5%, cách giải thích giống như trong ví dụ trước ngoại trừ bậc tự do là một số nguyên và do đó có thể được tra cứu trong bảng phân phối t (t-distribution). Đối với 18 df và 5% hai phía, t tới hạn là 2.101. Vì giá trị t quan sát (2.452) vượt quá giá trị tới hạn nên chúng ta có thể kết luận rằng có bằng chứng về sự khác biệt đáng kể về điểm số trung bình từ vựng tiếng Anh giữa học sinh thành thị và học sinh nông thôn (t = 2.452, df = 18, p <0.05).

Trong hai ví dụ đã làm việc này, các ước tính phương sai riêng biệt và tổng hợp của các t-ratio là có sự tương đương nhau vì các phương sai mẫu là không khác biệt. Do dữ liệu là đồng nhất, nên chúng ta sử dụng kết quả của t-test với phương sai bằng nhau.

Tính khoảng tin cậy cho sự khác biệt trong các trung bình

Công thức tính khoảng tin cậy 95% cho sự khác biệt về các trung bình được đưa ra là:

= 12 +/- 2.101 * 10.94 * 0.447 = 12 +/- 10.28 = từ 1.72 đến 22.28

Sự khác biệt giữa điểm trung bình của mẫu ở học sinh thành thị và học sinh nông thôn trong bài kiểm tra từ vựng tiếng anh khi sử dụng phương pháp kể chuyển là 12 điểm với CI 95% từ 1.72 đến 22.28, phương sai t-ratio bằng nhau, t kiểm tra hai phía là 4.905, với 18 bậc tự do và giá trị p liên quan là 0.05. Khoảng tin cậy không bao gồm số không ‘0’ tương ứng với việc bác bỏ giả thuyết vô hiệu. Chiều rộng khoảng tin cậy khá lớn có lẽ vì kích thước mẫu nhỏ. Chúng ta chắc chắn 95% rằng sự khác biệt trung bình, với giá trị nằm trong khoảng 1.72 đến 22.28, nhưng giá trị có khả năng nhất là 12.

5. Phân tích t-test độc lập trong SPSS

– Bước 1: Click Analyze > Compare Means > Independent-Samples T Test…

– Bước 2: Trong hội thoại Independent-Samples T Test, chúng ta chuyển biến phụ thuộc “Diemthi” vào ô Test Variable(s), chuyển biến “noisong” vào ô Grouping Variable.

– Bước 3: Click vào nút Define Groups…, nhập giá trị 1 vào ô Group 1, và giá trị 2 vào ô Group 2. Lưu ý rằng trong SPSS, chúng ta đã gán giá trị 1 = ‘thành thị’, và giá trị 2 = ‘nông thôn’. Sau đó nhấp Continue.

– Bước 4: Click vào nút Options, chọn khoảng tin cậy 95%. Sau đó nhấp Continue. Cuối cùng nhấp OK để chạy kết quả.

Phân tích kết quả:

– Bảng Statistics cung cấp thống kê mô tả hữu ích cho hai nhóm mà bạn đã so sánh, bao gồm giá trị trung bình và độ lệch chuẩn. Chúng ta có thể trình bày thông tin về giá trị trung bình và độ lệch chuẩn cho dữ liệu này. Hoặc một sơ đồ cũng có thể được sử dụng để trình bày kết quả của bạn một cách trực quan. Ví dụ: bạn có thể sử dụng một biểu đồ thanh (bar chart) với các thanh lỗi (error bars), trong đó các thanh lỗi có thể sử dụng độ lệch chuẩn, sai số chuẩn hoặc khoảng tin cậy 95%. Điều này có thể giúp người khác hiểu kết quả của bạn dễ dàng hơn.

– Bảng Independent Samples Test cung cấp kết quả thực tế của t-test. Chúng ta có thể thấy rằng các trung bình của nhóm khác nhau có ý nghĩa thống kê vì giá trị trong hàng “Sig. (2-tailed)” nhỏ hơn 0.05. Nhìn vào bảng Thống kê nhóm, chúng ta có thể thấy rằng khi sử dụng phương pháp kể chuyển trong dạy học từ vừng tiếng Anh, những học sinh thành thị có mức điểm cao hơn so với những học sinh nông thôn là 12 điểm (tại cột Mean Difference), khoảng tin cậy từ 1.72 đến 22.28, t (18 df) = 2.452, p = 0.025. Có thể thấy giá trị kiểm định t-test độc lập sử dụng SPSS đã có kết quả tương tự như tính tay theo công thức. Việc mô tả kết quả tương tự như trên. Cũng có sự khác biệt, khi phương pháp phân tích t-test trong SPSS sử dụng kiểm định Levene’s test cho sự bằng nhau của phương sai (chứ không tính theo quy tắc ngón tay cái như ví dụ trên). Theo đó.

– Thống kê F và giá trị ý nghĩa (p -value) của kiểm định Levene’s test cho thấy giá trị p là .448 lớn hơn 0.05 (tức là p > 0.05), phương sai nhóm của chúng tôi có thể được coi là bằng nhau. Tuy nhiên, nếu p <0.05, chúng ta có các phương sai không bằng nhau và chúng ta đã vi phạm giả định về tính đồng nhất của các phương sai. Do phương sai bằng nhau, nên chúng ta sử dụng kết quả t-test ở hàng Equal variances assumed. Nếu ngược lại, chúng ta sử dụng kết quả ở hàng Equal variances not assumed.

Tài liệu tham khảo

Coolican, H. (2018). Research methods and statistics in psychology. Routledge.
Hanneman, R. A., Kposowa, A. J., & Riddle, M. D. (2012). Basic statistics for social research (Vol. 38). John Wiley & Sons.
Jackson, S. L. (2015). Research methods and statistics: A critical thinking approach. Cengage Learning.
McQueen, R. A., & Knussen, C. (2006). Introduction to research methods and statistics in psychology. Pearson education.
Peers, I. (2006). Statistical analysis for education and psychology researchers: Tools for researchers in education and psychology. Routledge.
Wagner III, W. E. (2019). Using IBM® SPSS® statistics for research methods and social science statistics. Sage Publications.