Ước lượng trung bình trên 1 tổng thể năm 2024

Trong ước lượng điểm, chúng ta gán cho thông số cần ước lượng một giá trị trên cơ sở khảo sát, tính toán số thống kê của một hay nhiều mẫu. Trong phần này ta sẽ xem xét phương pháp ước lượng cho trung bình, tỷ lệ và phương sai (hay độ lệch chuẩn).

Ước lượng giá trị trung bình

Để ước lượng trị trung bình, ta thường sử dụng định lý giới hạn trung tâm có nội dung như sau:

Một tổng thể có trung bình là `mu` và phương sai là `sigma^2`. Ta thu thập nhiều mẫu có cùng kích thước `n`, thì ta thu được nhiều trị trung bình `bar x`. Khi số lượng mẫu thu thập đủ lớn thì các giá trị `bar x` này có phân phối chuẩn với trị trung bình là `mu` và độ lệch chuẩn là `sigma//sqrt(n)`.

Vì vậy trung bình của mẫu `bar x` có thể dùng để làm ước lượng không chệch cho trung bình của tổng thể `mu`.

Khi trình bày giá trị của ước lượng điểm, ta có thể đưa vào giá trị của sai số chuẩn. Đối với trung bình, sai số chuẩn được tính theo công thức:

trong đó `s` là độ lệch chuẩn của mẫu, `n` là số phần tử của mẫu.

Thí dụ

Trong một phân xưởng, sau khi cân trọng lượng 30 hộp thịt, ta thu được kết quả trung bình là 365,20 g, Ta dùng giá trị này để làm trọng lượng trung bình cho tất cả các hộp thịt cùng cỡ do phân xưởng sản xuất.

Cũng từ số liệu của 30 hộp thịt trên, ta tính được độ lệch chuẩn là 12,40 g.

Do đó sai số chuẩn là : `SE=s/sqrt(n)=(12,4)/sqrt(30)=2,26`

Vậy ta có thể ghi : `M_(tb)=365,20+-2,26` g

Ước lượng tỷ lệ

Ta có thể dùng tỷ lệ `p` của mẫu để ước lượng cho tổng thể. Sai số chuẩn của ước lượng tỷ lệ là:

trong đó `p` là tỷ lệ các phần tử có tính chất khảo sát của mẫu.

Thí dụ : Để đánh giá mức độ sử dụng máy điều hòa tại quận Q, người ta điều tra một mẫu gồm 150 gia đình. Kết quả điều tra cho thấy có 48 gia đình sử dụng máy điều hòa.

Vậy tỷ lệ gia đình sử dụng máy điều hòa của mẫu là `48//150=0,320` (hay 32%) và ta có thể sử dụng giá trị này để ước lượng cho tỷ lệ gia đình của quận Q sử dụng máy điều hòa.

Sai số chuẩn của ước lượng này là : `SE=sqrt((0,32xx0,68)/150)=0,038`

Vậy tỷ lệ gia đình ở quận Q sử dụng máy điều hòa được ước lượng là `0,320+-0,038` (hay `32,0+-3,8` %)

Ước lượng phương sai

Khi ta đã có toàn bộ số liệu của một tổng thể, thì phương sai của tổng thể được tính bằng công thức:

`sigma^2=(sum_(i=1)^N (x_i-mu)^2)/N`(4)

Tuy nhiên khi ta có số liệu của một mẫu, thì phương sai của mẫu lại được tính bằng công thức:

`s^2=(sum_(i=1)^n (x_i-bar x)^2)/(n-1)`(5)

Ta thấy có sự khác biệt giữa hai công thức (4) và (5). Lý do là để có thể ước lượng cho phương sai của tổng thể thì ta phải dùng công thức (5) thì ước lượng mới không chệch.

Khi biến ngẫu nhiên có phân phối chuẩn thì sai số chuẩn cho ước lượng phương sai được tính bằng công thức :

`SE=sqrt(2/(n-1))\ s^2`(6)

Ước lượng cho độ lệch chuẩn

Về mặt lý thuyết, khi ta sử dụng độ lệch chuẩn `s` tính từ công thức (5) để ước lượng cho độ lệch chuẩn `sigma` của tổng thể thì đó là ước lượng chệch. Tuy nhiên do mức độ chênh lệch không lớn nên trong thực tế ta vẫn dùng `s` để ước lượng cho `sigma`.

Mặc dù độ lệch chuẩn `s` là căn bậc hai của phương sai `s^2`, nhưng sai số chuẩn của `s` không phải là căn bậc hai của sai số chuẩn của `s^2`. Xác định chính xác sai số chuẩn cho `s` rất phức tạp. Tuy vậy ta có thể sử dụng công thức gần đúng sau:

Bước 1: Xây dựng biến mới GTF, với các giá trị biến mới được xác định theo biến GT: nếu là nữ thì giá trị của biến GTF là 1, ngược lại là 0. (Tổng quát đối với biến định tính muốn xây dựng khoảng tin cậy, ta sẽ tạo biến mới với giá trị của biến này sẽ bằng 1 nếu giá trị biến đang xét (biến gốc, như trong trường hợp này là biến GT) có tính chất ta mong muốn (như trong trường hợp này là "nữ") các giá trị còn lại sẽ bằng 0)

Bước 2: Xây dựng khoảng tin cậy cho tỷ lệ học sinh nữ bằng cách xây dựng khoảng tin cậy cho trung bình của biến mới GTF. (Xem lại cách xây dựng khoảng tin cậy cho trung bình ở đây)


Cụ thể ta tiến hành như sau:

Bước 1: Xây dựng biến GTF như đã nói ở trên

Trên thanh công cụ, ta chọn Transform > Record into Different Variables, sau đó cửa sổ Record into Different Variables hiện lên, (1) sau đó ta đưa biến GT vào ô Input Variable -> Output Variable. (2) Tiếp theo, ta đặt tên cho biến mới là GTF trong ô Name (3) rồi bấm nút Change

(5) Ta bấm vào nút Old and New Values... để tạo giá trị cho biến mới GTF, cửa sổ Old and New Values hiện lên như sau

(6) Bây giờ, trong phần Old Value ở ô Value ta nhập F, rồi trong phần New Value ở ô Value ta nhập 1 sau đó bấm Add.

(7) Quay lại phần Old Value ở ô Value ta nhập M, rồi trong phần New Value ở ô Value ta nhập 0 sau đó bấm Add.

Kết quả như sau

(8) Bấm Continue để quay về cửa sổ Record into Different Variables, (9) bấm OK và biến GTF đã được tạo.

Bước 2: Xây dựng khoảng tin cậy 95% cho trung bình biến GTF (Xem lại cách xây dựng khoảng tin cậy cho trung bình ở đây), ta có kết quả

* Dùng chức năng Explore

* Dùng chức năng Compare Means


Ngoài ra ta còn có thể dùng chức năng Bootstrap trong phần Frequencies (trong chức năng Analyze) để xây dựng khoảng tin cậy cho tỷ lệ như sau:

Bước 1: Trên thanh công cụ, chọn Analyze > Descriptive Statistics > Frequencies...

Bước 2: Cửa sổ Frequencies hiện lên, ta đưa biến GT vào ô Variable(s) sau đó bấm nút Bootstrap

Bước 3: Stick vào ô Perform Bootstrapping để bật chức năng này, sau đó điều chỉnh Number of Samples khoảng 1000 (nếu nhập số lớn hơn thì thời gian chờ kết quả lâu hơn) và nhập độ tin cậy vào ô Level(%) trong phần Confidence Intervals.

Bấm Continue để trở về cửa sổ trước, cuối cùng bấm OK để nhận kết quả

Ta được khoảng tin cậy cho nữ là [39%;58%] và khoảng tin cậy cho nam là [42%;61%].

Đối với chức năng Bootstrap, SPSS sẽ thực hiện lấy mẫu 1000 lần (tùy thuộc vào con số ta nhập vào phần Number of samples) trong phạm vi biến GT sau đó sẽ cho ra kết quả, do đó nếu làm lại chức năng này nhiều lần cho cùng một mục đích ta có thể nhận được kết quả khác nhưng thường chỉ hơi chênh lệch so với kết quả trước một chút.