Trong stata biến nhóm gám 0 và 1 là gì năm 2024

Biến giả đã trở nên khá quen thuộc trong các nghiên cứu rồi phải ko mọi người. Đây là biến sẽ nhận giá trị 0 và 1, thường được sử dụng với mục đích kiểm soát tác động của một sự kiện, đặc tính nào đó đến biến đầu ra.

Trong stata biến nhóm gám 0 và 1 là gì năm 2024

Để tạo biến giả trong STATA thì chúng ta sẽ dùng lênh GENERATE (hoặc viết tắt là GEN hoặc GE đều được). Có một số lưu ý/tip khi sử dụng biến giả mình muốn chia sẻ như sau:

1. Giả sử, các bạn muốn tạo biến giả D1 nhận giá trị 1 nếu bien_A>=3000 thì lệnh chúng ta dùng sẽ là:

gen D1 = (bienA>=3000)

Như vậy, biến D1 sẽ nhận giá trị 1 nếu biến A có giá trị lớn hơn hoặc bằng 3000 và nhận giá trị 0 nếu biến A nhỏ hơn 3000.

Một trong những LƯU Ý mà các bạn cần nhớ khi tạo biến giả là các MISSING VALUE, đặc biệt là với điều kiện như trên. Bởi vì, STATA sẽ ngầm hiểu các missing value là các giá trị lớn và sẽ gán giá trị 1 cho các missing value đó. Nếu dữ liệu không có missing data thì ko sau, nhưng nếu có thì chúng ta nên bổ sung thêm điều kiện trong câu lệnh trên như sau:

gen D1 = (bienA>=3000) if bienA != .

Dấu != nghĩa là khác hoặc không bằng, còn dấu . là missing value nha mọi người.

2. Nếu điều kiện là khoảng giá trị của biến A (ví dụ 3000 <= bienA <= 5000) thì chúng ta nên tạo biến giả D2 với điều kiện INRANGE như sau:

gen D2 = inrange(bienA,3000,5000)

3. Nếu biến A là biến string, mang các giá trị định tính (Ví dụ là tên của các tỉnh thành) thì lệnh của chúng ta sẽ viết như sau:

Uploaded by

K60 Lê Thị Hoàng My

0% found this document useful (0 votes)

363 views

11 pages

Original Title

THỰC-HÀNH-STATA-VÀ-KẾT-QUẢ-NGHIÊN-CỨU

Copyright

© © All Rights Reserved

Available Formats

PDF, TXT or read online from Scribd

Share this document

Did you find this document useful?

Is this content inappropriate?

0% found this document useful (0 votes)

363 views11 pages

THỰC HÀNH STATA VÀ KẾT QUẢ NGHIÊN CỨU

Uploaded by

K60 Lê Thị Hoàng My

Jump to Page

You are on page 1of 11

Search inside document

Reward Your Curiosity

Everything you want to read.

Anytime. Anywhere. Any device.

No Commitment. Cancel anytime.

Trong stata biến nhóm gám 0 và 1 là gì năm 2024

Trong phân tích số liệu và thống kê học, phân tích tương quan là một cách để đo lường mối liên quan giữa hai hay nhiều biến với nhau. Trong nghiên cứu khoa học chúng ta thường dựa vào mối liên quan giữa các biến để tính toán và dự báo sự thay đổi của một biến dựa vào thông tin mà chúng ta biết được về các biến liên quan đó. Ví dụ như dựa vào mối tương quan giữa thu nhập và giáo dục, chúng ta có thể thấy những người có trình độ học vấn cao hơn sẽ có thu nhập cao hơn. Khi chúng ta biết được trình độ học vấn của một người, ta có thể dự đoán được thu nhập trong tương lai của họ.

Trong bài này, thongke.info sẽ giới thiệu cụ thể mối tương quan giữa hai biến bằng các phương pháp vẽ đồ thị và sử dụng các hệ số tương quan sử dụng phần mềm Stata.

Vẽ đồ thị là phương pháp đầu tiên thường được sử dụng để xem xét mối tương quan giữa hai hay nhiều biến nhằm cung cấp cho ta một cái nhìn ban đầu về mối quan hệ giữa các biến này. Từ đó chúng ta sẽ có quyết định có cần thiết phân tích mối tương quan giữa các biến này không, có thể tiến hành các phân tích sâu hơn như phân tích hồi quy hay không?

Khi nhìn vào một biểu đồ mô tả mối tương quan chúng ta cần chú ý vào các điểm sau:

  • Hình thái của mối tương quan tuyến tính, hình cung (curve)…
  • Xu hướng của mối tương quan: thuận (positive) hay nghịch (negative)
  • Khả năng dự đoán của mô hình (dựa vào đường fitedline)
  • Các giá trị ngoài khoảng (outliers)
  1. Mối tương quan giữa biến liên tục và biến liên tục

Trong thống kê mô tả, để biểu thị mối tương quan giữa biến liên tục và biến liên tục ta sẽ sử dụng biểu đồ chấm điểm rải rác (scatter)

*Lênh Stata: vẽ biểu đồ chấm rải rác (scatter)

twoway (scatter BMI m131a) (lfit BMI m131a)

twoway (scatter nr3 age) (lfit nr3 age)

Trong stata biến nhóm gám 0 và 1 là gì năm 2024

Theo đồ thị 1 ta có thể nhận thấy giữa hai biến chỉ số khối cơ thể của con (BMI) và cân nặng của bà mẹ (m131a) có mối quan hệ tuyến tính chặt chẽ với nhau và là mối tương quan thuận (positive). Dựa vào đường fited line ta thấy rằng chiều cao của mẹ dự đoán tương đối tốt sự thay đổi của chỉ số BMI của con. Ngoài ra ta cũng nhận thấy có xuất hiện một số giá trị ngoài khoảng của 2 biến này (các chấm rời rạc nằm cách xa đám mây).

Bằng phương pháp vẽ đồ thị, ta thấy giữa biến mối tương quan giữa chỉ số BMI của con và cân nặng của bà mẹ tương đối chặt chẽ với nhau. Tuy nhiên đó chỉ là đánh giá quan sát, để khẳng định độ mạnh yếu của mối tương quan này chúng ta cần sử dụng đến các kiểm định hệ số tương quan (r). [đã được thongke.info trình bày trong một bài riêng biệt trong mục Phương pháp luận/ “quản lý phân tích số liệu”]

Đối với các biến liên tục, trước khi kiểm định hệ số tương quan ta cần xác định biến đầu ra có phân phối chuẩn hay không để quyết định những kiểm định phù hợp (Xem thêm nội dung kiểm tra phân phối chuẩn của biến trong mục “quản lý phân tích số liệu”]).

- Kiểm định pearson được dùng để kiểm định hệ số tương quan giữa 2 biến liên tục có phân phối chuẩn

- Kiểm định spearman được dùng để kiểm định hệ số tương quan giữa 2 biến liên tục không có phân phối chuẩn

Phiên giải kết quả hệ số tương quan (r):

r<0.3: tương quan yếu

r=0.3-0.5: tương quan trung bình

r>0.7 tương quan rất chặt chẽ (r càng gần 1 tương quan càng mạnh)

Trong ví dụ của chúng ta giả định như sau:

- Biến chỉ số cơ thể của con (BMI) và cân nặng của bà mẹ là biến không có phân phối chuẩn.

- Biến số điếu thuốc hút TB/ngày và tuổi của người trả lời phỏng vấn (age) là biến có phân phối chuẩn.

Như vậy:

*Kiểm định spearman cho 2 biến liên tục không có phân phối chuẩn (BMI và m131a)

spearman BMI m131a

Trong stata biến nhóm gám 0 và 1 là gì năm 2024

Theo kết quả phân tích này ta thấy rằng có mối tương quan chặt chẽ giữa biến BMI của con và cân nặng của bà mẹ (r=0.8)

* Kiểm định pearson đối với hai biến có phân phối chuẩn (nr3 và age)

pwcorr nr3 age, star(0.5)

Trong stata biến nhóm gám 0 và 1 là gì năm 2024

Kết quả này cho thấy mối tương quan giữa số điếu thuốc hút TB/ngày hầu như không có mối liên quan với tuổi của người trả lời (r<0.1)

  1. Tương quan của biến liên tục và biến phân loại

Để mô tả mối tương quan giữa biến phân loại và biến liên tục, ta sử dụng đồ thị boxplot.

Trong ví dụ này chúng ta muốn tìm hiểu mối liên quan giữa chỉ số cân nặng theo tuổi của trẻ (waz06) và nhóm chỉ số BMI của bà mẹ (BMI_new)

Lệnh stata:

graph box m135a, over ( BMI_new)

Đồ thị 3: Mối liên quan giữa biến cân nặng của trẻ (m135a) và nhóm BMI của bà mẹ (BMI_new)

Trong stata biến nhóm gám 0 và 1 là gì năm 2024

Boxplot (biểu đồ box-and-whisker) được sử dụng để so sánh một biến số (ví dụ cân nặng trẻ) ở các nhóm (chỉ số khối cơ thể của mẹ) khác nhau qua 5 giá trị: 1) giá trị thấp nhất (minimum), 2) 0-25% giá trị (lower quartile), 3) Trung vị (đường kẻ giữa box), 4) 75%-100% giá trị (upper quartile), và 4) giá trị cao nhất của biên (maximum). Boxplot cũng chỉ ra các giá trị bất thường - outliers.

Nhìn vào biểu đồ ta sự phân bố cân nặng của trẻ ở các nhóm BMI của bà mẹ tương đối là đồng đều, tuy nhiên thấy trung vị cân nặng của trẻ ở 3 nhóm BMI của bà mẹ có sự khác nhau. Cân nặng trung vị của trẻ có bà mẹ có BMI<18.5 dường như cao hơn so với 2 nhóm còn lại.

Để kiểm tra khẳng định sư khác nhau cũng như mối liên quan giữa nhóm BMI của bà mẹ và cân nặng của con. Chúng ta sử dụng lệnh phân tích, so sánh trung vị giữa nhiều nhóm. Ở đây biến cân nặng của con không có phân phối chuẩn nên chúng sẽ sử dụng kiểm định kruskal-wallis.

tabstat m135a, by(BMI_new) stats(n median)

(lệnh chạy so sánh trung vị cân nặng của con ở các nhóm BMI của mẹ)

Trong stata biến nhóm gám 0 và 1 là gì năm 2024

kwallis m135a, by(BMI_new)

(lệnh kiểm định so sánh giá trị trung vị)

Trong stata biến nhóm gám 0 và 1 là gì năm 2024

Kết quả kiểm định cho thấy sự khác nhau về trung vị cân nặng của trẻ có bà mẹ thuộc các nhóm BMI khác nhau (p<0.001). Trung vị cân nặng của trẻ có bà mẹ thuộc nhóm BMI<18.5 cao hơn so với các nhóm khác.

  1. Tương quan giữa biến phân loại và biến phân loại

Bar graph được sử dụng để mô tả mối tương quan giữa hai biến phân loại với nhau

graph bar (sum) stunt,over(sex)

Trong stata biến nhóm gám 0 và 1 là gì năm 2024

Theo biểu đồ, ta thấy số lượng trẻ nam bị thấp còi nhiều hơn số trẻ bị thấp còi là nữ. Ta có thể nghĩ đến có mối liên quan giữa tình trạng thấp còi của trẻ (stunt) và giới tính (sex). Để kiểm tra có mối tương quan này chúng ta sử dụng kiểm định khi bình phương (X2) với 2 biến phân loại