Hướng dẫn chạy thống kê mô tả stata

Khi nhắc đến thống kê mô tả thì chúng ta hay nói tới các đại lượng như: – Giá trị trung bình (mean) – Độ lệch chuẩn (standard deviation) – Giá trị nhỏ nhất (min) – Giá trị lớn nhất (max) – Số quan sát (Obs)

Tuy nhiên, ngoài những đại lượng này ra thì các đại lượng khác cũng khá quan trọng. Ví dụ như:

– Skewness (Độ lệch dữ liệu – Dữ liệu quá tập trung về một bên) – Kurtosis (Độ nhọn dữ liệu – Một giá trị nào đó có quá nhiều quan sát, hay nói cách khác là tần suất của giá trị đó quá lớn) – Các giá trị phân vị tại các điểm percentile (đặc biệt là giá trị trung vị median – hay giá trị percentile 50%) Việc xem xét đầy đủ các đại lượng này giúp chúng ta hiểu hơn về dữ liệu và dễ phát hiện được dữ liệu của mình có bị ‘bệnh’ gì không. Để thực hiện thống kê mô tả trong STATA, các bạn chỉ cần dùng lệnh SUMMARIZE là xong. Lệnh này chắc cũng khá nhiều người biết rồi, nhưng thông thường mọi người dùng lệnh:

sum bien1 bien2 bien3

Lệnh này chỉ cho chúng ta các giá trị mean, std.dev, min, max và obs thôi.

Để có thể tính được các giá trị skewness, kurtosis hay các percentile, chúng ta thêm DETAIL ở phía sau câu lệnh là xong.

Xem hình ảnh ad đính kèm để biết thêm chi tiết nhé.

Hướng dẫn chạy thống kê mô tả stata

Post navigation


Thống kê này còn gọi là thống kê mô tả, mục đích là mô tả mẫu, xem các giá trị lớn nhất là bao nhiêu, nhỏ nhất là bao nhiêu. Từ đó để đưa ra nhận xét về biến, xem trung bình cao hay thấp để đánh giá được mức độ tác động của biến đó. Dưới đây là hướng dẫn làm thống kê mô tả trong stata

Ví dụ ta chạy Stata để mô tả hai biến TINCAY1 TINCAY2, kết quả như sau:

. summarize TINCAY1 TINCAY2 Variable Obs Mean Min Max TINCAY1 222 3.486486 1.144452 1 5 TINCAY2 222 3.788288 1.123685 1 5

Diễn giải kết quả như sau:

  • Variable: Tên biến
  • Obs: số lượng quan sát
  • Mean: Trung bình cộng
  • Std. Dev. : Độ lệch chuẩn Standard Deviation
  • Min: Giá trị bé nhất của mẫu
  • Max: Giá trị lớn nhất của mẫu

Cách thực hiện tìm giá trị trung bình, lớn nhất, nhỏ nhất, độ lệch chuẩn bằng Stata

Vào menu Statistics -> Summaries,tables, and tests -> Summary and descriptive statistics -> Summary Statistics.

Hướng dẫn chạy thống kê mô tả stata

Màn hình sau hiện ra

Hướng dẫn chạy thống kê mô tả stata

Bấm chọn các biến cần thống kê đưa vào ô Variables, hoặc để trống để chạy thống kê mô tả cho tất cả các biến. Sau đó bấm OK.

Hướng dẫn chạy thống kê mô tả stata

Như vậy là việc thực hiện thống kê hiển thị giá trị trung bình, lớn nhất, nhỏ nhất, độ lệch chuẩn trong Stata đã hoàn thành.

Thống kê mô tả trong Stata (Descriptive Statistics là gì?) là 1 phân tích và là phương pháp thống kê trong luận văn cũng như trong nghiên cứu khoa học là cần thiết hoàn chỉnh, bên cạnh là phần mở đầu trong bất kỳ phân tích thống kê định lượng nào mà còn là nơi chứa đựng sự tổng quan của bộ dữ liệu nghiên cứu đang sử dụng.

Có nhiều phương pháp thống kê mô tả cũng như phân tích thống kê mô tả khác nhau nhưng đa phần thống kê mô tả cơ bản luôn bao gồm các phần đại diện phổ biến như số lượng quan sát của biến (Obs) giá trị trung bình (mean), độ lệch chuẩn (Sd), Giá trị nhỏ nhất (Min) và giá trị lớn nhất (max). Bên cạnh phần lệnh thống kê mô tả, MOSL sẽ mở rộng thêm một số thống kê phổ biến để bạn mở mang tầm mắt lun ạ.

Ghi nhớ các toán tử định sẵn để phần thực hiện được dễ dàng hơn trong Stata nhé!

Kí hiệuÝ nghĩa`&|Hoặc là==Bình đẳng (bằng)>Lớn hơn>=Lớn hơn hoặc bằng<Nhỏ hơn<=Nhỏ hơn hoặc bằng!=`Không bằng (khác)Toán tử sử dụng trong các thống kê trong Stata

Các lệnh sẽ được trình bày trong bài gồm:

  • describe: Mô tả thông tin dữ liệu
  • codebook: Cung cấp thông tin cho file dữ liệu hiện tại.
  • inspect: Cung cấp tổng quan nhanh về file dữ liệu.
  • list: Liệt kê các biến
  • tabulate: Lập bảng một hoặc hai or 3 4 chiều cho biến
  • by: Sử dụng mặc định biến
  • summarize: Thống kê mô tả

Hãy Tải Stata 14 Full Crack mới nhất năm 2022 nếu chưa tải phần mềm này về máy nhé!

1. Mô tả dữ liệu – Thống kê mô tả trong Stata

MOSL sử dụng bộ dữ liệu moslauto.dta từ phần mềm Stata để trình bày và chạy mẫu cho toàn bộ bài kiến thức này. Bộ dữ liệu gồm 2 ngân hàng ABB và ACB thu thập trong thời gian từ 2010 – 2018 với các biến giải thích gồm ROA, QM (quy mô ngân hàng), TGHĐ (tỷ giá hối đái), CPDT, VT và ND.

Hãy cùng nhau Tải về dữ liệu qua nút bự chảng dưới đây rồi thực hành theo nhé các bạn.

Lệnh mô tả hiển thị cho bạn thông tin cơ bản về tệp dữ liệu Stata. Như bạn có thể thấy, nó cho chúng ta biết số lượng quan sát trong tệp dữ liệu, số lượng biến, tên của các biến và nhiều hơn thế nữa.

Lệnh: describe

Kết quả:

Hướng dẫn chạy thống kê mô tả stata
Thống kê mô tả trong Stata – Mô tả dữ liệu

Lệnh này giúp chúng ta xem định dạng các biến trong mô hình, các giá trị value label đã gán cùng với tên nhãn của biến (variable label) rất cụ thể phải không nào.

Tìm hiểu thêm: Cách tạo nhãn biến (variable label), nhãn giá trị (value label) cho biến trong Stata

Lệnh codebook là một công cụ tuyệt vời để có cái nhìn tổng quan nhanh chóng về các biến trong tệp dữ liệu. Nó tạo ra một loại sổ mã điện tử từ tệp dữ liệu. Hãy xem những gì nó tạo ra bên dưới.

Ở đây vì kết quả hiển thị dài nên MOSL chỉ cắt 3 biến đầu tiên cho các bạn tiện hình dung kết quả của lệnh này ra sao nhé!

Hướng dẫn chạy thống kê mô tả stata
Thống kê mô tả trong Stata – Mô tả dữ liệu

Lệnh này ra kết quả rất tổng quan bạn có thể nhìn thấy được 1 số vấn đề như định dạng dữ liệu đang là gì?, bao nhiêu dữ liệu missing đang có trong biến, các đại diện của biến như thế nào?,… còn rất nhiều hãy nghiên cứu kết quả bên dưới nha các bạn.

Một lệnh hữu ích khác để có cái nhìn tổng quan nhanh về tệp dữ liệu là lệnh kiểm tra inspect. Đây là những gì lệnh kiểm tra tạo ra cho tệp dữ liệu tự động.

Ở đây vì kết quả hiển thị dài nên MOSL chỉ cắt 3 biến đầu tiên cho các bạn tiện hình dung kết quả của lệnh này ra sao nhé!

Hướng dẫn chạy thống kê mô tả stata
Thống kê mô tả trong Stata – Mô tả dữ liệu

Lệnh list rất hữu ích để xem tất cả hoặc một loạt các quan sát. Ở đây MOSL xem xét các biến trong mô hình gồm ROA, QM, TGHĐ, CPDT, VT, ND cho 10 quan sát đầu tiên.

Lệnh: list ROA QM TGHĐ CPDT VT ND in 1/10

Hướng dẫn chạy thống kê mô tả stata
Thống kê mô tả trong Stata – Mô tả dữ liệu

Kết quả hiển thị 10 dòng đầu tiên trong tập dữ liệu về các biến tỏng nghiên cứu. Cách này đơn giản phải không nào, hãy tận dụng nó để xem nhanh dữ liệu 10 dòng hoặc 1 số dòng để tiện hình dung các biến nhé!

Tham khảo thêm: Hướng dẫn sử dụng phần mềm Stata | Lệnh trong Stata

2. Lập bảng thống kê trong Stata

Lệnh tabluate cơ bản thống kê từng thành phần trong mỗi biến độc lập ROA và QM với 2 lệnh gồm:

tabulate ROA (hoặc bạn có thể ghi tab ROA là được rồi nhé!)

tabulate QM

Kết quả:

Hướng dẫn chạy thống kê mô tả stata
Lập bảng thống kê trong Stata

Lệnh tab1 có thể được sử dụng như một phím tắt để yêu cầu bảng cho một loạt các biến (thay vì gõ lệnh lập bảng lặp đi lặp lại cho mỗi biến quan tâm).

Lệnh:

tab1 ROA QM

Kết quả:

Hướng dẫn chạy thống kê mô tả stata
Lập bảng thống kê trong Stata

Ngoài tab1 để hiện tần số (Freq.) và phần trăm (Percent). Có thể tiếp tục dùng lệnh:

tab YEAR TGHĐ

Kết quả:

Hướng dẫn chạy thống kê mô tả stata
Lập bảng thống kê trong Stata

Chúng ta có thể sử dụng tùy chọn biểu đồ để tạo biểu đồ nhằm hiển thị trực quan các giá trị được lập bảng của biến TGHĐ (tỷ giá hối đoái) bằng cách:

tab TGHĐ,plot

Kết quả:

Hướng dẫn chạy thống kê mô tả stata
Lập bảng thống kê trong Stata

Dấu sao thể hiện cho plot dạng vạch ở đây TGHĐ đều có tần sất (Freq.) = 2 nên các giá trị plot đều ra cũng 1 kết quả.

Với tùy chọn cột (column), bạn có thể yêu cầu tỷ lệ phần trăm cột và tùy chọn nofreq để giúp bạn loại bỏ tần số và chỉ tập trung vào tỷ lệ phần trăm.

Lệnh:

tab YEAR TGHĐ, column nofreq

Kết quả:

Hướng dẫn chạy thống kê mô tả stata
Lập bảng thống kê trong Stata

Phần trăm là đều nhau giữa các cột qua mỗi năm và mỗi giá trị của biến TGHĐ. Phần tiếp theo MOSL sẽ đi thẳng vào vấn đề chủ chốt của bài viết lần này.

Khám phá: Hồi quy mô hình dữ liệu bảng trong Stata như thế nào

3. Thống kê mô tả trong Stata với sumarize

Ví dụ về thống kê mô tả:

Đối với thống kê tóm tắt, chúng ta có thể sử dụng lệnh tổng hợp. Hãy tạo một số thống kê tóm tắt về ROA. Lệnh sum ROA với kết quả như sau:

Hướng dẫn chạy thống kê mô tả stata
Lệnh thống kê mô tả trong stata

Thống kê toàn bộ biến trong mô hình

Hướng dẫn chạy thống kê mô tả stata

Tổng số quan sát (Obs) của tất cả các biến là 18

Giá trị trung bình (mean) của mỗi biến thể hiện trong bảng. Tương tự cho giá trị độ lệch chuẩn (Std. Dev.), giá trị nhỏ nhất và lớn nhất (min và max).

Để có thể phân tích và nắm được cách đọc kết quả thống kê mô tả trong Stata. Phải chú ý đến giá trị trung bình và độ lệch chuẩn mỗi biến, để hiểu chính xác xin hãy truy cập bài viết độ lệch chuẩn là gì để tìm ra chìa khoá nhé! (Các giá trị còn lại thì đơn giản nên ở đây MOSL không nhắc đến trong quá trình giải thích kết quả từng biến)

Mở rộng hơn, Chúng ta có thể sử dụng tùy chọn chi tiết của lệnh tổng hợp để có được số liệu thống kê tóm tắt chi tiết.

Hướng dẫn chạy thống kê mô tả stata

Kết quả trả về từng biến với các giá trị phân vị từ 1% đến 99% trong đó có giá trị trung vị (median) là 50%. Bổ sung thêm tính kết quả phương sai (variance), Kurtosis là gì? chính là độ nhọn và Skewness là gì? chính là độ lệch cụ thể cho mỗi biến.

Để nhận các giá trị này một cách riêng biệt mỗi năm, chúng ta có thể sử dụng tiền tố ngoại: như được hiển thị bên dưới. Lưu ý rằng trước tiên chúng ta phải sắp xếp dữ liệu trước khi sử dụng bởi ngoại với lệnh sau:

sort YEAR

by YEAR: sum ROA QM TGHĐ CPDT VT ND

Kết quả:

Hướng dẫn chạy thống kê mô tả stata

Nếu bạn muốn sum tại riêng năm 2016 theo mỗi công ty thôi thì dùng lệnh:

sort BANK

by BANK: sum ROA QM TGHĐ CPDT VT ND if YEAR==2016

Kết quả:

Hướng dẫn chạy thống kê mô tả stata

Kết quả sẽ phân loại theo từng công ty và tính toán các giá trị của biến tồn tại trong năm 2016.

Thêm 1 ví dụ liên quan đến câu lệnh sử dụng by để bạn có thêm hình dung về lệnh bổ sung này

Lệnh như sau:

hist ROA,by (YEAR)

Kết quả:

Hướng dẫn chạy thống kê mô tả stata

Ta đã vẽ đồ thị Histogram cho biến ROA theo từng năm chỉ đơn giản thông qua lệnh by hehe

Thêm 1 ví dụ cuối về lệnh tab sử dụng thống kê, đây không phải là cách hiệu quả nhất mà chỉ để mô phỏng cho bạn mở mang thêm hình dung về câu lệnh. Một cách khác, không yêu cầu dữ liệu được sắp xếp, là sử dụng tùy chọn Summary () như một phần của lệnh lập bảng. Lệnh và kết quả như trong hình dưới:

Hướng dẫn chạy thống kê mô tả stata

Kết quả dễ nhìn nhận được và phân tích ha các bạn. Tóm lại, khi gặp khó trong bất kỳ câu lệnh nào hoặc là muốn nâng sự hiểu biết về tính đa dạng của lệnh hãy nhớ sử dụng thần chú sau: help + TÊN LỆNH

Để hiểu rõ thì đọc vài về cách sử dụng lệnh Help và Search trong Stata của MOSL nè.

4. Tổng kết

Các phần trên MOSL đã hướng dẫn các bạn câu lệnh để Mô tả dữ liệu, Tạo bảng so sánh trong Stata và cuối cùng là thống kê mô tả trong Stata bằng lệnh sum.