Bài tập về thống kê và thống kê mô tả năm 2024

Trong những bài trước mình đã mô tả với các bạn khái niệm cơ bản về thống kê, chia ra làm 2 nhánh là Thống kê mô tả (Descriptive Statistics) và Thống kê suy luận (Inferential Statistics), mình cũng giải thích thêm lý do tại sao phải thực hiện Thống kê mô tả trước suy luận, link tham khảo mình để ở bên dưới.

Kiến thức cơ bản về Thống kê cho Data Analyst

Nếu bạn đang thắc mắc Thống kê (Statistics) là gì, các khái niệm xung quanh nó dành cho một người hoàn toàn mới, thì bạn đến đúng nơi rồi đấy, những khái niệm này không đòi hỏi bạn phải có kiến thức nền về Toán đâu. Nào chúng ta hãy cùng bắt đầu thôi

Nga Vu

Theo Các bước cơ bản để thực hiện thống kê mô tả bao gồm:

  1. Frequcency Distribution - Phần 1
  2. Graphic Displays of Distributions (Biểu đồ) - Phần 1
  3. Measures of Central Tendency - Phần 2
  4. Measures of Spread - Phần 2

Trong phần 1 này chúng ta sẽ cùng tìm hiểu Bước 1 và 2 của thống kê mô tả nhé

1. Variables & Data

Trước khi đi vào mô tả dữ liệu thì chúng ta cần nắm rõ một vài khái niệm cơ bản trước.

Variable - Biến số: một đặc điểm thay đổi từ người này sang người khác hay vật nay sang vật khác, ví dụ như chiều cao, câng nặng, số lượng cặp sinh đôi, giới tính, tình trạng hôn nhân và màu mắt. Từ biến của nó chính là biến đổi đó các bạn, gọi tắc là biến giống như hàm số gọi ngắn gọn là hàm. Chúng ta có các loại biến sau:

  • Qualitative - Biến định tính: Biến số mà giá trị của nó ko ở dạng số như tình trạng hôn nhân Có hoặc Không, Giới tính là Nam và Nữ, đây không phải là dữ liệu dạng s. Một tên gọi khác của nó là Categorical Variable.
  • Quantitative - Biến định lượng: Biến số mà giá trị nó ở dạng số. Nhưng trong nhánh này sẽ chia làm 2 dạng là Discrete (Rời rạc) và Continous (Liên tục), biến rời rạc là biến có giá trị nguyên và số lượng của chúng có thể đếm được ví dụ như Số lượng cặp sinh đôi, số lượng trẻ em cả nước, trong khi đó biến liên tục tồn tại dưới dạng khoảng, và giá trị của biến có thể là bất kì giá trị nào trong khoảng đó ví dụ chiều cao của người Việt trong khoảng từ 50->2200m.
    Variable

Các giá trị của biến bất kì gọi là Data, một giá trị nằm trong Data gọi là Observation (chiều cao của Linh là 1m7). Tập hợp dữ liệu của nhiều biến được gọi là Dataset. Tương tự với biến chúng ta sẽ có qualitative data, quantitative data, discrete data, và continuous data.

Tại sao bạn cần phải xác định loại dữ liệu ? xác định được loại dữ liệu cho phép bạn lựa chọn đường phương pháp thống kê phù hợp, không phải tất cả phương pháp đều phù hợp với mọi loại dữ liệu, nên việc xác định đúng sẽ giúp bạn chuẩn bị tốt nhất cho những bước tiếp theo.

Bây giờ chúng ta sẽ cùng đi vào các bước tiếp theo, mình sẽ chia sẽ loại dữ liệu và mô tả các xử lý chúng.

2. Tổ chức Dữ liệu định tính

Việc đầu tiên bạn làm trong phần mô tả này là tổ chức chúng thành các bảng, biểu đồ hoặc đồ thị để nắm được những ý chính của dữ liệu, nói cho dễ hiểu là bạn tóm tắt nó lại cho dễ hiểu đó.

2.1 Frequency Table

Bước một là bắt đầu với bảng tần suất - Frequency Table, mình xin phép dùng tiếng Anh luôn nhé. Bảng này chỉ dùng được với dữ liệu định tính thôi nhé, cho biết tần suất của mỗi giá trị của mỗi cột dữ liệu, ví dụ trong cột giới tính thì Nam xuất hiện bao nhiêu lần, và tương tự với Nữ, khá là dễ hiểu nha.

Frequency Distribution of Qualitative Data A frequency distribution of qualitative data is a listing of the distinct values and their frequencies.
  • Bước 1: Lấy ra danh sách unique values - giá trị không bị trùng của tập dữ liệu, ở ví dụ bên dưới bạn có thể thấy chúng ta có 3 unique party là Democratic, Republican và Other, tương tự với giới tính thì chỉ có 2 unique values là Nam và Nữ
  • Bước 2: Đếm số lần xuất hiện của mỗi unique values này
    Dữ liệu gốc
    Frequency Table

2.2 Relative-Frequency Distributions

Tương tự như Frequency Table, Relative frequency sẽ hiển thị phần trăm trên tổng số thay vì là số lần xuất hiện. Bạn chỉ cần lấy frequency chia cho tổng số dòng dữ liệu có trong bảng.

Relative frequency Table

2.3 Pie Charts

Một phương pháp khác để tóm tắt dữ liệu là vẻ biểu đồ, một trong số đó là biểu đồ hình tròn. Thông thường mình sẽ vẻ chúng khi muốn thuyết trình hay trình bày với sếp, thay vì nhìn vào Frequency Table thì ta có thể chọn cách vẻ biểu đồ để người đối diện nắm bắt được thông tin nhanh và trực quan hơn.

Pie Chart

Bạn có thể thấy dữ liệu của Pie chart giống relative frequency table đúng ko ạ, chính là nó đấy, theo mình thì Chart ở trên còn thiếu con số frequency [45% (13)] là hoàn hảo, vừa có số đếm vừa có phần trăm.

2.3 Bar Charts

Bên dưới là biểu đồ cột thể hiện cùng nội dung với biểu đồ hình tròn bên trên. Cá nhân mình thấy mình thường dùng Bar chart trong trường hợp muốn sắp xếp thứ tự trên trục x, ví dụ trục x sẽ là các thứ trong tuần từ thứ hai đến chủ nhật, thay vì dùng pie chart phải xem thuận hay ngược kim đồng hồ sẽ khá khó khăn thì bar chart rất rõ ràng trực quang.

3. Tổ chức Dữ liệu định lượng

Đối với dữ liệu định lượng trước tiên chúng ta sẽ nhóm dữ liệu lại thành các class - nhóm hay lớp (còn được gọi là categories hay là bins) và sau đó làm việc với chúng như dữ liệu định tính. Có 3 nguyên tắc chung để bạn nhóm dữ liệu định lượng thành class:

  • Số lượng class phải không quá nhiều cũng không quá ít, quá ít sẽ dẫn tới việc bỏ qua các đặc điểm khác biệt giữa các class, quá nhiều thì lại làm cho mình khó quan sát và đôi khi không thấy được tính tương đồng.
  • Mỗi điểm dữ liệu (observation) phải thuộc một class duy nhất.
  • Trong trường hợp khả thi, tất cả các lớp nên có cùng số phần tử, trong trường hợp lý tưởng nhé bạn.

Một số phương pháp được sử dụng để nhóm dữ liệu thành các class: single-value grouping, limit grouping, và cutpoint grouping.

3.1 Phương pháp phân lớp

3.1.1 Single-Value Grouping

Nghe tên chắc bạn đã đoán ra được cách phân class này rồi đúng hông, phương pháp này xem mỗi điểm dữ liệu là một class, nó chỉ thích hợp với tập dữ liệu có ít unique value (giá trị không trùng lặp) và ở dạng rời rạc (discrete) không phải continous (liên tục). Ví dụ như điểm số từ 0 đến 10, chỉ có 10 unique value thôi, khá ít và dễ đếm.

Số lượng TV của hộ gia đình

3.1.2 Limit Grouping

Trong trường hợp dữ liệu quá nhiều thì chúng ta sẽ không sử dụng phương pháp Single Point được, vừa không thể thống kê được chúng, bạn có thể tưởng tượng bản tần suất trên dài vài chục trang thì không thể nói là bạn đang summarize dữ liệu được, chúng ta sẽ dùng phương pháp Limit grouping, tạo ra các khoản dữ liệu để phân lớp. Chỉ dùng cho dữ liệu dạng rời rạc, có thể đếm được

Ngày đáo hạn của các khoản vay ngắn hạn

3.1.3 Cutpoint Grouping

Tương tự với Limit grouping nhưng sử dụng với dữ liệu dạng liên tục - continous.

Thống kê cân nặng

Mình xin tổng hợp lại phần lựa chọn phương pháp phân class như sau

Phương pháp Khi nào sử dụng Single-value grouping Dữ liệu rời rạc, ít unique value Limit grouping Dữ liệu rời rạc,ở dạng số nguyên, nhiều unique value Cutpoint grouping Dữ liệu liên tục

3.2 Biểu đồ

Cũng giống như dữ liệu định tính, chúng ta có thể biểu diễn dữ liệu định lượng dưới dạng biểu đồ. Có 3 phương pháp phổ biến là histograms, dotplots, và stem-and-leaf

3.2.1 Histogram

Histogram biểu diễn class trên trục x và tần suất (relative frequencies, percents) ở trục y, nói đơn giản bạn sẽ vẽ barchart với dữ liệu tần suất nhưng thay vì cách xa nhau thì chúng sẽ được đặt sát lại và sắp xếp theo độ lớn tăng dần.

  • Với single point grouping thì bạn đặt tên class ngay trung tâm của mỗi cột
  • Với limit và cutpoint grouping bạn sẽ điền chặn trên và chặn dưới của group ở 2 bên cột
    Hình 1
    Hình 2
    Hình 3

Histogram có thể giúp bạn nhận diện các giá trị outliers (quả nhỏ hoặc quá lớn so với phần đông dữ liệu)

3.2.1 Dotplots

Một dạng biểu diễn hình học cho dữ liệu định lượng nữa là Dotplot, mỗi observation sẽ được biểu diễn thành 1 điểm tương ứng với trục hoành, nếu có 2 giá trị bằng nhau thì chúng sẽ xếp chồng lên nhau. Dotplot thường được sử dụng với tập dữ liệu nhỏ vừa phải, nhìn vào đây bạn sẽ dễ nhận thấy các cụm dữ liệu hay outliers.

3.2.1 Stem-and-Leaf Diagrams - Stemplot

Cá nhân mình thấy biểu đồ này khá là giống Histogram nhưng thay vì hiển thì chiều dài cột thì ở đây sẽ hiển thị cụ thể số liệu.

Input Data
Stemplot

Nếu bạn lật ngang lại thì giống biểu đồ histogram đúng ko ạ, mình chia dữ liệu ra làm 2 phần stems (thân cây) và leaves (lá), như dữ liệu ở trên thì stems là hàng chục của số và leaves là hàng đơn vị, nếu dữ liệu có 3 chữ số thì stems là hàng trăm và chục, hàng đầu tiên biểu diễn các số sau 36, 38, 39. Với biểu đồ này bạn nên sử dụng chúng trong trường hợp lượng dữ liệu nhỏ. Bản thân mình thì khá ít dùng loại này

Trên đây là những bước cơ bản để thực hiện một thống kê mô tả, nhưng thống kê vẽ biểu đồ mà không đánh giá nó thì giống như là không nêm gia vị cho món ăn vậy, mình sẽ đề cập đến phần này trong bài tiếp theo.

Tham khảo:

  • Introductory Statistics - Pearson (2017)
  • floridaschoolleaders

Bạn có thể nhấn vào link này để tham gia vào nhóm và nhận thêm nhiều tài liệu hữu ích khác về Data nhé!

Chủ đề