Trong những bài trước mình đã mô tả với các bạn khái niệm cơ bản về thống kê, chia ra làm 2 nhánh là Thống kê mô tả (Descriptive Statistics) và Thống kê suy luận (Inferential Statistics), mình cũng giải thích thêm lý do tại sao phải thực hiện Thống kê mô tả trước suy luận, link tham khảo mình để ở bên dưới. Show Kiến thức cơ bản về Thống kê cho Data Analyst Nếu bạn đang thắc mắc Thống kê (Statistics) là gì, các khái niệm xung quanh nó dành cho một người hoàn toàn mới, thì bạn đến đúng nơi rồi đấy, những khái niệm này không đòi hỏi bạn phải có kiến thức nền về Toán đâu. Nào chúng ta hãy cùng bắt đầu thôi Theo Các bước cơ bản để thực hiện thống kê mô tả bao gồm:
Trong phần 1 này chúng ta sẽ cùng tìm hiểu Bước 1 và 2 của thống kê mô tả nhé 1. Variables & DataTrước khi đi vào mô tả dữ liệu thì chúng ta cần nắm rõ một vài khái niệm cơ bản trước. Variable - Biến số: một đặc điểm thay đổi từ người này sang người khác hay vật nay sang vật khác, ví dụ như chiều cao, câng nặng, số lượng cặp sinh đôi, giới tính, tình trạng hôn nhân và màu mắt. Từ biến của nó chính là biến đổi đó các bạn, gọi tắc là biến giống như hàm số gọi ngắn gọn là hàm. Chúng ta có các loại biến sau:
Các giá trị của biến bất kì gọi là Data, một giá trị nằm trong Data gọi là Observation (chiều cao của Linh là 1m7). Tập hợp dữ liệu của nhiều biến được gọi là Dataset. Tương tự với biến chúng ta sẽ có qualitative data, quantitative data, discrete data, và continuous data. Tại sao bạn cần phải xác định loại dữ liệu ? xác định được loại dữ liệu cho phép bạn lựa chọn đường phương pháp thống kê phù hợp, không phải tất cả phương pháp đều phù hợp với mọi loại dữ liệu, nên việc xác định đúng sẽ giúp bạn chuẩn bị tốt nhất cho những bước tiếp theo. Bây giờ chúng ta sẽ cùng đi vào các bước tiếp theo, mình sẽ chia sẽ loại dữ liệu và mô tả các xử lý chúng. 2. Tổ chức Dữ liệu định tínhViệc đầu tiên bạn làm trong phần mô tả này là tổ chức chúng thành các bảng, biểu đồ hoặc đồ thị để nắm được những ý chính của dữ liệu, nói cho dễ hiểu là bạn tóm tắt nó lại cho dễ hiểu đó. 2.1 Frequency TableBước một là bắt đầu với bảng tần suất - Frequency Table, mình xin phép dùng tiếng Anh luôn nhé. Bảng này chỉ dùng được với dữ liệu định tính thôi nhé, cho biết tần suất của mỗi giá trị của mỗi cột dữ liệu, ví dụ trong cột giới tính thì Nam xuất hiện bao nhiêu lần, và tương tự với Nữ, khá là dễ hiểu nha. Frequency Distribution of Qualitative Data A frequency distribution of qualitative data is a listing of the distinct values and their frequencies.
2.2 Relative-Frequency DistributionsTương tự như Frequency Table, Relative frequency sẽ hiển thị phần trăm trên tổng số thay vì là số lần xuất hiện. Bạn chỉ cần lấy frequency chia cho tổng số dòng dữ liệu có trong bảng. 2.3 Pie ChartsMột phương pháp khác để tóm tắt dữ liệu là vẻ biểu đồ, một trong số đó là biểu đồ hình tròn. Thông thường mình sẽ vẻ chúng khi muốn thuyết trình hay trình bày với sếp, thay vì nhìn vào Frequency Table thì ta có thể chọn cách vẻ biểu đồ để người đối diện nắm bắt được thông tin nhanh và trực quan hơn. Bạn có thể thấy dữ liệu của Pie chart giống relative frequency table đúng ko ạ, chính là nó đấy, theo mình thì Chart ở trên còn thiếu con số frequency [45% (13)] là hoàn hảo, vừa có số đếm vừa có phần trăm. 2.3 Bar ChartsBên dưới là biểu đồ cột thể hiện cùng nội dung với biểu đồ hình tròn bên trên. Cá nhân mình thấy mình thường dùng Bar chart trong trường hợp muốn sắp xếp thứ tự trên trục x, ví dụ trục x sẽ là các thứ trong tuần từ thứ hai đến chủ nhật, thay vì dùng pie chart phải xem thuận hay ngược kim đồng hồ sẽ khá khó khăn thì bar chart rất rõ ràng trực quang. 3. Tổ chức Dữ liệu định lượngĐối với dữ liệu định lượng trước tiên chúng ta sẽ nhóm dữ liệu lại thành các class - nhóm hay lớp (còn được gọi là categories hay là bins) và sau đó làm việc với chúng như dữ liệu định tính. Có 3 nguyên tắc chung để bạn nhóm dữ liệu định lượng thành class:
Một số phương pháp được sử dụng để nhóm dữ liệu thành các class: single-value grouping, limit grouping, và cutpoint grouping. 3.1 Phương pháp phân lớp3.1.1 Single-Value Grouping Nghe tên chắc bạn đã đoán ra được cách phân class này rồi đúng hông, phương pháp này xem mỗi điểm dữ liệu là một class, nó chỉ thích hợp với tập dữ liệu có ít unique value (giá trị không trùng lặp) và ở dạng rời rạc (discrete) không phải continous (liên tục). Ví dụ như điểm số từ 0 đến 10, chỉ có 10 unique value thôi, khá ít và dễ đếm. 3.1.2 Limit Grouping Trong trường hợp dữ liệu quá nhiều thì chúng ta sẽ không sử dụng phương pháp Single Point được, vừa không thể thống kê được chúng, bạn có thể tưởng tượng bản tần suất trên dài vài chục trang thì không thể nói là bạn đang summarize dữ liệu được, chúng ta sẽ dùng phương pháp Limit grouping, tạo ra các khoản dữ liệu để phân lớp. Chỉ dùng cho dữ liệu dạng rời rạc, có thể đếm được 3.1.3 Cutpoint Grouping Tương tự với Limit grouping nhưng sử dụng với dữ liệu dạng liên tục - continous. Mình xin tổng hợp lại phần lựa chọn phương pháp phân class như sau Phương pháp Khi nào sử dụng Single-value grouping Dữ liệu rời rạc, ít unique value Limit grouping Dữ liệu rời rạc,ở dạng số nguyên, nhiều unique value Cutpoint grouping Dữ liệu liên tục 3.2 Biểu đồCũng giống như dữ liệu định tính, chúng ta có thể biểu diễn dữ liệu định lượng dưới dạng biểu đồ. Có 3 phương pháp phổ biến là histograms, dotplots, và stem-and-leaf 3.2.1 Histogram Histogram biểu diễn class trên trục x và tần suất (relative frequencies, percents) ở trục y, nói đơn giản bạn sẽ vẽ barchart với dữ liệu tần suất nhưng thay vì cách xa nhau thì chúng sẽ được đặt sát lại và sắp xếp theo độ lớn tăng dần.
Histogram có thể giúp bạn nhận diện các giá trị outliers (quả nhỏ hoặc quá lớn so với phần đông dữ liệu) 3.2.1 Dotplots Một dạng biểu diễn hình học cho dữ liệu định lượng nữa là Dotplot, mỗi observation sẽ được biểu diễn thành 1 điểm tương ứng với trục hoành, nếu có 2 giá trị bằng nhau thì chúng sẽ xếp chồng lên nhau. Dotplot thường được sử dụng với tập dữ liệu nhỏ vừa phải, nhìn vào đây bạn sẽ dễ nhận thấy các cụm dữ liệu hay outliers. 3.2.1 Stem-and-Leaf Diagrams - Stemplot Cá nhân mình thấy biểu đồ này khá là giống Histogram nhưng thay vì hiển thì chiều dài cột thì ở đây sẽ hiển thị cụ thể số liệu. Nếu bạn lật ngang lại thì giống biểu đồ histogram đúng ko ạ, mình chia dữ liệu ra làm 2 phần stems (thân cây) và leaves (lá), như dữ liệu ở trên thì stems là hàng chục của số và leaves là hàng đơn vị, nếu dữ liệu có 3 chữ số thì stems là hàng trăm và chục, hàng đầu tiên biểu diễn các số sau 36, 38, 39. Với biểu đồ này bạn nên sử dụng chúng trong trường hợp lượng dữ liệu nhỏ. Bản thân mình thì khá ít dùng loại này Trên đây là những bước cơ bản để thực hiện một thống kê mô tả, nhưng thống kê vẽ biểu đồ mà không đánh giá nó thì giống như là không nêm gia vị cho món ăn vậy, mình sẽ đề cập đến phần này trong bài tiếp theo. Tham khảo:
Bạn có thể nhấn vào link này để tham gia vào nhóm và nhận thêm nhiều tài liệu hữu ích khác về Data nhé! |