File dữ liệu thực hành Tableau

Tìm kiếm một bộ dữ liệu tốt

1. Yếu tố của một bộ dữ liệu tốt

Một bộ dữ liệu tốt sẽ có nhiều yếu tố mà bạn cần cho mục đích của mình

Nếu bạn đang tìm kiếm một tập dữ liệu để xây dựng một mô hình trực quan cụ thể hoặc để hiển thị các chức năng cụ thể, hãy đảm bảo rằng tập dữ liệu có các loại trường bạn cần. Ví dụ, biểu đồbản đồ thì cần phải có dữ liệu địa lý. Các bản demo cơ bản thường liên quan đến việc truy sâu vào ngày, vì vậy dữ liệu sẽ cần ít nhất một field ngày (và nó sẽ cần chi tiết hơn so với chỉ năm để hiển thị chi tiết). Không phải tất cả các bộ dữ liệu đều cần tất cả các yếu tố này. Bạn biết những gì bạn cần cho mục đích của mình và đừng lãng phí thời gian với các bộ dữ liệu bị thiếu các yếu tố chính.

Những thành phần cơ bản để phân tích:

  • Các giá trị định lượng mà bạn cần phân tích (Doanh thu, lợi nhuận, số lượng hàng bán)

Một số tính năng hoặc loại mô hình hóa có thể yêu cầu các đặc điểm cụ thể của dữ liệu, chẳng hạn như:

Một bộ dữ liệu tốt là một bộ dữ liệu thô (raw data)

Nếu dữ liệu quá tổng hợp, bạn không thể làm gì nhiều để phân tích. Lý tưởng nhất là bạn cần có được dữ liệu hàng ngày. Lưu ý rằng do tính riêng tư hoặc tính thực tế, một số bộ dữ liệu sẽ không bao giờ chi tiết hơn một mức nhất định. Ví dụ: bạn sẽ không thể tìm thấy một bộ dữ liệu với báo cáo từng trường hợp bệnh sốt rét, do đó tổng số hàng tháng theo vùng có thể đủ chi tiết.

Một bộ dữ liệu tốt sẽ có đủ định tính (dimensions) và định lượng (measures)

Nhiều kiểu mô hình hóa yêu cầu phải có dimensionsmeasures

  • Nếu bạn chỉ có các giá trị định tính, bạn sẽ rất hạn chế thực hiện được các phép tính trên dữ liệu của mình

  • Nếu bạn chỉ các các giá trị định lượng, bạn chỉ có thể SUM hoặc AVG, bạn không thể phân tách dữ liệu hoặc phân chia các chiều phân tích.

Điều đó không có nghĩa là một tập dữ liệu chỉ có dimensions không hữu ích. Dữ liệu nhân khẩu học là một ví dụ về dữ liệu nặng về dimensions và nhiều phân tích xung quanh nhân khẩu học được tính hoặc dựa trên tỷ lệ phần trăm. Nhưng đối với một tập dữ liệu phong phú hơn về phân tích, bạn muốn có ít nhất một vài dimensions and measures.

Một tập dữ liệu chỉ có thể hữu ích nếu bạn biết dữ liệu đó là gì. Ví dụ khi bạn nhìn vào bảng dữ liệu sau:

Source có giá trị 4 hoặc 12 nghĩa là gì? Và các fields OTU0-OTU4 mang ý nghĩa gì?

Một tập dữ liệu tốt là một tập hợp có các trường và thành viên được gắn nhãn tốt hoặc có từ điển dữ liệu để bạn có thể tự dán lại dữ liệu. Đối với dữ liệu microbiome được đặt trong hình trên, có một từ điển dữ liệu giải thích từng Source (4 là phân và 12 là dạ dày) và phân loại của mỗi OTU (OTU3 là vi khuẩn thuộc chi Parabacteroides).

Từ điển dữ liệu cũng có thể được gọi là metadata, các chỉ số, định nghĩa biến, bảng chú giải hoặc bất kỳ số lượng nào khác. Vào cuối ngày, một từ điển dữ liệu cung cấp thông tin về tên cột và các thành viên trong một cột. Thông tin đó có thể được đưa vào nguồn dữ liệu theo nhiều cách, bao gồm:

  • Đổi tên các cột để dễ hiểu hơn (điều này có thể được thực hiện trong chính tập dữ liệu hoặc trong Tableau).

  • Đặt tên bí danh cho các thành viên của trường (điều này có thể được thực hiện trong trong Tableau).

  • Tạo các công thức để thêm thông tin từ điển dữ liệu.

  • Ghi chú các field trên Tableau (Ghi chú chỉ hiển thị trong môi trường build không hiển thị khi xuất bản).

  • Sửa dụng từ điển dữ liệu như một nguồn dữ liệu khác và liên kết 2 nguồn dữ liệu này lại.

Mất một từ điển dữ liệu có thể khiến một bộ dữ liệu trở nên vô dụng. Nếu bạn đang đánh dấu một tập dữ liệu, hãy đánh dấu từ điển dữ liệu. Nếu bạn đang tải xuống, hãy tải xuống cả hai và giữ chúng ở cùng một nơi.

Một bộ dữ liệu tốt là một bộ dữ liệu mà bạn có thể sử dụng được

Miễn là bạn có thể hiểu bộ dữ liệu và nó có những thông tin bạn cần, thậm chí bộ dữ liệu nhỏ cũng rất hữu ích trong việc phân tích của bạn. bộ dữ liệu nhỏ hơn cũng dễ dàn trong việc lưu trữ, chia sẻ và phát hành, và thực thi lẹ hơn.

Tương tự như vậy, ngay cả khi bạn tìm thấy bộ dữ liệu hoàn hảo cho nhu cầu của bạn, nếu nó đòi hỏi một nỗ lực phi thực tế để làm sạch nó, thì rốt cuộc nó không hoàn hảo. Biết khi nào nên từ bỏ một tập dữ liệu quá lộn xộn là điều quan trọng.

Ví dụ, trong bộ dữ liệu từ bài báo của Wikipedia về tần suất viết thư. Dữ liệu gốc có 84 dòng và 16 cột (pivot nó lại sẽ được 1,245 dòng và 3 cột). File Excel thu được là 16KB. Nhưng với vài groups, sets, công thức, và những thao tác khác, nó có thể đưa ra nhữung phân tích mạnh mẽ và một cái nhìn khá thú vị

Ghi chú: Hãy trả lời câu hỏi "Một hàng (còn gọi là bản ghi) trong tập dữ liệu thể hiện cho cái gì?" Nếu bạn không thể nói rõ điều đó, bạn có thể không hiểu rõ dữ liệu có đủ yếu tố để sử dụng nó cho việc phân tích hay không

  • Tiếp tục theo dõi nguồn mà bạn lấy dữ liệu.

  • Giữ nguyên thông tin từ điển dữ liệu.

  • Tránh lấy dữ liệu quá cũ, thường xuyên lấy dữ liệu mới

  • Cố gắng tìm kiếm đơn giản

  • Hãy bỏ qua những bộ dữ liệu mà có quá nhiều công đoạn để làm sạch nó.

3. Những trang web có thể tìm kiếm dữ liệu

Tableau Public: Tableau Public là một nguồn tài nguyên hấp dẫn để tìm kiếm bộ dữ. Tìm kiếm những Workbook có chủ đề mà bạn muốn, sau đó tải xuống truy cập dữ liệu, hoặc có thể vào Sample Data.

Makeover Monday: “Hãy tham gia với chúng tôi vào mỗi thứ Hai để làm việc với một bộ dữ liệu nhất định và tạo ra phân tích trực quan tốt hơn, hiệu quả hơn và giúp chúng tôi làm cho thông tin dễ tiếp cận hơn.” Bạn có thể thấy những gì người khác đã làm với cùng một bộ dữ liệu, khởi động phân tích của bạn hoặc truyền cảm hứng. Sử dụng #makeovermonday trê Twitter để tham gia.

1. Yếu tố của một bộ dữ liệu tốt

Một bộ dữ liệu tốt sẽ có nhiều yếu tố mà bạn cần cho mục đích của mình

Một bộ dữ liệu tốt là một bộ dữ liệu thô (raw data)

Một bộ dữ liệu tốt sẽ có đủ định tính (dimensions) và định lượng (measures)

Một tập dữ liệu tốt có metadata hoặc từ điển dữ liệu

Một bộ dữ liệu tốt là một bộ dữ liệu mà bạn có thể sử dụng được

2. Bí quyết tìm kiếm bộ dữ liệu

3. Những trang web có thể tìm kiếm dữ liệu

Chủ đề