paint-brush
15 bộ dữ liệu Excel dành cho người mới bắt đầu phân tích dữ liệutừ tác giả@datasets
231,822 lượt đọc
231,822 lượt đọc

15 bộ dữ liệu Excel dành cho người mới bắt đầu phân tích dữ liệu

từ tác giả Open Datasets Compiled by HackerNoon15m2023/03/19
Read on Terminal Reader

dài quá đọc không nổi

Excel là một công cụ không thể thiếu để phân tích dữ liệu và với các bộ dữ liệu cũng như kỹ thuật phù hợp, những người mới bắt đầu có thể học cách khám phá thông tin chi tiết và đưa ra quyết định sáng suốt. Trong bài viết này, chúng tôi đã tổng hợp danh sách 15 Bộ dữ liệu Excel dành cho người mới bắt đầu phân tích dữ liệu. Các bộ dữ liệu Excel này bao gồm các chủ đề như phân tích tài chính, phân tích thị trường và phân tích chuỗi thời gian, có thể được sử dụng để hiểu rõ hơn về các tình huống trong thế giới thực.
featured image - 15 bộ dữ liệu Excel dành cho người mới bắt đầu phân tích dữ liệu
Open Datasets Compiled by HackerNoon HackerNoon profile picture

Excel là một công cụ không thể thiếu để phân tích dữ liệu và với các bộ dữ liệu cũng như kỹ thuật phù hợp, những người mới bắt đầu có thể học cách khám phá thông tin chi tiết và đưa ra quyết định sáng suốt. Giao diện trực quan và chức năng mạnh mẽ của nó cho phép người dùng thực hiện nhiều quy trình như thao tác dữ liệu, trực quan hóa dữ liệu và phân tích thống kê.

"Bộ dữ liệu Excel" là gì?

Bộ dữ liệu Excel là tập hợp dữ liệu được lưu trữ và sắp xếp trong bảng tính Excel, đây là một phần mềm thường được sử dụng cho phép người dùng tạo, thao tác và phân tích dữ liệu ở định dạng có cấu trúc. Các bộ dữ liệu này có thể có hai định dạng chính: Excel(.xlsx) và Giá trị được phân tách bằng dấu phẩy (CSV). Định dạng Excel cung cấp nhiều tính năng nâng cao hơn để tổ chức và phân tích dữ liệu phức tạp, bao gồm việc sử dụng công thức và trực quan hóa, trong khi CSV, mặt khác, cung cấp định dạng đơn giản hơn, tương thích với nhiều ứng dụng phần mềm, giúp chia sẻ dễ dàng hơn dữ liệu giữa các chương trình khác nhau.


Trong bài viết này, chúng tôi đã tổng hợp danh sách 15 Bộ dữ liệu Excel dành cho Người mới bắt đầu Phân tích Dữ liệu . Với các bộ dữ liệu Excel này bao gồm các chủ đề như phân tích tài chính, phân tích thị trường và phân tích chuỗi thời gian, người mới bắt đầu có thể thực hành các kỹ thuật phân tích dữ liệu như làm sạch dữ liệu, bảng tổng hợp và biểu đồ trong khi hiểu rõ hơn về các tình huống trong thế giới thực.

Danh sách Bộ dữ liệu Excel dành cho người mới bắt đầu phân tích dữ liệu

  1. Bán hàng siêu thị
  2. diên vĩ
  3. Titanic
  4. Chất lượng rượu
  5. Thu nhập điều tra dân số người lớn
  6. nhà ở Boston
  7. Ung thư vú Bộ dữ liệu Wisconsin
  8. Ý định mua hàng của người mua sắm trực tuyến
  9. Tiếp thị ngân hàng
  10. giá bơ
  11. Top 50 Sách Bán Chạy Nhất Amazon 2009 – 2019
  12. giải vô địch bóng đá thế giới
  13. Dữ liệu mở Airbnb của Thành phố New York
  14. Báo cáo Hạnh phúc Thế giới
  15. Giá cổ phiếu

1. Bán hàng siêu thị

Dữ liệu Doanh số siêu cửa hàng cung cấp dữ liệu doanh số cho một công ty bán lẻ hư cấu, bao gồm thông tin về sản phẩm, đơn đặt hàng và khách hàng. Nó thường được sử dụng để thực hành phân tích dữ liệu.


Tập dữ liệu Excel này bao gồm các biến sau:


  • ID đơn hàng - Mã định danh duy nhất cho mỗi đơn hàng.
  • ID khách hàng - Mã định danh duy nhất cho mỗi khách hàng.
  • Ngày đặt hàng - Ngày đặt hàng.
  • Ngày vận chuyển - Ngày đơn hàng được vận chuyển.
  • Ship Mode - Chế độ vận chuyển cho đơn hàng (ví dụ: tiêu chuẩn, cùng ngày).
  • Phân khúc - Phân khúc khách hàng (ví dụ: Người tiêu dùng, Công ty, Văn phòng tại nhà).
  • Khu vực - Khu vực có khách hàng (ví dụ: Tây, Trung, Đông).
  • Danh mục - Danh mục sản phẩm đã mua (ví dụ: Nội thất, Công nghệ, Đồ dùng văn phòng).
  • Danh mục phụ - Danh mục phụ của sản phẩm đã mua (ví dụ: Ghế, Máy tính để bàn, Giấy).
  • Tên sản phẩm - Tên của sản phẩm đã mua.
  • Bán hàng - Doanh thu bán hàng cho sản phẩm đã mua.
  • Số lượng - Số lượng đơn vị sản phẩm đã mua.
  • Giảm giá - Giảm giá áp dụng cho sản phẩm đã mua.
  • Lợi nhuận -Lợi nhuận được tạo ra bởi sản phẩm được mua.


2. diên vĩ

Bộ dữ liệu này bao gồm các phép đo chiều dài đài hoa, chiều rộng đài hoa, chiều dài cánh hoa và chiều rộng cánh hoa của 150 bông hoa diên vĩ, thuộc 3 loài khác nhau: setosa, versicolor và virginica. Bộ dữ liệu hoa diên vĩ có 150 hàng và 5 cột, được lưu trữ dưới dạng khung dữ liệu, bao gồm một cột cho loài của mỗi loài hoa.


Mô tả các biến của nó bao gồm:


  • Sepal.Length - Sepal.length đại diện cho chiều dài của sepal tính bằng centimet.
  • Sepal.Width - Sepal.width đại diện cho chiều rộng của sepal tính bằng centimet.
  • Petal.Length - Petal.length đại diện cho chiều dài của cánh hoa tính bằng centimet.
  • Loài - Biến loài đại diện cho loài hoa diên vĩ, với ba giá trị có thể có: setosa, versicolor và virginica.


Một trường hợp sử dụng của tập dữ liệu Iris trong Excel là phân tích mối quan hệ giữa các đặc điểm khác nhau của hoa Iris và phân loại các loài hoa dựa trên các giá trị đặc điểm. Điều này có thể được thực hiện bằng cách sử dụng các kỹ thuật như phân tích tương quan, thống kê suy luận và mô hình dự đoán.


Bạn cũng có thể tải xuống bộ dữ liệu Excel này trên Kaggle bằng cách nhấp vào đây .

3. Titanic

Bộ dữ liệu nguồn mở phổ biến này cung cấp thông tin về các hành khách trên tàu Titanic khi nó bị chìm vào ngày 15 tháng 4 năm 1912. Bộ dữ liệu này có thể được sử dụng bởi những người mới bắt đầu phân tích dữ liệu quan tâm đến việc làm sạch và tiền xử lý dữ liệu, thống kê mô tả, trực quan hóa dữ liệu và lập mô hình dự đoán.

Một số biến có trong tập dữ liệu:


  • PasbahId - Mã định danh duy nhất cho mỗi hành khách.
  • Sống sót - Điều này cho biết hành khách có sống sót hay không (0 = Không, 1 = Có).
  • Pclass - Hạng của hành khách (1 = hạng nhất, 2 = hạng 2, 3 = hạng 3).
  • Tên - Tên của hành khách.
  • Giới tính - Giới tính của hành khách.
  • Tuổi - Tuổi của hành khách.
  • SibSp - Số anh chị em/vợ/chồng trên tàu.
  • Parch - Số lượng cha mẹ/con cái trên tàu.
  • Vé - Số vé.
  • Giá vé - Giá vé đã thanh toán cho vé.
  • Cabin - Số cabin.
  • Embarked - Cảng lên tàu (C = Cherbourg, Q = Queenstown, S = Southampton).

4. Chất lượng rượu

Bộ dữ liệu Chất lượng Rượu chứa thông tin về các mẫu rượu vang đỏ và trắng. Bộ dữ liệu này nhằm mục đích phân loại chất lượng của rượu vang dựa trên các đặc tính hóa học như độ pH, tỷ trọng, nồng độ cồn và hàm lượng axit xitric.


Các biến phổ biến có trong tập dữ liệu Excel này:


  • Độ axit cố định - Số lượng axit cố định trong rượu, được biểu thị bằng g/dm^3.
  • Độ axit dễ bay hơi - Số lượng axit dễ bay hơi trong rượu, được biểu thị bằng g/dm^3.
  • Axit xitric - Lượng axit xitric trong rượu, tính bằng g/dm^3.
  • Dư đường - Lượng đường dư trong rượu, tính bằng g/dm^3
  • Clorua - Lượng clorua trong rượu, tính bằng g/dm^3.
  • Free Sulphur Dioxide - Lượng sulfur dioxide tự do trong rượu, tính bằng mg/dm^3.
  • Total Sulphur Dioxide - Tổng lượng sulfur dioxide trong rượu, tính bằng mg/dm^3.
  • Tỷ trọng - Tỷ trọng của rượu, tính bằng g/cm^3.
  • pH - Độ pH của rượu vang.
  • Sunfat - Số lượng sunfat trong rượu, tính bằng g/dm^3.
  • Alcohol - Độ cồn của rượu, tính bằng % vol.
  • Chất lượng - Đánh giá chất lượng của rượu vang, trên thang điểm từ 0 đến 10.

5. Thu nhập điều tra dân số người lớn

Bộ dữ liệu Excel này là tập hợp thông tin về các cá nhân sống ở Hoa Kỳ, được trích xuất từ cơ sở dữ liệu Điều tra dân số năm 1994. Nó chứa các thuộc tính nhân khẩu học, xã hội và kinh tế khác nhau về mỗi cá nhân.


Một số thuộc tính có trong tập dữ liệu này:


  • tuổi

  • Workclass - Tư nhân, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, Without-pay, Never-worked.

  • fnlwgt

  • Giáo dục - Cử nhân, Cao đẳng, 11, HS-grad, Prof-school, PGS-acdm, PGS-voc, 9, 7-8, 12, Masters, 1-4, 10, Tiến sĩ, 5-6, Mầm non.

  • Giáo dục-num

  • tình trạng hôn nhân - Vợ/chồng đã kết hôn, Đã ly hôn, Chưa từng kết hôn, Ly thân, Góa, Đã kết hôn-vợ/chồng-vắng mặt, Đã kết hôn-AF-vợ/chồng.

  • nghề nghiệp - Hỗ trợ kỹ thuật, Sửa chữa thủ công, Dịch vụ khác, Bán hàng, Quản lý điều hành, Giáo sư chuyên môn, Xử lý-dọn dẹp, Kiểm tra máy móc, Văn phòng hành chính, Nuôi trồng-đánh cá, Vận chuyển-di chuyển, Tư nhân- serv, Bảo vệ-phục vụ, Lực lượng vũ trang.

  • mối quan hệ - Vợ, Con riêng, Chồng, Không phải người trong gia đình, Người thân khác, Chưa lập gia đình.

  • chủng tộc - Da trắng, Người gốc Á-Pac-Đảo, Người Mỹ gốc Ấn Độ-Eskimo, Khác, Người da đen.

  • giới tính - Nam hoặc nữ.


Thuộc tính “thu nhập” là biến mục tiêu và tập dữ liệu rất hữu ích cho người mới bắt đầu phân tích dữ liệu.


6. nhà ở Boston

Bộ dữ liệu Nhà ở Boston bao gồm thông tin về nhà ở trong khu vực Boston, Massachusetts. Nó có khoảng 506 hàng và 14 cột dữ liệu.


Một số biến trong tập dữ liệu bao gồm:


  • TỘI PHẠM - Tỷ lệ tội phạm bình quân đầu người theo thị trấn.
  • ZN - Tỷ lệ đất ở được quy hoạch cho các lô trên 25.000 bộ vuông.
  • INDUS - Tỷ lệ mẫu đất kinh doanh phi bán lẻ trên mỗi thị trấn.
  • CHAS - Biến giả sông Charles (= 1 nếu đường giáp sông; 0 nếu ngược lại).
  • NOX - Nồng độ oxit nitric (phần trên 10 triệu).
  • RM - Số phòng trung bình trên một căn nhà.
  • TUỔI - Tỷ lệ các đơn vị sở hữu chủ sở hữu được xây dựng trước năm 1940.
  • DIS - Khoảng cách có trọng số đến năm trung tâm việc làm ở Boston.
  • RAD - Chỉ số khả năng tiếp cận các đường cao tốc xuyên tâm.
  • THUẾ - Thuế suất bất động sản toàn giá trị cho mỗi $10.000.
  • PTRATIO - Tỷ lệ học sinh-giáo viên theo thị trấn.
  • B - 1000(Bk - 0,63)^2 trong đó -Bk là tỷ lệ người da đen theo thị trấn.
  • LSTAT - Tỷ lệ phần trăm địa vị thấp hơn của dân số.
  • MEDV - Giá trị trung bình của những ngôi nhà do chủ sở hữu cư ngụ tính bằng $1000.


Bộ dữ liệu này có thể được sử dụng trong phân tích dữ liệu để phân tích mối quan hệ giữa các đặc điểm khác nhau của giá nhà và thị trường nhà ở, thực hiện phân tích dữ liệu và tạo thông tin chuyên sâu.

7. Ung thư vú Bộ dữ liệu Wisconsin

Bộ dữ liệu Excel này bao gồm thông tin về các khối u ung thư vú và ban đầu được tạo bởi Tiến sĩ William H. Wolberg. Bộ dữ liệu được tạo ra để hỗ trợ các nhà nghiên cứu và học viên máy học phân loại khối u thành ác tính (ung thư) hoặc lành tính (không ung thư).


Một số biến có trong tập dữ liệu này:


  • số ID
  • Chẩn đoán (M = ác tính, B = lành tính).
  • Bán kính (giá trị trung bình của khoảng cách từ tâm đến các điểm trên chu vi).
  • Kết cấu (độ lệch chuẩn của các giá trị thang độ xám).
  • Chu vi
  • Khu vực
  • Độ nhẵn (sự thay đổi cục bộ về độ dài bán kính).
  • Độ gọn (chu vi^2 / diện tích - 1,0).
  • Độ lõm (mức độ nghiêm trọng của các phần lõm của đường viền).
  • Điểm lõm (số phần lõm của đường viền).
  • Đối diện
  • Kích thước Fractal ("xấp xỉ đường bờ biển" - 1).

số 8. Ý định mua hàng của người mua sắm trực tuyến

Bộ dữ liệu Ý định mua hàng của người mua sắm trực tuyến là tập hợp dữ liệu liên quan đến các kiểu mua hàng và hành vi của người tiêu dùng trong bối cảnh mua sắm trực tuyến. Nó được tạo ra bằng cách tiến hành khảo sát người mua sắm trực tuyến và thu thập dữ liệu từ phản hồi của họ.


Một số biến trong tập dữ liệu này bao gồm:


  • Quản trị - Số trang của trang web được người dùng truy cập cho mục đích quản trị
  • Thời lượng quản trị - Tổng thời gian người dùng dành cho các trang quản trị của trang web
  • Thông tin - Số trang của trang web được người dùng truy cập cho mục đích thông tin
  • Informational_Duration - Tổng thời gian người dùng dành cho các trang thông tin của trang web
  • Liên quan đến sản phẩm - Số trang của trang web được người dùng truy cập cho các mục đích liên quan đến sản phẩm
  • ProductRelated_Duration - Tổng thời gian người dùng dành cho các trang liên quan đến sản phẩm của trang web
  • BounceRates - Tỷ lệ khách truy cập vào trang web và rời đi mà không xem bất kỳ trang nào khác
  • ExitRates - Tỷ lệ khách truy cập thoát khỏi trang web từ một trang cụ thể sau khi truy cập trang đó
  • PageValues - Giá trị trung bình của các trang được người dùng xem trước khi giao dịch
  • Ngày đặc biệt - Khoảng cách của chuyến thăm với một ngày đặc biệt (ví dụ: Ngày của Mẹ, Ngày Valentine, v.v.)


Bộ dữ liệu Excel này được sử dụng trong nghiên cứu và phân tích liên quan đến thương mại điện tử và tiếp thị trực tuyến. Nó có thể giúp doanh nghiệp hiểu các yếu tố thúc đẩy hành vi của khách hàng và cũng hữu ích cho người mới bắt đầu phân tích dữ liệu.

9. Tiếp thị ngân hàng

Tập dữ liệu phổ biến này là để nghiên cứu các chiến dịch tiếp thị cho một tổ chức ngân hàng Bồ Đào Nha. Nó chứa thông tin về các chiến dịch tiếp thị của ngân hàng, cũng như nhân khẩu học của khách hàng và các chỉ số kinh tế.


Một số biến có trong tập dữ liệu này:


  • Tuổi - Tuổi của khách hàng (số)
  • Công việc - Loại công việc
  • Hôn nhân - Tình trạng hôn nhân
  • Học vấn - Trình độ học vấn
  • Mặc định - Có tín dụng mặc định?
  • Số dư - Số dư trung bình hàng năm, tính bằng euro.
  • Nhà ở - Có một khoản vay nhà ở?
  • Cho vay - Có một khoản vay cá nhân?
  • Liên hệ - Loại liên lạc liên lạc.
  • Ngày - Ngày trong tháng được liên hệ.
  • Biến đầu ra biểu thị việc khách hàng có đăng ký gửi tiền có kỳ hạn hay không sau khi được ngân hàng liên hệ.

10. giá bơ

Bộ dữ liệu Giá bơ bao gồm dữ liệu liên quan đến giá bơ ở Hoa Kỳ. Dữ liệu được thu thập từ nhiều nguồn khác nhau như Hass Avocado Board và Bộ Nông nghiệp Hoa Kỳ (USDA).


Một số biến trong bộ dữ liệu này bao gồm:


  • Ngày - Ngày quan sát.
  • Giá trung bình - Giá trung bình của một quả bơ.
  • Total Volume - Tổng số bơ đã bán.
  • Mã PLU (Tra cứu giá) - Mã dùng để xác định một loại bơ cụ thể.
  • Loại - Thông thường hoặc hữu cơ
  • Vùng - Thành phố hoặc khu vực quan sát.


Nó cũng có thể được các doanh nghiệp trong ngành thực phẩm sử dụng để đưa ra các quyết định chiến lược về việc mua và bán bơ.

11. Top 50 Sách Bán Chạy Nhất Amazon 2009 - 2019

Tập dữ liệu Excel này là tập hợp dữ liệu liên quan đến 50 cuốn sách bán chạy nhất trên Amazon cho mỗi năm từ 2009 đến 2019.


Bộ dữ liệu bao gồm các biến sau:


  • Tên - Tên sách.
  • Tác giả - Tên tác giả của cuốn sách.
  • Xếp hạng của người dùng - Xếp hạng trung bình của sách do người dùng Amazon cung cấp.
  • Đánh giá - Tổng số đánh giá mà cuốn sách đã nhận được trên Amazon.
  • Giá - Giá của cuốn sách bằng đô la Mỹ.
  • Năm - Năm cuốn sách được xuất bản.
  • Thể loại - Thể loại của cuốn sách.


Top 50 cuốn sách bán chạy nhất của Amazon có thể được sử dụng để khám phá các xu hướng bán sách trên Amazon trong hơn một thập kỷ và rất hữu ích cho những người mới bắt đầu phân tích dữ liệu.


12. giải vô địch bóng đá thế giới

Bộ dữ liệu FIFA World Cup là tập hợp dữ liệu liên quan đến FIFA World Cup được tổ chức bốn năm một lần. Nó chứa thông tin về mọi giải đấu World Cup từ 1930 đến 2014.


Một số biến trong bộ dữ liệu này bao gồm:


  • Year - Năm diễn ra giải đấu.
  • Quốc gia - Nước chủ nhà của giải đấu.
  • Người chiến thắng - Đội vô địch giải đấu.
  • Á quân - Đội kết thúc với vị trí á quân.
  • Hạng ba - Đội về đích ở vị trí thứ ba.
  • Thứ tư - Đội kết thúc ở vị trí thứ tư.
  • GoalsScored - Tổng số bàn thắng ghi được trong giải đấu.
  • Đội đủ điều kiện - Tổng số đội đủ điều kiện tham gia giải đấu.
  • Tham dự - Tổng số khán giả đã tham dự các trận đấu.


Bộ dữ liệu có thể được sử dụng để phân tích các xu hướng của World Cup theo thời gian, chẳng hạn như thay đổi về số đội tham gia hoặc số bàn thắng ghi được.

13. Dữ liệu mở Airbnb của Thành phố New York

Tập dữ liệu excel này bao gồm thông tin công khai về danh sách và số liệu của Airbnb ở Thành phố New York. Dữ liệu mở Airbnb của Thành phố New York năm 2019 bao gồm thông tin về khoảng 50.000 danh sách Airbnb trong thành phố và được chính quyền Thành phố New York cung cấp cho công chúng để thúc đẩy tính minh bạch và hiểu biết về tác động của việc cho thuê đối với thành phố.


Một số biến trong tập dữ liệu bao gồm:


  • Id - Mã định danh duy nhất cho mỗi nhà/phòng cho thuê Airbnb.
  • Tên - Tên của danh sách Airbnb.
  • Host_id - Mã định danh duy nhất cho chủ nhà Airbnb.
  • Host_name - Tên của chủ nhà Airbnb.
  • Neighborhood_group - Quận của danh sách Airbnb.
  • Vùng lân cận - Vùng lân cận của danh sách Airbnb.
  • Vĩ độ - Vĩ độ của danh sách Airbnb.
  • Kinh độ - Kinh độ của danh sách Airbnb.
  • Room_type - Loại phòng cho thuê (ví dụ: phòng riêng, nguyên căn/căn hộ, phòng chung).
  • Giá - Giá hàng đêm để thuê danh sách Airbnb.

14. Báo cáo Hạnh phúc Thế giới

Bộ dữ liệu này bao gồm thông tin về mức độ hạnh phúc của hơn 150 quốc gia, chẳng hạn như các yếu tố kinh tế, xã hội và sức khỏe góp phần tạo nên hạnh phúc. Nó rất hữu ích cho những người mới bắt đầu phân tích dữ liệu để thực hành khám phá dữ liệu, trực quan hóa và phân tích hồi quy.


Một số biến trong tập dữ liệu này bao gồm:


  • Tên nước - Tên nước.
  • Năm - Năm khảo sát.
  • Thang cuộc sống - Điểm hài lòng cuộc sống trung bình dựa trên thang điểm từ 0-10.
  • Log GDP bình quân đầu người - Logarit tự nhiên của GDP bình quân đầu người, được điều chỉnh theo sức mua tương đương (PPP) bằng đô la quốc tế không đổi năm 2017.
  • Tuổi thọ khỏe mạnh khi sinh - Số năm dự kiến được sống trong tình trạng sức khỏe đầy đủ, được điều chỉnh cho số năm sống trong tình trạng sức khỏe kém.

15. Giá cổ phiếu

Bộ dữ liệu này bao gồm giá cổ phiếu hàng ngày của các công ty khác nhau, chẳng hạn như Apple, Google và Amazon. Nó rất hữu ích cho việc thực hành phân tích chuỗi thời gian và dự đoán giá cổ phiếu trong tương lai.


Các biến trong tập dữ liệu này:


  • Ngày - Ngày ghi giá cổ phiếu.
  • Open - Giá mở cửa của cổ phiếu.
  • Cao - Giá cao nhất của cổ phiếu trong ngày giao dịch.
  • Thấp - Giá thấp nhất của cổ phiếu trong ngày giao dịch.
  • Đóng - Giá đóng cửa của cổ phiếu.
  • Adj Close - Giá đóng cửa đã điều chỉnh của cổ phiếu.
  • Khối lượng - Số lượng cổ phiếu được giao dịch trong ngày.


Các câu hỏi thực hành phổ biến cho các bộ dữ liệu Excel này

Bán hàng siêu thị

  • Tổng doanh thu do cửa hàng tạo ra là bao nhiêu?
  • Danh mục sản phẩm nào đóng góp nhiều nhất vào doanh số bán hàng?
  • Xu hướng bán hàng trong năm qua như thế nào?
  • Khu vực nào có doanh số cao nhất và khu vực nào có doanh số thấp nhất?
  • Tỷ suất lợi nhuận trung bình của cửa hàng là bao nhiêu?

diên vĩ

  • Sự phân bố của từng loài iris trong bộ dữ liệu là gì?
  • Mối tương quan giữa chiều dài cánh hoa và chiều rộng cánh hoa là gì?
  • Chiều dài lá đài trung bình của mỗi loài mống mắt là bao nhiêu?
  • Loài diên vĩ nào có diện tích cánh hoa lớn nhất?
  • Có bao nhiêu quan sát cho mỗi loài iris?

Titanic

  • Tỷ lệ sống sót của hành khách là gì?
  • Độ tuổi trung bình của hành khách là bao nhiêu?
  • Tỷ lệ hành khách nam và nữ là bao nhiêu?
  • Hạng hành khách nào có tỷ lệ sống sót cao nhất?
  • Sự phân phối giá vé được trả bởi các hành khách là gì?

Chất lượng rượu

  • Mối tương quan giữa độ pH và nồng độ cồn là gì?
  • Loại rượu vang nào (đỏ hoặc trắng) có chất lượng trung bình cao hơn?
  • Độ axit dễ bay hơi trung bình cho mỗi loại rượu vang là gì?
  • Tỷ lệ của từng loại rượu trong tập dữ liệu là bao nhiêu?
  • Sự phân bố axit xitric cho mỗi loại rượu là gì?

Thu nhập điều tra dân số người lớn

  • Tỷ lệ những người kiếm được hơn 50 nghìn đô la là bao nhiêu?
  • Độ tuổi trung bình của những người kiếm được hơn 50 nghìn đô la là bao nhiêu?
  • Mối tương quan giữa tuổi tác và trình độ học vấn là gì?
  • Tỷ lệ đàn ông và phụ nữ kiếm được hơn 50 nghìn đô la là bao nhiêu?
  • Số giờ làm việc trung bình mỗi tuần đối với những người kiếm được hơn 50 nghìn đô la là bao nhiêu?

nhà ở Boston

  • Mối tương quan giữa số phòng và giá trị trung bình của những ngôi nhà có chủ sở hữu là gì?
  • Biến nào có mối tương quan cao nhất với giá trị trung bình của những ngôi nhà có chủ sở hữu?
  • Tuổi trung bình của các ngôi nhà là bao nhiêu?
  • Sự phân bố tỷ lệ học sinh-giáo viên theo thị trấn là gì?
  • Thị trấn nào có giá trị trung bình cao nhất của chủ sở hữu nhà ở?

Ung thư vú Bộ dữ liệu Wisconsin

  • Tỷ lệ khối u lành tính và ác tính là bao nhiêu?
  • Mối tương quan giữa bán kính khối u và chu vi là gì?
  • Độ mịn trung bình của các khối u là gì?
  • Sự phân bố của độ lõm của các khối u là gì?
  • Khu vực trung bình của các khối u là gì?

Ý định mua hàng của người mua sắm trực tuyến

  • Tỷ lệ khách truy cập đã mua hàng là bao nhiêu?
  • Phân phối số lượng trang được truy cập bởi khách truy cập là gì?
  • Thời gian trung bình dành cho trang web của khách truy cập là gì?
  • Mối tương quan giữa tỷ lệ thoát và doanh thu là gì?
  • Sự phân phối của hệ điều hành được sử dụng bởi khách truy cập là gì?

Tiếp thị ngân hàng

  • Tỷ lệ người đăng ký tiền gửi có kỳ hạn là bao nhiêu?
  • Mối tương quan giữa tuổi tác và sự cân bằng là gì?
  • Sự phân bố loại công việc của khách hàng là gì?
  • Thời lượng trung bình của các cuộc gọi là gì?
  • Tỷ lệ các cuộc gọi được thực hiện mỗi tháng là bao nhiêu?

Top 50 Sách Bán Chạy Nhất Amazon 2009 – 2019

  • Xếp hạng trung bình của các cuốn sách là gì?
  • Phân phối số lượng bài đánh giá mà các cuốn sách nhận được là gì?
  • Cuốn sách nào có giá cao nhất?
  • Mối tương quan giữa xếp hạng và giá sách là gì?
  • Sự phân bố của các thể loại sách là gì?

giải vô địch bóng đá thế giới

  • Số bàn thắng trung bình ghi được mỗi trận là bao nhiêu?
  • Tỷ lệ các trận đấu kết thúc với tỷ số hòa là bao nhiêu?
  • Quốc gia nào giành được nhiều danh hiệu World Cup nhất?
  • Độ tuổi trung bình của các cầu thủ trong giải đấu là bao nhiêu?
  • Sự phân phối tham dự cho mỗi trò chơi là gì?

Dữ liệu mở Airbnb của Thành phố New York

  • Giá trung bình của danh sách là gì?
  • Phân phối các loại phòng có sẵn cho danh sách là gì?
  • Khu phố nào có nhiều danh sách nhất?
  • Mối tương quan giữa số lượng đánh giá và giá của danh sách là gì?
  • Việc phân bổ các chính sách hủy bỏ cho danh sách là gì?

Báo cáo Hạnh phúc Thế giới

  • Phân phối điểm hạnh phúc cho mỗi quốc gia là gì?
  • Quốc gia nào có điểm số hạnh phúc cao nhất?
  • Mối tương quan giữa GDP bình quân đầu người và điểm số hạnh phúc là gì?
  • Sự phân bố của các yếu tố góp phần tạo nên hạnh phúc là gì?
  • Khu vực nào trên thế giới có điểm hạnh phúc trung bình cao nhất?

Giá cổ phiếu

  • Lợi nhuận trung bình hàng ngày của cổ phiếu là gì?
  • Phân phối khối lượng giao dịch hàng ngày là gì? giá bơ
  • Giá bơ trung bình là bao nhiêu?
  • Phân phối giá trung bình theo khu vực là gì?
  • Khu vực nào có mức giá trung bình cao nhất và thấp nhất?
  • Mối tương quan giữa tổng khối lượng và giá trung bình là gì?
  • Sự phân phối của tổng khối lượng theo năm là gì?

Suy nghĩ cuối cùng

Excel cung cấp nhiều công cụ dành cho người mới bắt đầu phân tích dữ liệu và bạn có thể cải thiện kỹ năng của mình bằng cách sử dụng bộ dữ liệu Excel được liệt kê trong bài viết này.


Bạn cũng có thể tạo nhiều loại trực quan hóa khác nhau như biểu đồ đường, biểu đồ thanh, biểu đồ phân tán, biểu đồ và biểu đồ hình tròn để trả lời các câu hỏi trên.


Hình ảnh chính của bài viết này được tạo thông qua mô hìnhKhuếch tán ổn định AI của HackerNoon bằng cách sử dụng lời nhắc 'Bộ dữ liệu Excel'.


Danh sách tập dữ liệu khác:

  1. Bộ dữ liệu Tableau
  2. Bộ dữ liệu Power BI
  3. Bộ dữ liệu máy ảnh


L O A D I N G
. . . comments & more!

About Author

Open Datasets Compiled by HackerNoon HackerNoon profile picture
Open Datasets Compiled by HackerNoon@datasets
A library of open datasets for data analytics/machine learning compiled by HackerNoon.

chuyên mục

BÀI VIẾT NÀY CŨNG CÓ MẶT TẠI...