Excel はデータ分析に不可欠なツールであり、適切なデータセットとテクニックを使用すれば、初心者でも洞察を明らかにし、情報に基づいた意思決定を行うことができます。その直感的なインターフェースと強力な機能により、ユーザーはデータ操作、データの視覚化、統計分析などの幅広いプロセスを実行できます。
「Excel データセット」とは
Excel データセットは、Excel スプレッドシートに保存および整理されたデータのコレクションです。Excel スプレッドシートは、ユーザーが構造化された形式でデータを作成、操作、および分析できるようにする一般的に使用されるソフトウェアです。これらのデータセットには、Excel (.xlsx) とカンマ区切り値 (CSV) の 2 つの主な形式があります。 Excel 形式は、数式や視覚化の使用など、複雑なデータを整理および分析するためのより高度な機能を提供します。一方、CSV は、幅広いソフトウェア アプリケーションと互換性のある単純な形式を提供し、共有を容易にします。異なるプログラム間のデータ。
この記事では、データ分析初心者向けの 15 個の Excel データセットのリストをまとめました。財務分析、市場分析、時系列分析などのトピックをカバーするこれらの Excel データセットを使用すると、初心者でもデータ クリーニング、ピボット テーブル、グラフなどのデータ分析手法を実践しながら、現実世界のシナリオに関する洞察を得ることができます。
データ分析初心者向けExcelデータセット一覧
- スーパーストアの販売
- 虹彩
- タイタニック
- ワインの品質
- 成人国勢調査収入
- ボストン ハウジング
- 乳癌ウィスコンシン データセット
- オンラインショッパーの購入意向
- 銀行のマーケティング
- アボカド価格
- Amazon トップ 50 ベストセラー本 2009 – 2019
- FIFAワールドカップ
- ニューヨーク市 Airbnb オープンデータ
- 世界幸福度レポート
- 株価
1. スーパーストアの販売
Superstore Sales データは、製品、注文、および顧客に関する情報を含む、架空の小売会社の売上データを提供します。データ分析の練習によく使用されます。
この Excel データセットには、次の変数が含まれています。
- 注文 ID - 各注文の一意の識別子。
- 顧客 ID - 各顧客の一意の識別子。
- 注文日 - 注文日。
- 出荷日 - 注文が出荷された日付。
- 出荷モード - 注文の出荷モード (標準、同日など)。
- セグメント - 顧客セグメント (消費者、企業、ホーム オフィスなど)。
- 地域 - 顧客が所在する地域 (西部、中部、東部など)。
- カテゴリ - 購入した製品のカテゴリ (家具、テクノロジー、事務用品など)。
- サブカテゴリ - 購入した製品のサブカテゴリ (椅子、デスクトップ、紙など)。
- 製品名 - 購入した製品の名前。
- 売上 - 購入した製品の売上。
- 数量 - 購入した製品の単位数。
- 割引 - 購入した製品に適用される割引。
- 利益 - 購入した製品によって生み出される利益。
2. 虹彩
このデータセットには、setosa、versicolor、virginica の 3 つの異なる種に属する 150 個のアヤメの花のがく片の長さ、がく片の幅、花弁の長さ、および花弁の幅の測定値が含まれています。アイリス データセットには 150 行と 5 列があり、各花の種の列を含むデータ フレームとして格納されます。
その変数の説明は次のとおりです。
- Sepal.Length - sepal.length はがく片の長さをセンチメートル単位で表します。
- Sepal.Width - sepal.width は、がく片の幅をセンチメートル単位で表します。
- Petal.Length - petal.length は、花びらの長さをセンチメートル単位で表します。
- Species - 種変数は、アヤメの花の種を表し、可能な値は setosa、versicolor、virginica の 3 つです。
Excel でのアイリス データセットの使用例の 1 つは、アイリスの花のさまざまな特徴間の関係を分析し、特徴値に基づいて花の種を分類することです。これは、相関分析、推論統計、予測モデリングなどの手法を使用して行うことができます。
をクリックして、Kaggle でこの Excel データセットをダウンロードすることもできます。
3. タイタニック
この人気のあるオープンソース データセットは、1912 年 4 月 15 日に沈没したタイタニック号の乗客に関する情報を提供します。データのクリーニングと前処理、記述統計、データの視覚化、予測モデリングに関心のあるデータ分析の初心者が使用できます。
データセットに含まれる変数の一部:
- PassengerId - 各乗客の一意の識別子。
- 生存 - 乗客が生存したかどうかを示します (0 = いいえ、1 = はい)。
- Pclass - 乗客のクラス (1 = 1 番目、2 = 2 番目、3 = 3 番目)。
- 名前 - 乗客の名前。
- 性別 - 乗客の性別。
- 年齢 - 乗客の年齢。
- SibSp - 同乗している兄弟/配偶者の数。
- Parch - 乗船している親子の数。
- チケット - チケット番号。
- 運賃 - 航空券に支払われた運賃。
- キャビン - キャビン番号。
- 乗船 - 乗船港 (C = シェルブール、Q = クイーンズタウン、S = サウサンプトン)。
4.ワインの品質
Wine Quality データセットには、赤ワインと白ワインのサンプルに関する情報が含まれています。このデータセットは、pH、密度、アルコール含有量、クエン酸含有量などの化学的特性に基づいてワインの品質を分類することを目的としています。
この Excel データセットに含まれる一般的な変数:
- 固定酸度 - g/dm^3 で表されるワインの固定酸の数。
- 揮発性酸度 - ワイン中の揮発性酸の数で、g/dm^3 で表されます。
- クエン酸 - ワイン中のクエン酸の量で、g/dm^3 で表されます。
- 残糖 - g/dm^3 で表されるワインの残糖の量
- 塩化物 - g/dm^3 で表される、ワイン中の塩化物の量。
- 遊離二酸化硫黄 - ワイン中の遊離二酸化硫黄の量で、mg/dm^3 で表されます。
- 総二酸化硫黄 - ワイン中の総二酸化硫黄の量で、mg/dm^3 で表されます。
- 密度 - g/cm^3 で表されるワインの密度。
- pH - ワインの pH レベル。
- 硫酸塩 - ワイン中の硫酸塩の数で、g/dm^3 で表されます。
- アルコール - ワインのアルコール含有量で、% vol で表されます。
- 品質 - 0 から 10 のスケールでのワインの品質評価。
5. 成人国勢調査収入
この Excel データセットは、1994 年の国勢調査データベースから抽出された、米国に住む個人に関する情報のコレクションです。これには、各個人に関するさまざまな人口統計学的、社会的、経済的属性が含まれています。
このデータセットに含まれる属性の一部:
年
ワーククラス - 私立、非営利の自営業者、株式会社自営業者、連邦政府、地方政府、州政府、無給、無職。
fnlwgt
学歴 - 学士号、一部の大学、11 番目、HS 卒業生、専門学校、Assoc-acdm、Assoc-voc、9 番目、7 番目から 8 番目、12 番目、修士号、1 番目から 4 番目、10 番目、博士号、5 番目から 6 番目、幼稚園。
教育番号
婚姻状況 - 既婚市民配偶者、離婚、未婚、別居、未亡人、既婚配偶者不在、既婚 AF 配偶者。
職業 - 技術サポート、クラフト修理、その他のサービス、販売、エグゼクティブ マネージャー、専門教授、ハンドラー クリーナー、マシン オペレーション インスペクト、アドム事務、農業漁業、輸送移動、プライベート ハウスサーブ、保護サーブ、軍隊。
関係 - 妻、実子、夫、家族以外、その他の親戚、未婚。
人種 - 白人、アジア太平洋諸島人、アメリカ インド人エスキモー、その他、黒人。
性別 - 男性または女性。
「収入」属性はターゲット変数であり、データセットはデータ分析の初心者にとって非常に役立ちます。
6. ボストン ハウジング
ボストン住宅データセットは、マサチューセッツ州ボストン地域の住宅に関する情報で構成されています。約 506 行と 14 列のデータがあります。
データセット内の変数には次のものがあります。
- CRIM - 町ごとの一人当たりの犯罪率。
- ZN - 25,000 平方フィートを超える区画に区画された住宅地の割合。
- INDUS - 町ごとの非小売業エーカーの割合。
- CHAS - チャールズ リバーのダミー変数 (トラクトが川に接している場合は = 1、それ以外の場合は 0)。
- NOX - 一酸化窒素濃度 (1000 万分の 1)。
- RM - 住居あたりの平均部屋数。
- AGE - 1940 年以前に建てられた個人所有のユニットの割合。
- DIS - ボストンの 5 つの雇用センターまでの加重距離。
- RAD - 放射状高速道路へのアクセシビリティのインデックス。
- TAX - $10,000 あたりの固定資産税の全額。
- PTRATIO - 町ごとの生徒と教師の比率。
- B - 1000(Bk - 0.63)^2 ここで、-Bk は町ごとの黒人の割合です。
- LSTAT - 母集団の低いステータスのパーセンテージ。
- MEDV - 1,000 ドル単位の持ち家住宅の中央値。
このデータセットをデータ分析に利用して、住宅価格のさまざまな特徴と住宅市場との関係を分析し、データ分析を実行して洞察を得ることができます。
7。 乳癌ウィスコンシン データセット
この Excel データセットは、乳がんの腫瘍に関する情報で構成されており、ウィリアム H. ウォルバーグ博士によって最初に作成されました。このデータセットは、研究者や機械学習の専門家が腫瘍を悪性 (癌性) または良性 (非癌性) に分類するのを支援するために作成されました。
このデータセットに含まれる変数の一部:
- ID番号
- 診断 (M = 悪性、B = 良性)。
- 半径 (中心から周囲の点までの距離の平均)。
- テクスチャ (グレースケール値の標準偏差)。
- 周長
- エリア
- 滑らかさ (半径の長さの局所的な変化)。
- コンパクトさ (周囲^2 / 面積 - 1.0)。
- 凹み (輪郭の凹み部分の程度)。
- 凹点(輪郭の凹みの数)。
- 対称
- フラクタル次元 (「海岸線近似」 - 1)。
8. オンラインショッパーの購入意向
オンライン ショッパーの購買意向データセットは、オンライン ショッピングのコンテキストにおける購入パターンと消費者行動に関連するデータのコレクションです。これは、オンラインの買い物客を対象に調査を実施し、その回答からデータを収集することによって作成されました。
このデータセットの変数には次のものがあります。
- 管理 - ユーザーが管理目的で訪問したウェブサイトのページ数
- Administrative_Duration - Web サイトの管理ページでユーザーが費やした合計時間
- 情報 - ユーザーが情報目的で訪問した Web サイトのページ数
- Informational_Duration - ユーザーが Web サイトの情報ページに費やした合計時間
- ProductRelated - ユーザーが製品関連の目的で訪問した Web サイトのページ数
- ProductRelated_Duration - Web サイトの製品関連ページでユーザーが費やした合計時間
- BounceRates - Web サイトにアクセスし、他のページを表示せずに離脱した訪問者の割合
- ExitRates - 特定のページにアクセスした後、そのページを離れた訪問者の割合
- PageValues - トランザクション前にユーザーが閲覧したページの平均値
- SpecialDay - 特別な日 (例: 母の日、バレンタインデーなど) への訪問の近さ。
この Excel データセットは、e コマースとオンライン マーケティングに関連する調査と分析に使用されます。企業が顧客の行動を促進する要因を理解するのに役立ち、データ分析の初心者にも役立ちます。
9. 銀行のマーケティング
この人気のあるデータセットは、ポルトガルの銀行機関のマーケティング キャンペーンを研究するためのものです。これには、銀行のマーケティング キャンペーンのほか、顧客の人口統計や経済指標に関する情報が含まれています。
このデータセットに含まれる変数の一部:
- 年齢 - 顧客の年齢 (数値)
- ジョブ - ジョブのタイプ
- 婚姻 - 婚姻状況
- 教育 - 教育レベル
- デフォルト - デフォルトでクレジットはありますか?
- 残高 - 年間の平均残高 (ユーロ)。
- 住宅 - 住宅ローンはありますか?
- ローン - 個人ローンはありますか?
- 連絡先 - 連絡先の通信タイプ。
- 日 - 連絡した月の日。
- 出力変数は、顧客が銀行から連絡を受けた後、定期預金を申し込んだかどうかを示します。
10. アボカド価格
Avocado Prices データセットは、米国におけるアボカドの価格に関連するデータで構成されています。データは、Hass Avocado Board や米国農務省 (USDA) などのさまざまなソースから収集されます。
このデータセットの変数には次のものがあります。
- 日付 - 観察日。
- AveragePrice - 1 つのアボカドの平均価格。
- 総量 - 販売されたアボカドの総数。
- PLU (Price Look-Up) コード - 特定の種類のアボカドを識別するために使用されるコード。
- タイプ - 従来または有機
- 地域 - 観測の都市または地域。
また、食品業界の企業がアボカドの売買に関する戦略的決定を下すためにも使用できます。
11. Amazon トップ 50 ベストセラー ブック 2009 - 2019
この Excel データセットは、2009 年から 2019 年までの各年の Amazon でのベストセラー本トップ 50 に関連するデータのコレクションです。
データセットには次の変数が含まれます。
- 名前 - 本のタイトル。
- 著者 - 書籍の著者の名前。
- ユーザー評価 - Amazon ユーザーが提供する書籍の平均評価。
- レビュー - 本が Amazon で受け取ったレビューの総数。
- 価格 - 米ドルでの書籍の価格。
- 年 - 本が出版された年。
- ジャンル - 本のジャンル。
Amazon Top 50 Bestselling Books は、10 年以上にわたる Amazon での書籍販売の傾向を調査するために使用でき、データ分析の初心者に役立ちます。
12. FIFAワールドカップ
FIFA ワールド カップ データセットは、4 年ごとに開催される FIFA ワールド カップに関するデータのコレクションです。 1930 年から 2014 年までのすべてのワールドカップ トーナメントに関する情報が含まれています。
このデータセットの変数には次のものがあります。
- 年 - トーナメントの年。
- 国 - トーナメントの開催国。
- 勝者 - トーナメントで優勝したチーム。
- 準優勝 - 準優勝したチーム。
- 3 位 - 3 位で終了したチーム。
- Fourth - 4 位で終了したチーム。
- GoalsScored - トーナメントで得点した合計ゴール数。
- QualifiedTeams - トーナメントに出場したチームの総数。
- 出席 - 試合に参加した観客の総数。
データセットは、参加チーム数や得点数の変化など、時間の経過に伴うワールド カップの傾向を分析するために使用できます。
13. ニューヨーク市 Airbnb オープンデータ
この Excel データセットは、ニューヨーク市の Airbnb のリスティングと指標に関する公開情報で構成されています。 2019年ニューヨーク市Airbnbオープンデータには、市内の約50,000件のAirbnbリスティングに関する情報が含まれており、賃貸物件が市に与える影響の透明性と理解を促進するために、ニューヨーク市政府によって一般に公開されています。
データセット内の変数には次のものがあります。
- Id - 各 Airbnb リスティングの一意の識別子。
- 名前 - Airbnb リスティングの名前。
- Host_id - Airbnb ホストの一意の識別子。
- Host_name - Airbnb ホストの名前。
- Neighbourhood_group - Airbnb リスティングの区。
- 近所 - Airbnbのリストの近所。
- Latitude - Airbnb リスティングの緯度。
- 経度 - Airbnb リスティングの経度。
- Room_type - 賃貸可能な部屋のタイプ (例: 個室、家全体/アパート、シェアルーム)。
- 価格 - Airbnb のリストを借りるための 1 泊あたりの価格。
14. 世界幸福度レポート
このデータセットには、幸福に寄与する経済的、社会的、健康的要因など、150 を超える国の幸福度に関する情報が含まれています。データ分析の初心者にとって、データの探索、視覚化、および回帰分析を実践するのに役立ちます。
このデータセットの変数には次のものがあります。
- 国名 - 国名。
- 年 - 調査の年。
- Life Ladder - 0 ~ 10 のスケールに基づく平均生活満足度スコア。
- 1 人あたりの対数 GDP - 1 人あたりの GDP の自然対数。購買力平価 (PPP) で調整され、2017 年の一定の国際ドルで表示されます。
- 出生時の健康寿命 - 健康状態が悪い状態で過ごした年数を調整した、完全に健康な状態で生きられると予想される年数。
15. 株価
このデータセットには、Apple、Google、Amazon など、さまざまな企業の毎日の株価が含まれています。時系列分析の練習や将来の株価の予測に役立ちます。
このデータセットの変数:
- 日付 - 株価が記録された日付。
- 始値 - 株式の始値。
- 高値 - 取引日の最高値。
- 安値 - 取引日の最低価格。
- 終値 - 株式の終値。
- Adj Close - 株式の調整された終値。
- 出来高 - 1 日に取引された株式数。
これらの Excel データセットに関する一般的な練習問題
スーパーストアの販売
- 店舗が生み出した総収入はいくらですか?
- 売上に最も貢献している製品カテゴリはどれですか?
- 昨年の販売動向は?
- 売上が最も高く、最も低い地域は?
- 店舗の平均利益率はいくらですか?
虹彩
- データセット内のアヤメの各種の分布は?
- 花弁の長さと花弁の幅の相関関係は何ですか?
- アヤメの各種の平均がく片の長さは?
- 花弁の面積が最も大きいアヤメの種類は?
- アヤメの種類ごとにいくつの観測がありますか?
タイタニック
- 乗客の生存率は?
- 乗客の平均年齢は?
- 乗客の男女比率は?
- 生存率が最も高かったのはどのクラスの乗客ですか?
- 乗客が支払った運賃の配分はどうなっていますか?
ワインの品質
- pHとアルコール度数の相関関係は?
- 品質評価の中央値が高いのは、どちらの種類のワイン (赤または白) ですか?
- ワインの種類ごとの揮発性酸度の中央値は?
- データセット内の各ワイン タイプの割合は?
- ワインの種類ごとのクエン酸の分布は?
成人国勢調査収入
- 年収500万以上の人の割合は?
- 年収500万以上の人の平均年齢は?
- 年齢と学歴の関係は?
- 年収500万以上の男女の割合は?
- 50,000ドル以上稼いでいる人の週あたりの労働時間の中央値は?
ボストン ハウジング
- 部屋数と持ち家の中央値の相関関係は?
- 持ち家住宅の中央値と最も高い相関を持つ変数は?
- 住宅の平均築年数は?
- 町ごとの生徒と教師の比率の分布は?
- 持ち家の平均値が最も高いのはどの町ですか?
乳癌ウィスコンシン データセット
- 良性腫瘍と悪性腫瘍の割合はどれくらいですか?
- 腫瘍の半径と周長の相関関係は何ですか?
- 腫瘍の平均平滑度は?
- 腫瘍の凹面の分布は?
- 腫瘍の中央値はどれくらいですか?
オンラインショッパーの購入意向
- 購入した訪問者の割合は?
- 訪問者が訪問したページ数の分布は?
- 訪問者が Web サイトに費やした平均時間は?
- 直帰率と収益の相関関係は?
- 訪問者が使用するオペレーティング システムのディストリビューションは何ですか?
銀行のマーケティング
- 定期預金に加入している人の割合は?
- 年齢とバランスの関係は?
- 顧客の職種の分布は?
- 通話時間の平均は?
- 毎月の電話の割合は?
Amazon トップ 50 ベストセラー本 2009 – 2019
- 本の平均評価は?
- 書籍が受け取ったレビュー数の分布は?
- 一番値段が高いのはどの本?
- 書籍の評価と価格の相関関係は?
- 本のジャンルの分布は?
FIFAワールドカップ
- 1試合あたりの平均ゴール数は?
- 引き分けに終わったゲームの割合は?
- ワールドカップのタイトルを最も多く獲得した国は?
- 大会に出場する選手の平均年齢は?
- 各試合の観客動員数は?
ニューヨーク市 Airbnb オープンデータ
- リストの平均価格はいくらですか?
- リスティングで利用可能な部屋タイプの分布は?
- リスティングが最も多いのはどの地域ですか?
- レビュー数と出品価格の相関関係は?
- リスティングのキャンセルポリシーの分布は?
世界幸福度レポート
- 各国の幸福度の分布は?
- 幸福度が最も高い国は?
- 1 人あたりの GDP と幸福度の相関関係は?
- 幸福に寄与する要因の分布は?
- 世界で平均幸福度が最も高い地域は?
株価
- 株式の1日の平均リターンはいくらですか.
- 日々の取引量の分布は?アボカド価格
- アボカドの平均価格は?
- 地域別の平均価格の分布は?
- 平均価格が最も高い地域と最も低い地域は?
- 総量と平均価格の相関関係は?
- 年ごとの総量の分布は?
最終的な考え
Excel には、データ分析の初心者向けの幅広いツールが用意されており、この記事に記載されている Excel データセットを使用してスキルを向上させることができます。
上記の質問に答えるために、折れ線グラフ、棒グラフ、散布図、ヒストグラム、円グラフなど、さまざまな種類の視覚化を作成することもできます。
この記事の冒頭の画像は、プロンプト「Excel データセット」を使用して、HackerNoon の AI Stable Diffusionモデルによって生成されました。
その他のデータセット リスト: