paint-brush
ウェブ検索エンジンにおけるソース分布と結果重複の比較@browserology
500 測定値
500 測定値

ウェブ検索エンジンにおけるソース分布と結果重複の比較

長すぎる; 読むには

この調査では、Google、Bing、DuckDuckGo、Metager の検索結果を比較し、Google では上位の結果により多くの固有ドメインが表示されることが明らかになりました。Wikipedia やニュース サイトなどのトップ ソースがすべてのエンジンで優勢を占めていますが、Metager では Bing との重複が多くなっています。これは、Google とともに代替検索エンジンを使用することで、ユーザーに幅広いソースと視点を提供できることを示唆しています。
featured image - ウェブ検索エンジンにおけるソース分布と結果重複の比較
Browserology: Study & Science of Internet Browsers HackerNoon profile picture
0-item

著者:

(1)Yagci、Nurce、HAWハンブルク、ドイツ&[email protected];

(2)Sünkler、Sebastian、HAWハンブルク、ドイツ&[email protected]

(3)Häußler, Helena、HAWハンブルク、ドイツ&[email protected]

(4)Lewandowski、Dirk、HAWハンブルク、ドイツ&[email protected]

リンク一覧

概要と序論

文献レビュー

目的と研究課題

方法

結果

議論

結論、研究データ、謝辞、参考文献

抽象的な

検索エンジンに関しては、ユーザーは一般的に Google を好みます。私たちの調査は、Google で見つかる結果と他の検索エンジンで見つかる結果の違いを見つけることを目的としました。ドイツと米国の Google トレンドから生成された 3,537 件のクエリを使用して、Google、Bing、DuckDuckGo、Metager のトップ 10 の結果を比較しました。Google は、競合他社よりもトップの結果に多くの一意のドメインを表示しています。Wikipedia とニュース ウェブサイトは、全体的に最も人気のあるソースです。いくつかのトップ ソースが検索結果を支配しているため、ドメインの分布もすべての検索エンジンで一貫しています。Google と Bing の重複は常に 32% 未満ですが、Metager は DuckDuckGo よりも Bing との重複が高く、最大 78% になります。この調査は、特に Google に加えて別の検索エンジンを使用すると、ソースの多様性が向上し、ユーザーが新しい視点を見つける可能性があることを示唆しています。

キーワード

Web 検索、検索エンジン、Web スクレイピング、Google、ソース比較

導入

なぜ検索エンジンは複数あるべきなのでしょうか? ユーザーは、使いやすさ、専門的な機能、または技術環境へのより便利な統合のために、ある検索エンジンを他の検索エンジンよりも好むかもしれませんが、この調査で私たちが関心を持っているのは、さまざまなソースから結果を見つける際に、ユーザーが Google 以外の検索エンジンを使用することでメリットを得られるかどうかという点です。私たちの出発点は、Google が圧倒的に最も使用されている検索エンジンであること (StatCounter、2022)、ユーザーが関連性のある有用な結果を提供する検索エンジンをかなり信頼していること (欧州委員会、2016 年、Purcell 他、2012 年)、そして一部のユーザーだけが Google に加えて別の検索エンジンを使用していること (Schultheiß & Lewandowski、2021 年) です。


ユーザーは検索エンジンに大きな信頼を置いています。これは、米国のユーザーの 91% が探しているものが常にまたはほとんどの場合に見つかると回答し、66% が検索エンジンは公正で偏りのない情報源であると考えていることに反映されています (Purcell 他、2012 年)。さらに、ヨーロッパのインターネットおよびオンライン プラットフォーム ユーザーの 78% が、検索エンジンの結果が最も関連性の高い結果であると信頼していると述べています (欧州委員会、2016 年)。世界的に、ユーザーはニュースに関しては他のどの情報源 (従来のニュース メディアを含む) よりも検索エンジンを信頼しており (Edelman Trust Institute、2022 年)、ユーザーは検索で見つけたニュースをソーシャル メディアで見つけたニュースよりも大幅に信頼しています。

(ニューマンら、2021年)。


Web は巨大であり、検索エンジンによって好まれるソースも異なる可能性があるため、検索結果に表示される上位ソースが検索エンジンごとに異なるかどうかを確認することは興味深いことです。代替検索エンジンは、たとえば政治的傾向や非営利コンテンツ プロバイダーの優先など、「代替」ソースからの結果を優先する場合があります。これはすべて、代替検索エンジンが、表示される結果に関して実際に代替であるかどうかに帰着します。代替である場合、Google 以外の検索エンジンを使用することで得られるメリットには、異なる結果の検索、追加の結果の検索、より関連性の高い結果の検索などがあります。ユーザーがこれらの目標のどれを達成しようとしているかに関係なく、Google 以外の結果が必要になります。したがって、他の検索エンジンがユーザーにそのような結果を提供するかどうかは興味深いことです。


代替検索エンジンと、検索エンジン市場における Google の優位性を打ち破る方法についての議論が続いています。アプローチは、単一の代替検索エンジンを確立することから、そのような代替のためのインフラストラクチャを構築することまで多岐にわたります (例: Lewandowski、2019 年)。Mager、2014 年も参照)。Google が検索エンジン市場を支配しているため (StatCounter、2022 年)、代替手段がまったく存在しないように思われることがよくあります。一方、代替 (または単に「その他の」) 検索エンジンの数は過大評価されることがよくあります。検索エンジンのように見えるものの多くは、独自のインデックスから結果を生成するのではなく、パートナーからの結果を表示する検索ポータルにすぎません。たとえば、Yahoo と Ecosia は Bing から結果を取得しているため、それ自体では検索エンジンとは見なされません。しかし、独自のインデックスを持たない検索エンジンを使用する理由は他にもあるかもしれません。代替検索エンジンが宣伝する独自の利点には、プライバシー (例: Startpage と DuckDuckGo) や、環境プロジェクトに利益を投資している企業であること (例: Ecosia) などがあります。検索エンジンのもう 1 つのタイプは、メタ検索エンジン (Metager など) です。このようなエンジンは、クエリを複数の他の検索エンジンに送信し、上位の結果を集約して再ランク付けします。このようなアプローチによって、より多様な検索結果、つまりより多様なソースからの結果が得られるかどうかは、特に興味深いことです。そのため、この調査では、独自のインデックスを持つ検索エンジン、または 1 つ以上のインデックスからの結果の独自の選択と再ランク付けを提供する検索エンジンを、代替検索エンジンとして検討します。特に、ソースの分布の違いに興味があります。結果の関連性は、この調査の範囲外です。


20年以上前、Introna & Nissenbaum (2000) は、商業活動としての検索エンジンは大規模なウェブサイトを好む傾向があり、そのためウェブの一部、つまり小規模なサイトは視界から隠れたままになっていると主張しました。ユーザーが何を選択するかを測定する研究はこれを裏付けているようです。Goel et al. (2010) は、Yahoo 内ではわずか 10,000 のウェブサイトが結果のクリックの約 80% を占めていることを発見しました。これは単に特定のソースに対するユーザーの好みから生じるのではなく、ユーザーは主に検索エンジンによって表示される上位の結果から選択していることに注意することが重要です。ユーザーの直接の視界から外れたものは選択されません (Lewandowski & Kammerer、2021)。


近年、異なる検索エンジンの結果を比較した研究がほとんどないことは驚くべきことです。以前の研究 (文献レビューのセクションを参照) では、さまざまな検索エンジンの上位結果があまり重複していないことが全体的に判明しました。この論文では、Google の上位結果が他の検索エンジンとどのように異なるか、したがって、ユーザーがこれらの代替案を検討する価値があるかどうかについて説明します。Google 以外の検索エンジンが Google と非常によく似た結果を生成する場合、ソースの多様性を考慮すると、ユーザーはその検索エンジンを使用してもあまりメリットがありません。


この論文はCC 4.0ライセンスの下でarxivで公開されています

メイン画像はUnsplashのJustin Morganによるものです