TechReach

クローリングとは?スクレイピングとの違いやSEO対策での意味を解説

現代のビジネスでは、検索エンジンの検索結果で集客が左右されてしまいます。そのため、クローリングについて理解をし、検索結果の上位に表示されるように対策をすることが重要です。この記事では、クローリングの意味やSEO対策における重要性、スクレイピングとの違いについても説明しています。確認をしていきましょう。

自分のスキル年収どのくらい? /
予定年収を診断してみる

クローリングとは

クローラーというプログラムを用いてWebサイトなどを巡回し、Webページ上の情報を収集・保存することです。クローリングの語源は水泳のクロール(crawl)で、はって進む、のろのろ走る、こそこそ歩き回る、といった意味の単語です。クローラーがWebサイト内の情報を収集しながらゆっくりと、はいつくばるように回っている、とイメージできます。

クローリングが主に利用されているのはGoogleやYahoo!JAPANなどの検索エンジンです。クローリングをおこない情報を収集・保存しないと、検索エンジンで調べたいものを検索しても必要な情報にたどり着くことができなくなってしまいます。そのため、検索エンジンを利用するためにクローリングは欠かせない技術になっています。

クローラーについて

Webページ上の情報を収集・保存するプログラムでクローラー、スパイダー、bot(ロボット)などと呼称されています。また、クローラーは個人で開発することができ、クローリングをおこなうためのクローラーツールもさまざまな企業からリリースされています。一般的にはクローリング、クローラーと聞くと検索エンジンで利用しているものと考えられがちです。しかし、クローラーは検索エンジン以外でも利用することができるものです。

クローラーを開発するためには、プログラミング言語のRubyやPythonがなどが使われています。開発したクローラーはWebアプリケーションやWebサイト、企業システムなどで利用されます。クローラーを使えばデータ収集を自動でおこなってくれるため、効率的に業務をおこないたいときに作成されるケースが見受けられます。

クローラーの種類

検索エンジンごとに作られているクローラーをご紹介します。

・Googlebot:Google

・Yahoo! Slurp:Yahoo!(日本のYahoo!JAPAN以外の国のYahoo!)

・Baiduspider:Baidu(漢字表記は百度、中国の検索エンジン)

・Bingbot:Bing(Microsoftの検索エンジン)

・YandexBot:Yandex(ロシアの検索エンジン)

・Yetibot:NAVER(韓国の検索エンジン)

・duckduckgo-favicons-bot:DuckDuckGo(アメリカの検索エンジン)

日本のYahoo!JAPANは2011年からGoogleの検索サービスをカスタマイズしているため、独自のクローラーは開発されていません。また、上述したようにクローラーは検索エンジンだけで使うものではなく、Yahoo!ショッピングのWebサービスではY!J-BRK/1.0、Apple社のSiriやSpotlightなどの検索候補を出す際にはApplebotというクローラーが使われています。

iPhoneのホーム画面から下にスライドすると出てくる、Spotlightの検索画面

クローリングはWebサイトを巡回する技術

クローラーがWebサイト内を巡回し、情報を収集・保存するクローリングは検索エンジンやWebアプリケーション、Webサイトなどのシステムで使われています。検索エンジンでは必須のもの、Webアプリケーションなどではあると便利なものであると覚えておきましょう。

クローリングとスクレイピングの違い

スクレイピングとは、Webサイトなどから特定の情報を抽出・整形・解析するプログラムのことです。英語ではScrapingと書き、こすること、削ること、削り落としたものといった意味があります。集めた情報を削り、必要なものだけを取り出すイメージです。

クローリングがデータの収集・保存を目的としているのに対して、スクレイピングは集めた情報を抽出する、目的に沿ったものだけを集める、というところに違いがあります。しかしながら、この定義が絶対的な正解というわけではなく、情報によってはクローリングとスクレイピングを同一のものとしている場合もあります。また、クローリングと同じくRubyやPythonなどで開発し、Webサイトなどに実装することができます。

SEOにおけるクローラー対策とは

SEO(Search Engine Optimization)とは、日本語で『検索エンジン最適化』といい、GoogleやYahoo! JAPANなどの検索エンジンでWebサイトが上位検索されるように対策をすることで、クローラー対策はSEO対策の一環になっています。

クローラー対策の説明をする前に、Webサイトがどのように検索エンジンで表示されているかを確認しておきましょう。

①検索エンジンのクローラーがWebサイトを巡りWebページの情報を収集

②収集したWebページの情報をデータベースに整理・保管

③検索エンジンのアルゴリズムにのっとり、Webページの内容を確認・評価

④Webページの情報が検索エンジンの評価基準をクリアしていた場合のみ、検索結果にWebサイトを表示させる

Webサイトが検索エンジンにクローリングされ、検索結果に表示されるには上記の流れを経なければなりません。

クローラー対策をしっかりとおこない、検索画面の上位に表示されるようになれば人の目に触れる機会が多くなります。Webサイトは個人、企業問わず何かしらの目的を持って作成されているので、目的を達成するためにもまずは検索エンジンに認知・評価され、検索結果に表示される必要があります。

  • Googleの検索アルゴリズムに対応することが重要

アルゴリズムとは英語でalgorithmと書き、計算法を意味します。検索エンジンでのアルゴリズムとは、評価基準を設け計算をし、表示の可否や順位を決めるためのプログラムということができます。

Web分析サービスを提供しているStatcounter社では検索エンジンのシェアを簡単に調査できるようになっており、世界No.1シェアはGoogleで92.48%の利用率となっています。(2022年6月27日現在)

出典:Search Engine Market Share Worldwide | Statcounter Global Stats

日本でのシェアNo.1はGoogleの76.39%、No.2はYahoo! JAPANの16.22%です。

出典:Search Engine Market Share Japan | Statcounter Global Stats

上述したように、Yahoo! JAPANはGoogleの検索サービスをカスタマイズしているので、日本ではGoogleのクローラーが92.61%のシェアを持っていることになります。そのため、クローラー対策としては、200以上の評価項目があるといわれているGoogleの検索アルゴリズムに確認・評価されやすいものを作ることが重要になります。

しかしながら、専門家などの詳細な評価項目の予測はあるものの、Googleの検索アルゴリズムの基準は非公開になっています。

集客効率UPが目的

インターネット上に存在しているWebサイトは、企業や学校などのコーポレートサイト、商品やサービスの魅力を伝えるブランドサイト、求職情報を発信するリクルートサイトなど、9つの種類があるといわれています。これらのWebサイトの目的は、インターネットを通して集客し、最終的には自社関連のサービスや商品を利用、購入してもらうといっても過言ではありません。

加えて、個人ブログを運営している人などは、ブログ運営を通してアフィリエイトなどの広告収入を得るか、自分で作った教材やオンラインサロンなどでマネタイズをしています。そのような理由から、完全に趣味のブログを運営している人以外では、インターネット上のほとんどのサイトは企業や個人の収入につながっていくといえるでしょう。

クローラー対策をおこない検索エンジンで上位検索されることは、インターネットからの集客効率が上がることにつながります。そのため、Web集客が広がっているビジネスの世界では、検索エンジンで検索上位に表示されることがとても重要になっています。

訪問してほしいページをクローラーに伝える

Webサイトを作っても、検索エンジンにクローリングされず、検索結果で表示されなければ人の目に触れることが難しくなります。検索結果で表示されなければ、URLを知っている人しかWebサイトに訪問することができないからです。そのため、Googleサーチコンソールに訪問してほしいWebページを伝えたり、XMLサイトマップを伝えたりして、検索結果に表示されるように促すことも必要になってきます。

  • URL検査

GoogleサーチコンソールというGoogle検索の分析ツールに登録し、URL検査をすると、対象のWebページがGoogleの検索結果で表示されているか否かがわかります。

Googleサーチコンソールにログイン

URL検査を実施し、登録済みだった場合はGoogleの検索結果で表示されていることになります。

検索結果で表示されていない場合は、表示を促すために『インデックス登録をリクエスト』します。

テスト中

リクエスト完了

GoogleサーチコンソールでURL検査、インデックス登録をリクエストしない場合、長い期間クローリングされず検索結果に反映されない可能性があります。新しいWebページを公開した際はURL検査をおこなって確認し、登録されていない場合はリクエストをしましょう。

  • XMLサイトマップを送信する

XMLサイトマップとは、検索エンジン向けにWebサイト全体のWebページの構成をわかりやすく記載したものです。Webサイトの規模が大きかったり、JavaScriptなどでリッチで動的なWebサイトを開発していたりすると、検索エンジンがクローリングをする際にすべてを検出できず、抜け漏れが発生する場合があります。

出典:サイトマップの概要 | Google 検索セントラル | ドキュメント

公式サイトの内容に該当するWebサイトの場合はXMLサイトマップを送信し、Googleのクローラーにしっかりと認識してもらうようにしましょう。

Googleサーチコンソールにログインし、『サイトマップ』からXMLサイトマップを送信することができます。

また、サイトマップにはHTMLとXMLがあります。これらは大まかに、HTMLサイトマップは人が見てわかるためのもの、XMLサイトマップは検索エンジンに送信してわかってもらうためのものと区別できます。XMLサイトマップは自分で作成する必要がありますので、Googleの公式ページを確認してみてください。

出典:サイトマップの作成と送信 | Google 検索セントラル

クローリングしないページの指定

場合によってはクローリングをしないWebページを作ったほうがWebサイトにとって有益になる場合があります。

・Webサイト内の優先順位の高いWebページを表示して欲しい場合

・他のWebページに対してクオリティが低く、Webサイト全体の評価が下がる可能性がある場合

・会員情報などが記載されているWebページ

・メルマガなど、URLを知っている人しか入れないWebページ

これらのようなWebページがある場合はクローリングを拒否するために、noindex を設定してインデックス登録をブロック、あるいはWebページをパスワードで保護しなければなりません。公式ページに説明が載っていますので、必要な方は確認してみてください。

出典:noindex を使用して検索インデックス登録をブロックする

クローラーが収集する情報

ここでは実際にクローラーが収集している情報を説明していきます。

HTMLで記述されたファイル

HTML(HyperText Markup Language)とは Webページのテキストやレイアウトなどを作成することができるマークアップ言語です。世のなかにあるほとんどのWebサイトの基礎部分は HTMLで作成されています。これらの情報がまとめられているのがHTMLファイルです。

クローラーは主にHTMLファイルからテキスト情報を読み取り検索アルゴリズムで判断をしています。そのため、簡潔でわかりやすいHTMLで記述する、検索キーワードに関連する用語などをテキストに盛り込む、などのクローラー対策が必要です。

また、クローラーは画像の内容までは正確に読み取ることが難しくなっているので、画像を説明するhtmlコードであるaltタグ(alt属性)を記述することで検索アルゴリズムに評価されやすくなります。

その他のファイルやリンク

クローラーはHTML以外にもさまざまな情報収集をしています。

・CSSファイル

・動画

・画像

・JavaScriptファイル

・Word、Excel、PowerPointなどのファイル

・Flash

・PDF

・ Webページ内でリンクされた関連URL

これらの情報を充実させることで 、Webサイト訪問者の満足度が上がる可能性が高まります。検索エンジン側としても、自社の検索エンジンに満足してもらう必要があるので、情報がふんだんに掲載されている Webサイトを評価する傾向があります。

まとめ

 現代のビジネスでは、インターネットを通した集客が一般的なものとなっています。なかでもGoogleは、世界でも、日本でも、検索エンジンのシェアNo.1となっているため、Googleの検索結果で上位に表示されることがとても重要です。

SEO対策としてGoogleのクローラーに正しく認識され、評価されることは収益にも直結する問題となっています。また、クローラーは自動認識をしてくれるプログラムになっているため、企業や個人の情報収集のコスト削減にも役立ちます。

音声認識の精度が上がっていったように、クローラーが認識できるものが将来的には増加していくことも考えられます。IT関連の技術は目覚ましいスピードで進化していきますので、日頃のキャッチアップを忘れずに、情報収集をしていきましょう。

フリーランスの案件をお探しの方はTechReachにご相談ください。

TechReachを運営する株式会社アールストーンはIT・Web業界特化で15年以上の実績がございます。

そのため、高単価・高品質な数多くの案件紹介が可能です。

また一人のコンサルタントが企業と求職者様の担当を行う「両面型エージェント」を採用しているため、あなたの希望に合う案件がきっと見つかるはずです。

TechReachを活用して、理想の案件を見つけましょう!

関連記事

カテゴリ