【クローラーの使いどころ】20万ページ超の巨大サイト構築のヒント

アフィリエイト


Warning: Undefined variable $content in /home/c9099599/public_html/dstrikes.net/wp-content/themes/cocoon-child-master/tmp/content.php on line 76
この記事は 約7 分で読めます。

ども!Web系エンジニア兼へっぽこアフィリエイターのでびきんです!

このブログで連載している初心者でも出来るクローラー制作講座と言うのを書いてるんですが、先日ツイートした所、ちょっと反応が良かったので、クローラーを使った具体的な20万ページ超のサイトを構築する方法をご紹介しようと思います。

クローラーやスクレイピングについての定義や意味についてはこちらをご覧下さい

スクレイピングやクローラーは違法だ!と言う方は上の記事をご参照下さい。
スポンサーリンク

クローラーを使ったサイト構築のアイデア

自動化アフィリエイトを始めるに当たってクローラーをうまく使う必要があります。
大規模サイトは沢山のアクセスが見込めたりページ数の多さからSEOに強いんじゃないか?など色々思う所もあると思います。

しかし、20万ページを超えるような大規模サイトを個人で構築するのは難しい、制作してる期間に旬が過ぎてしまったり途中でプロジェクトが頓挫してしまう事もあるでしょう。

クローラーを効率よく使って自動で更新出来る所は自動で、その他の手動で更新する所は手動と言った風に分業的な考え方をする事で、個人でも十分20万ページ超の大規模サイトを運営する事が出来ます。

アダルトサイトで言えば【エロタレスト】などは効率よくクローラーを回して毎日数千~数万ページのデータを拾ってくる大規模サイトです。

他にも【ニュー速】などの2chまとめ系アンテナサイトなどもクローラーを利用してうまくサイト運営をされています。

特にまとめ系アンテナサイトを構築してしまえば、殆ど手間が掛らず【ほったらかし運営】でガンガン収益を上げる事も可能になります。

その他にも、アドセンス収益サイトとしても、全国各地のホテルデータベースなどを作って

  • 宿泊料金別
  • 観光地から近い場所別
  • オーシャンビューが観れる部屋
  • 評価順
  • 駐車スペースが沢山あるホテル
  • 露天風呂が完備されているホテル

などとして特徴を特化したページ毎に情報を生成させる事も出来ます。
この様にクローラーを使った大規模サイト構築は『付加価値』さえ付与出来れば、アイデア次第で月収100万円以上の収益を稼ぎ出すサイトを構築する事も不可能では無いのです。

クローラーとは、広大な大地から情報を集めてくる『ミツバチ』だと考えれば良いですよね。
ガンダムで言うと『フィンファンネル』のようなものです。

クローリングのターゲットとなる情報サイトを探す

ターゲットとなる情報サイトを探す

具体的にホテル情報のデータベースを生成する為に、クローリング対象となるターゲットサイトを探します。

どこでも良いのですが、データを集めやすいようにページのフォーマットが固定されている情報サイトが収集しやすいです。
殆どのサイトはフォーマットが固定されていますので、収集しやすいです。
と言うか、フォーマットが固定されていないとユーザーも情報を見難いので、多くのサイトではフォーマットが固定されています。

あまりにも例外データを多く含んでいるようなジャンルではスクレイピングの難度が上がりますのでジャンル選びには注意しましょう。

今回の場合ではパッと『全国ホテルリスト』として検索しました。
出てきたサイトからデータを取得します。

全国ホテルリスト
出典:トラベルコ(全国ホテル情報ページ)

出てきたページはトラベルコさんの全国ホテル情報のページです。
最低価格とそれぞれの都道府県+地域名でデータがずらりと並んでいます。

試しにデータの一番上にある『アパホテル(TKP札幌駅北口) EXCELLENT』詳細ページを見てみます。

アパホテル札幌北口

このように詳細ページではGoogleMapのURL情報からアクセス情報・価格帯と公式ホームページ・ルーム価格情報やホテル外観と部屋の内装写真まで掲載されています。

この中から必要かつ、著作権情報とならない『誰でも簡単に知る事が出来る情報』だけをスクレイピングで集めてDBに格納して行きます。

ホテル情報のデータだけでも数万件 x 詳細ページが出来ますので、ホテル情報1件に付き2ページのページ数となります。

またこのページで美味しい情報は『主要観光スポットからホテルまでの距離』まで記載されている所ですね。
この情報も著作権情報ではありませんから、こう言った情報も有効利用出来る情報です。

DB化が出来た際にこう言った主要観光スポットを軸として情報をDBから引っ張りだす事で、ホテル名称からの検索流入を狙うのではなく『清水寺 + ホテル』などで検索HITを狙いに行く事が出来ますね。

同様に近くのレストランの情報も掲載されていますから、お店の名前(有名店など)から、近くのホテルとする事も可能ですし、グルナビなどのグルメ情報のサイト情報も同時にクローリングすれば、

ホテル情報 + レストランガイド = 食べ歩き

みたいな情報サイトを構築する事も良い案だと思います。

するとどうでしょう?ぐるなびの店舗情報もクローリングするとなれば全国100万件超のデータを取得してくるわけですから、1件 x 2ページ x 100万件 なので、20万件超の大規模サイトを作ると言っていましたが、それ以上のボリュームが既に想定ページ数として算出されてしまいましたね。

データを加工してサイト構築するアイデア

Mecabをインストール

具体的なデータの取得の方法については初心者でも作れるスクレイピングクローラーの作り方を参照して貰うとして、クローラーを使って集めた情報をどのようにして利用するかと言うアイデアのヒントについて解説したいと思います。

もちろん、このサイトではPHPでの技術と一緒に解説していますがPythonやRubyでのクローラー開発でも、『やっている事は同じ』ですのでプログラミング言語に拘る必要はありません。

主に集めたデータは手動で記事を作っても良いですし、自動でページをガンガン生成しても良いです。
その違いはと言いますと、まとめページを量産するのか、規格を作って自動でページを量産していくのか?の違いだけです。

露天風呂のある温泉旅館

ユーザーが検索する際の想定を考えるのがアイデアを捻り出す大きなヒントとなります。

上記の検索結果のように『石川県 温泉 露天風呂 まとめ』と言うような、石川県で温泉、しかも露天風呂を探しているような、まさにこれから石川県に旅行に行こうと思ってるんだけど、どの旅館が良いかな?と。

まさに今からホテルの予約先を探していますと言わんばかりのCVR(成約)にもっとも近いキーワードのまとめページを作る事で、このページが上位に成れば容易に成約がガンガン取れてしまうじゃないですか!と言ったキーワードを狙って規格化しても良いですし、自動で作り難いDBから引っ張り難いページを生成したい場合は手動でデータをDBから出してきたページを作ると言う具合です。

規格ページの作り方としては、ラーメンや名所の名前から近隣のホテルを生成してくると言うのも検索流入が見込めるのかも知れませんね。

それこそ、前章で話した『清水寺 + ラーメン』でも良いですし、ラーメン巡りから宿泊の拠点となるホテルを見つけやすいような規格ページを作る事も出来ます。

ホテル宿泊のCVRを狙わないサイト構成であればアドセンスだけでも十分なアクセスが見込めるのではないでしょうか。

自動生成のサイトであったとしても、ユーザーにとってどこまでも有益な情報を提供しているページではあればGoogle先生もきっと理解してくれます(笑

クローラーを使った大規模サイト構築のコツ:まとめ

クローラーを使った巨大サイト構築のコツ

巨大サイト構築のまとめはクローラーを如何に上手に使って、取得したデータを有益な情報としてまとめるか?と言う所が大きなポイントとなります。

クローラーやスクレイピング技術を使ってデータを取得してくるのははっきり言って簡単です。
根気のある人なら、手動で集めて来て構築してしまう人も居るぐらいです。

クローラーを使ってデータを集める事自体は難しい技術でもありませんし、無料でクローラーを利用出来るサイトまで沢山ありますので、それについてまた後日、機会があれば紹介したいと思います。

またSEOを意識したサイト公開を考えているのであれば出来るだけ一気に何万ページも情報を公開するのではなく、最初は北海道から順次地域別に網羅して作り込んで行くと言う風に少しずつ網羅する情報の枠を広げて行くような形でサイトを構築して行った方がSEO的にもインデックスされやすいと私の経験が語っています(笑

 

コメント