【初心者】Pythonで行うWebスクレイピングのおすすめコンテンツ

スクレイピングが出来れば楽になるかも・・・。

こんな事を思ったのがきっかけで、全くのスクレイピング初心者がPythonを用いたスクレイピングに挑戦しました。

 

僕は製造業で働いていて、毎日製造時のデータを社内ネットにアクセスしてチェックしています。

  • 製造番号をコピーする
  • 社内ネットの検索欄に貼り付ける
  • 表示された情報をコピーする
  • エクセルに貼り付け

この工程を毎日20~40回繰り返しています。毎日30分以上かけて、朝の大切な時間を使って行っています。
毎回自分でアクセスして情報を取り出すのがめんどくさい・・・と思ってカチャカチャと。
「ネット上に自動でアクセスして、欲しい情報を自動で取ってくる」これが出来ればいいなと思っていました。

 

そんな時にPythonでやりたい事が出来るというのを知りました。
その技術の名前が『スクレイピング』です。
例えば、下記みたいに活用されている方がいらっしゃいました。

おもしろいですよね?ネット上にあるデータを取得するだけじゃなくて、それをグラフなどにまとめて解析まで使う。
こりゃできたら便利。

 

とは、言ってもすぐに使えられる様になる訳でもなく、勉強をしないといけません。そして出来ればプログラミングの最初の壁である環境構築も説明して欲しい。
こんな思い出色々と学習用のコンテンツを探していました。
その時Udemyで、キカガクから出ている『PythonによるWebスクレイピング~入門編~』を見つけました。

これ分かりやすい!

実はキカガクという会社は機械学習の勉強をする時にも利用させてもらってて、非常に信頼感がありました。
そして期待通りのコンテンツ内容。

キカガクの機械学習コンテンツの話はコチラ

 

ということで、今回はスクレイピングのおすすめコンテンツとして、『PythonによるWebスクレイピング~入門編~』を紹介したいと思います。
僕と同じ様に、スクレイピングを使って作業を楽にしたい方、スクレイピングを勉強したいけど何で勉強すればいいか迷っているかたにはオススメです

 

PythonによるWebスクレイピングの概要

公式の概要は下の様になっています。

Seleniumを用いて、自動ログイン、テキストの抽出、画像データの収集を行ってみよう。データの収集方法を学ぶことで、定期的なデータ収集を効率良く行うことができます。

こちらのコースでは、スクレイピングを行うツールとして『Selenium(セレニウム)』を使っています。

・・・全然分からん。ただ講義を見ると、色々タイプがあるみたいですが、とりあえずこれを使えばOKみたい(初心者が気にする事ではない)。

 

こちらには書いていませんが、

  • 環境構築
  • 得られたデータを表にする(NumpyとPandasを使って)
  • 作ったデータをcsv形式で保存

というところも説明があり、実際に始めるところから、データを使うところまで解説がされています。

 

スクレイピングはログインから

ニヒルさん
どーやって学習するんや?
はい。どんな事やって勉強するか具体的に説明します。
こちらのコースでは下記の疑似旅行ランキングサイトから、「ログインして、観光地名、評価結果、観光地の写真」を自動で取り出す事を目的にしています。かなり実践的です。
ニヒルさん
コードの方はどーなっての?
はいはい。プログラミングの方ももちろん解説されます。
こちらはJupyter Notebookを用いて、一緒に進めていく形式になっています。
まず、基礎的な事を一緒に行い、章の最後には「じゃあ、~をやってみてください」と課題が出ます。
この課題が出来るようで出来ないちょうどいいレベルです。
こんな感じで、説明→自分でやってみる、を繰り返して学習していくため、初心者でも一通りやりきる事が可能です
そのため、初めての人がまずやってみるには最適です(さすが入門編)。

始めるための前提知識は必要?

ただし、全くのプログラミング初心者の方がいきなり行うのはおすすめしません

 

PythonとHTMLの基礎は必要

上記の基礎は学んでおかないとただ、やるだけになってしまいます。

でも、なんとなく分かるレベルでも十分理解は出来るので、スクレイピングがやりたい方はざっと基礎やって取り組んだ方がいいです。

 

よく聞くと思いますが、プログラミングの基礎を学ぶにはProgateがおすすめです。

こちらでPythonとHTMLの基礎をさらっと学んで進めましょう。

基礎を学ぶProgateはこちら

 

特にPythonでは「for文」をしっかり理解した方がいいです。

こちらは何度も出てきて、しかもデータを複数取得するために必要なプログラミング文法となります。

 

ちょっとした注意点

講義の内容はすごい分かりやすくてよかったのですが、最初の環境構築で注意が必要です。

特にWindowsの方は。

 

スクレイピングは指定したブラウザを使って、Web上のデータを取得します。

最初の環境構築ではFirefoxとGoogleChromeを紹介します。

 

ただ、この時僕はFirefoxが上手く動きませんでした。

講義でも出てくるのですが、Windowsの場合Firefoxが上手く動かない事があるようです

なので、Windowsの方は初めからGoogleChromeのみで進めていってください。

僕はFirefoxとGoogleChromeの両方が必要なのかと思って、ムダな時間を過ごしてしまいました・・・。

 

最後に

これらを学んだので、会社のネット上のデータを取得しようと思いました。

そこで、Pythonを使うべくAnacondaをパソコンにインストールしてもらったところ、スペックが悪すぎて動かない・・・。

今年の夏に社内PCが更新されるので、それまで自宅で勉強をしたいと思います。

 

初めにも話しましたが今回紹介させてもらったコンテンツを作成されているキカガクという会社ですが、他にもPythonや機械学習に関するコンテンツをUdemyで出されています。

こちらも非常に分かりやすいので、オススメです。

 

僕は機械学習に関する数学を学ぶために利用させてもらいました。

機械学習に必要な数学を学んだ話はこちら

>最強のWordPressテーマ「THE THOR」

最強のWordPressテーマ「THE THOR」

本当にブロガーさんやアフィリエイターさんのためになる日本一のテーマにしたいと思っていますので、些細なことでも気が付いたのであればご報告いただけると幸いです。ご要望も、バグ報告も喜んで承っております!

日本国内のテーマでナンバー1を目指しております。どうか皆様のお力をお貸しください。よろしくおねがいいたします。

CTR IMG