スクレイピングが出来れば楽になるかも・・・。
こんな事を思ったのがきっかけで、全くのスクレイピング初心者がPythonを用いたスクレイピングに挑戦しました。
僕は製造業で働いていて、毎日製造時のデータを社内ネットにアクセスしてチェックしています。
- 製造番号をコピーする
- 社内ネットの検索欄に貼り付ける
- 表示された情報をコピーする
- エクセルに貼り付け
この工程を毎日20~40回繰り返しています。毎日30分以上かけて、朝の大切な時間を使って行っています。
毎回自分でアクセスして情報を取り出すのがめんどくさい・・・と思ってカチャカチャと。
「ネット上に自動でアクセスして、欲しい情報を自動で取ってくる」これが出来ればいいなと思っていました。
そんな時にPythonでやりたい事が出来るというのを知りました。
その技術の名前が『スクレイピング』です。
例えば、下記みたいに活用されている方がいらっしゃいました。
今節終了後の得点/シュート数,失点/被シュート数を分析してみました。
・データはJleague Data Siteから引用
・そこからPythonでスクレイピング+matplotlibで加工
・垂直・水平の線はそれぞれの中央値
今後は:
・スケジュールで取得し、動的にツイート出来れば。 pic.twitter.com/DFTD7QTb3z— 山崎ヒトシ (@upuppu) July 7, 2019
おもしろいですよね?ネット上にあるデータを取得するだけじゃなくて、それをグラフなどにまとめて解析まで使う。
こりゃできたら便利。
とは、言ってもすぐに使えられる様になる訳でもなく、勉強をしないといけません。そして出来ればプログラミングの最初の壁である環境構築も説明して欲しい。
こんな思い出色々と学習用のコンテンツを探していました。
その時Udemyで、キカガクから出ている『PythonによるWebスクレイピング~入門編~』を見つけました。
これ分かりやすい!
実はキカガクという会社は機械学習の勉強をする時にも利用させてもらってて、非常に信頼感がありました。
そして期待通りのコンテンツ内容。
ということで、今回はスクレイピングのおすすめコンテンツとして、『PythonによるWebスクレイピング~入門編~』を紹介したいと思います。
僕と同じ様に、スクレイピングを使って作業を楽にしたい方、スクレイピングを勉強したいけど何で勉強すればいいか迷っているかたにはオススメです
PythonによるWebスクレイピングの概要
公式の概要は下の様になっています。
Seleniumを用いて、自動ログイン、テキストの抽出、画像データの収集を行ってみよう。データの収集方法を学ぶことで、定期的なデータ収集を効率良く行うことができます。
こちらのコースでは、スクレイピングを行うツールとして『Selenium(セレニウム)』を使っています。
・・・全然分からん。ただ講義を見ると、色々タイプがあるみたいですが、とりあえずこれを使えばOKみたい(初心者が気にする事ではない)。
こちらには書いていませんが、
- 環境構築
- 得られたデータを表にする(NumpyとPandasを使って)
- 作ったデータをcsv形式で保存
というところも説明があり、実際に始めるところから、データを使うところまで解説がされています。
スクレイピングはログインから




始めるための前提知識は必要?
ただし、全くのプログラミング初心者の方がいきなり行うのはおすすめしません。
上記の基礎は学んでおかないとただ、やるだけになってしまいます。
でも、なんとなく分かるレベルでも十分理解は出来るので、スクレイピングがやりたい方はざっと基礎やって取り組んだ方がいいです。
よく聞くと思いますが、プログラミングの基礎を学ぶにはProgateがおすすめです。
こちらでPythonとHTMLの基礎をさらっと学んで進めましょう。
特にPythonでは「for文」をしっかり理解した方がいいです。
こちらは何度も出てきて、しかもデータを複数取得するために必要なプログラミング文法となります。
ちょっとした注意点
講義の内容はすごい分かりやすくてよかったのですが、最初の環境構築で注意が必要です。
特にWindowsの方は。
スクレイピングは指定したブラウザを使って、Web上のデータを取得します。
最初の環境構築ではFirefoxとGoogleChromeを紹介します。
ただ、この時僕はFirefoxが上手く動きませんでした。
講義でも出てくるのですが、Windowsの場合Firefoxが上手く動かない事があるようです。
なので、Windowsの方は初めからGoogleChromeのみで進めていってください。
僕はFirefoxとGoogleChromeの両方が必要なのかと思って、ムダな時間を過ごしてしまいました・・・。
最後に
これらを学んだので、会社のネット上のデータを取得しようと思いました。
そこで、Pythonを使うべくAnacondaをパソコンにインストールしてもらったところ、スペックが悪すぎて動かない・・・。
今年の夏に社内PCが更新されるので、それまで自宅で勉強をしたいと思います。
初めにも話しましたが今回紹介させてもらったコンテンツを作成されているキカガクという会社ですが、他にもPythonや機械学習に関するコンテンツをUdemyで出されています。
こちらも非常に分かりやすいので、オススメです。
僕は機械学習に関する数学を学ぶために利用させてもらいました。