Python~スクレイピング①~
こんにちは!ポテトヘッド(@potato_head0809)です!
は、今回ですが以下の内容に触れていこうと思います!
では早速始めていきましょう!
◯スクレイピングとは
スクレイピングとは...簡単に言えば「Webから好きな情報を取得するもの」です。
まずは、スクレイピングによく出てくる用語について最初にまとめておきます。
「webサーバ」••• Webサービスを提供するためのシステムが稼働しているサーバ
「リクエスト」••• Webサーバに対して情報を表示するように求める通信
「レスポンス」••• リクエストに対するWebサーバからの応答
「HTML」••• Webサイトにおける文章を記述するための方式
「HTTP通信」••• WebサーバとHTMLをやりとりする際の通信方式
まずはWebサーバへ求める通信(リクエスト)を送り、Webサーバから情報を受け取る(レスポンス)。
その受け取ったときに表示されているものがHTMLです。
そしてこれらのやりとりをHTTP通信と言います!
情報を取るまでの流れはだいたいこんな感じです!
そこから取得してきた情報を使いやすいように綺麗にしたりして出力します!!
◯スクレイピングをする為に....
まずは、スクレイピングするためにフォルダを作成しましょう!
※Pythonのシェルから「quit()」で抜けてから実行してください!
#フォルダ作成 $ mkdir scraping #作成したフォルダに移動 $ cd scraping
これでスクレイピングの為のフォルダが作成でき、そのフォルダに移動できたと思います!
フォルダ名はなんでも大丈夫ですよ!
そしてスクレイピングに必要なものをインストールすることが必要です。
今回は「requests」というものを使います!
インストールは簡単です!以下のようにコマンドを打ってください!
$ pip install requests
※こちらもPythonのシェルではありません!
できましたでしょうか!
ではどういうことができるのか、見ていきましょう!
まずは、適当にPythonファイルを作成します。
#ファイル作成 $ touch web.py
作れましたか??
◯requestsを使ってみる
ではrequestsを使ってみましょう!!
早速作成したファイルに以下のように記述します!
import requests r = requests.get('https://www.yahoo.co.jp') print(r.text)
そしてターミナル(Pythonシェルではありません!)で以下のように書いてみてください!
#作成したファイル名 $ python web.py
実行するとたくさん文字が出てきたと思います。
まずは1行ずつ説明していきます!
import requests
上記のコードは「requests」というものをインポートしています。
この文を書くことで先程インストールしたものが使えるようになります!書かないとエラーになります。
r = requests.get('https://www.yahoo.co.jp')
上記のコードで早速requestsを使っています!
requests.get('情報が欲しいURL')
これで指定したURLから情報を取得できます!!
今回はそれを「r」という変数に入れました。
print(r)
そして最後に先程代入した変数名「r」で出力しています!
これでWebから情報を取得することができました!
しかし、これだけではなにもわかりませんよね。
次回はBeautifulSoupというものを使って綺麗にしていきます!
◯まとめ
今回は以下の内容に触れました!
次回からBeautifulSoupを使って解析していきます。
スクレイピングするためには必要な技術です!!
頑張りましょう!今回は以上です。お疲れ様でした!