PyQueryを使ってwebスクレイピングをしてみた。

此度、Webから特定のデータを取得したいなと思い、スクレイピングしてみようと思ったのですが、
フリーソフトやpythonのライブラリを色々見てみて、PyQueryというライブラリがあるのを知りました。

PyQueryというのはその名の通り、pythonとjQueryを組み合わせたようなpythonのライブラリらしいです。
pythonの知識はあまりないけどjQueryの知識があるよって人には丁度良さそうなので使ってみました。

まずは、PyQueryのインストール。
このページを参考にして3行目だけ実行した
【Mac】Tips:Macにpyqueryインストール【pyquery】 – Qiita

次にこのページを参考にしてurllib3をインストール
[ジョーク] PythonでとあるモデルサイトのHTMLを解析してCSVで出力してみる – Qiita
$easy_install pip
$pip install urllib3
を実行した。

そしてimportのpathの設定とかあまり良くわかってなくて、かつ今はそれ自体はあまり重要じゃないなと思って強行策で実行ファイルをpyqueryの置かれてる
/Users/hoge/.pyenv/versions/3.5.0/lib/python3.5/site-packages
内においてそこで以下のサイトのコードをまるまるコピペして実行する
Python pyqueryを用いて簡単にウェブスクレイピング | トライフィールズ

と見事以下のサイトのリストが表示された。これで準備完了。
CRAN Packages By Date

http://www0.osakafu-u.ac.jp/syllabus/list02.aspx?CD1=3&CD2=601
まずはこのサイトからシラバスのURLとタイトルを表示させてみる。

pyqueryの細かい使い方がわからないので先程のサイトのコードを種にして手探りでコードをいじっていく

って感じで書くと見事うちの大学のシラバスの一般教養のURLとそのタイトルの一覧が表示された。

このあと、少しコードをいじってみて、本題のものを作ってみたが、どうも文字化けする…。

これさえ解決すればもう本当嬉しいのだが。
これを調べる作業は明日に回そう。

コメントを残す