BeautifulSoupでスクレイピングする方法

Pythonでスクレイピングする際にBeautifulSoupを使う方法があります。
使い方を説明するウェブサイトは多いのですが分かりにくいものが多いです。
おそらく「select」を使う方法を使っていないからだと思います。
CSSのセレクタに慣れている場合、「select」を使う方法が便利です。 (さらに…)

スクレイピングが簡単にできる「Goutte」

ウェブサイトから必要な情報だけを取得する方法をスクレイピングと言います。
PHPを使っている場合はfile_get_contentsでウェブページの情報を文字列として取得しpreg_matchなどを使って必要な部分を取得します。
ウェブページの構造が単純であれば、これでもいいのですが、ちょっと複雑になるとかなり面倒です。
「Goutte」を使うとCSSのセレクタと同様に指定して取得できるのでとても簡単です。 (さらに…)


タグ

カテゴリー

最近の投稿

最近のコメント

固定ページ

アーカイブ

stabucky

写真

メタ情報