【Lifehacks】Twitterの特定ハッシュタグの呟きを一括取得する
■タスク
Twitterの特定ハッシュタグの呟きを一括取得する。
■背景
・特定ハッシュタグに関連付いた呟きを分析したい。
・APIで取得するスクリプトを書く時間がない。
・標準Webクライアントで改ページしながら取得するのは面倒。
■方法
ウェブサイト「ハッシュタグクラウド」を使用することで、特定ハッシュタグの過去の呟きを一括取得することが可能です。
本サイトは、@kiwofusiさんが運営しているハッシュタグまとめサイトです。
以下の手順で取得できます。
1.以下のURLにアクセス。
http://kiwofusi.sakura.ne.jp/hashtag/show.cgi
2.ページ先頭の入力域にハッシュタグ名を入力し「開く」を選択。
当該ハッシュタグの個別ページが表示される。
3.タイムライン欄で件数を指定して「表示」を選択。
タイムライン欄には期間指定と件数指定でタイムラインを行う入力域がある。
件数指定の方の当初表示は「ステータスID [XXXXXXXX] から [100] 件の発言を [表示する]」となっているが、件数の数値を変更すれば、好みの件数分呟きが取得できる。
なお[XXXXXXXX]は当該タグを含む最初の呟きのIDで、こちらを変更すると取得開始IDを指定できる。
4.タイムラインの表示を待つ。
件数に大きい数値を指定した場合、タイムラインの表示に時間がかかるので、表示が完了するのを待つ。
5.データを採取する。
タイムライン表示ページでは、表示サンプルの他にHTML形式、STOT形式のデータもテキストボックス内に表示される。
このテキストをコピー&ペーストでテキストファイルとして保存する。
なお、色々と加工する場合はSTOT形式が使いやすい。
■備考
・twnovelオフ会で回覧した分析資料や「All of twnovel 0001」は、このデータから製作しています。加工については別途説明予定です。
・「ハッシュタグクラウド」は個人運営のサイトであり、ログの完全アーカイブを保障するものではないとのことです。また現状でもなんらかの理由により参照できない情報があるとの報告もあります。
・残念ながら、呟きのタイムスタンプ等の情報を採取することができません。
・完全性が必要な場合、Twitter APIで何らかのツールを作成するか、そのようなツールを探す必要があります(良いツールをご存知の方がいたら、ご教示ください)。