Tweetを遡って取得する時の取りこぼしについて

ちょこちょこっと話があったのをメモ。

Timeline系APIから取るオプション

  • since_id … 最新から200件以内にsince_idで指定したTweetがあるのならBEST
  • max_id … 遡る際は恐らくコレが正解です。
  • page … これを使えば重複はあっても取得漏れは無いと思っていました。

since_idは見た目にだまされますが、新しいところからcount分取ってくるのでつらい。無かったらpaging処理することになります。

なぜpagingが駄目なのかということですが、ページ取得中に取得後のTweetが削除された時にn+1ページ目からnページ目に削除分流れてくるので取りこぼす、とのこと。

最終的にはタイムライン200件として返って来た最後のTweetのmax_idで次の200件を取得してあげるのが一番なようです。

カテゴリー: Web関連, プログラミング関連 パーマリンク

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です