Y-Ken Studio

新しもの好きのデータエンジニアが四方山話をお届けします。

FluentdでURL付きツイートを漏れなく収集する方法

Twitterで言及されている様々な記事のURLを収集したいと考えた時、次の方法が選択肢となります。

  • 定期的にAPIを叩く
  • ストリーミングAPIを使う

前者の方法では単位時間毎のAPIコール制限を容易に超えてしまうので避けたいところですね。
そこでストリーミングAPIを使いたい所ですが、URLのトラッキングを行う方法がわかりにくかったので調べてみました。

続きを読む

要確認!GitHubでうっかり放置してしまったIssueやPullRequestを検索する方法

GitHubで後で見ておこうと放置してしまったIssueやPullRequestはございませんか?

ブラウザUIで見られるダッシュボードからはPull RequestsやIssuesが見られますが、 その一覧には自分のリポジトリへ第三者が発行したIssueやPull Requestはありません。

この画面に検索クエリが打ち込めそうなフィールドがあるので、ここにヒントがありそうです。

f:id:yoshi-ken:20141209111957p:plain

続きを読む

実は簡単なFluentdプラグインのv1-config対応テストの書き方

Fluentd Advent Calendarの4日目は、Fluentdプラグインを数多くメンテナンスする@yoshi_kenがお届けします。

Fluentdはその拡張性の高さから、数多くのプラグインがリリースされております。
これをご覧になる方の中には、プラグインを自作された方もいらっしゃるかもしれません。

本日はこれからプラグインを書かれる方にも、既に自作プラグインを公開されている方にも便利なTipsをお届けします。

続きを読む

elasticsearchのクラスタで利用するNICをインターフェース名で指定する方法

複数のインターフェースを搭載するマシンでelasticsearchをクラスタ稼働させると、1つ目のインターフェースのIPを対向クラスタへ返します。そのため、1つ目のインターフェースでクラスタ同士の疎通が出来ない構成で稼働させるには、network.publish_hostの調整が必要です。

もちろんサーバ毎の設定ファイルに個別にIPアドレスを書けば動きますが、そんな運用の手間となる設定は入れたくないですよね。
そういった時に便利に使える論理名(プレースホルダ)が用意されているので、それを使いましょう。

続きを読む