あけましておめでとうございます
これが今年最初の記事になります。良い1月を過ごせたと思います。 ついに研修が終わり配属されたりで目まぐるしく一ヶ月が過ぎたので、そろそろインターネットでも活動せねばと。。。 今年は考えすぎずサクッとブログを書こうと思っているので早速やっていき。
勉強会に参加した
表題の通り、SRE Tech Talks #2に参加してきました。 久しぶりの社外勉強会でガッツリインフラ回りの話で脳をフル回転させて聞きました。覚えた言葉は「サチる」です。 クッ社のhttps化の話が聞けたのが個人的に一番の収穫でした。歴史的かつ多くのユーザーを抱えていると技術力が高くてもたくさんの課題があることがわかりました。さくらインターネットの話もとても興味深く、自動復旧する仕組みをもっと聞きたいと思いました。懇親会にも参加し、何人かの人と交流することができました。配属一ヶ月でもけっこう話せることがあったので積極的に色々な人と話そうと思えました。 以下昨日のメモになります。箇条書きなので完全に自分用です。
On-call Engineering - 株式会社メルカリ
- Operation
- Sofware Enginering
On-callとは
- 緊急時に備えて電話出れるよう
- SREチームで一週間ごとに交代
- 休日でも15~20分以内に対応できることが望ましい
- 平日は他のSREメンバーが出社するまで自宅待機
- 大型連休は変速シフト
色々負担が
- 精神的なプレッシャー、同居人への負担
- 海の向こうから電話
- 振休でカバー
On-callnに関する問題
- ローテの管理
- 電話の番号
- エスカレの必要性がある
解決方法
エスカレ管理
- PDの機能を活用している
- スプレッドシートとも同期している
cybozu.com のデータバックアップとリストア、それを活用したリハーサル - サイボウズ株式会社
- アップデート時のリハーサルについて
SREとオペレーション
- SREはオペレーションじゃない
- googleも50%はオペレーション
- オペレーションはミスをする
- なるべく安全にしたい
SREとバックアップ
- 事前レビュー
- ペアオペレーション
- バックアップ
cybozu
- マルチ(テナント、アプリ、バックエンド)
- 大変そうだ
- 自社DC
- 自社開発のクラウド基盤
- 物理バックアップ(インクリメンタルフォーエバー)
- ミドルウェア非依存
- 時間がかかる
- リストアが遅い
- 独自のバックアップシステム
リストア
- dm-thimp 書き込んだ部分だけデータを取ってくれる
- 実際は一度くらいしかリストアをしていない
- バックアップデータを活用する
アップデートリハーサル
- 想定外のデータがあることでアップデートが失敗しないか
- 安心のために
- 本番のバックアップからリストアし実際のアップデートスクリプトを実行
- マルチテナントのマルチテナントを作ってます
cookpad.com 全HTTPS化の軌跡 - クックパッド株式会社
- SREグループ
- 一部サービスはHTTPSでそれ以外はhttpだった
セキュリティ、プラットフォーム、新技術
HTTPS化まで
- 社内を巻き込む(MTG、techブログ)
- パフォーマンスはそこまで変化はない
- 検索エンジンはやるしかに
- 広告
- 広告ネットワークがhttps対応しているとは限らない
- 膨大な量だったが不可能ではなかった
- 対応箇所を新しく出現しないようにするために、他のエンジニアに協力してもらう
- 事業上の影響があり半年間pending
- 全社にhttpsについての説明して全社員に協力してバグ探ししてもらう
- infratesterで対応をした
SREグループができてこの半年間でやってきたこと - 株式会社ミクシィ
- 負荷対策や自動化に注力している
- グラフを見る、ログを読む、コードを理解する
- インフラはオンプレ中心にAWSも使ってる