Forkwell Press

SHARE

infra study meetup #3 第1部 アイキャッチ画像
Event report

Infra Study Meetup SRE の文化と組織【1部】

エンジニアに役立つ情報を定期的にお届けします。

Forkwell が主催する技術イベント「Infra Study」。今回のテーマは「SRE のこれまでとこれから」です。(開催日:2020年 6月16日)。本記事は登壇者の古川さんの基調講演から SRE のこれまでとこれからを紹介し、SRE を紐解いていきます。最後には、古川さんが考える SRE の定義をお伝えします。

古川 雅大

株式会社はてな

SRE。2021年夏までMackerel SREチームのテックリードとしてMackerelの運用を担当。 現在はMackerelの運用に加え、CTOと共に社内全体のSRE組織作りに取り組んでいる。

近年、GoogleからSREという考え方が広がり、現在では多くの組織で実践されています。
SREの実践方法はプロダクトの性質、組織の規模、チーム構成などと切り離して考えることは難しいため、組織毎に異なった課題が出てきます。
自分たちの組織にあったSREを設計、実装していくためには、SREの文化を理解することはとても重要です。

そこで、本セッションでは、SLI/SLOの設計方法や実際の監視設定、設計など手法の話ではなく、SREの原理原則、文化を再整理し、組織としてどう取り組んでいくかを紹介します。
今からSREを組織に導入しようと考えている方の参考や実践されている方は再整理することで、新たな解決方法を生み出す一助となれば幸いです。

1枚目の画像

「SRE の文化と組織」について発表します。

2枚目の画像
古川 雅大と申します。株式会社はてなの Mackerel という監視 SaaSサービスの SREチームで SREテックリードをしています。個人的には、ゲーミング Kubernetes クラスタサーバーを作ったり、19インチラックをペットとして飼っています。

 

3枚目の画像
開催済みのInfra Study Meetup #1 と #2 から概要を抜粋してきました。

 

4枚目の画像
#1 と #2では、思想や哲学を理解し適切なツールやプロセスの選択を、重視していました。ツール、プロセス、How も重要ですが、今回は思想、哲学、ストーリー、Why にフォーカスします。

 

5枚目の画像
私は2019年頃から サイトリライアビリティエンジニアリング(以下 SRE と記載)を学び始めたので、初心者から中級者になるタイミングです。第一人者ではないので、これまでとこれからを軽く紹介したうえで、私が考える SRE の定義、文化や考え方、最後に組織の話を絡めながら紹介します。

SRE のこれまでとこれから

7枚目の画像

今までは Google のプラクティスだったものが、2012〜2016年にかけて、アウトプットが増えたことで、全体的に Webサービス事業者の中のプラクティスに進化しました。その全体のプラクティス、企業・産業のインダストリアルなプラクティスから、明るい方向へ少しずつ進出し始めているのが、今のフェーズだと思います。

企業や組織は、規模や文化、組織のレベルが多様であり、すべて Google の真似をするのは難しいので、どう考えるかが重要です。これからは多様なやり方や共通のプラクティスがどんどん生まれてくると思います。そこに対応するために、文化主張を学びます。セキュリティ分野は、かなり近い話題が多いので、今も SRE とセキュリティを組み合わせる話はありますが、他の分野との連携も増えると思います。

あとは産業と研究の連携、エンジニアと研究者、勉強会と学会など、それぞれアプローチは違うにしろ、やりたいことは一緒なので、そこが融合して新たな種の発見も出てくると思います。

8枚目の画像

SRE NEXT 2020 が国内初かな。大規模な SRE カンファレンスがありました。発表の割合は特定技術に関する話と、コミュニケーションの話が半々ぐらいでした。会場アンケート結果を見ると組織のマネジメントや Toil の撲滅、チームの話に興味を持つ人が多そうなイメージでした。

SRE の「これから」に対応するために

9枚目の画像

これからに対応するために、組織やコミュニケーション文化の話は難しい課題ですが、ここを抜きには語れません。

SRE とは

10枚目の画像

これは SRE 本の「はじめに」から抜粋したもので、Google の SRE 創始者は「SRE はソフトウェアエンジニアに運用チームの設計を依頼したときにできあがるもの」といってます。

ここで注目すべきは、運用チームの設計なので、チームの設計になります。文字どおりにとらえれば、チームの設計をソフトウェアエンジニアがしています。Class SRE implements DevOps という言葉もあり、DevOpsという思想をSREが実装していると考えるとソフトウェアエンジニアの方には理解しやすいかもしれません 。

11枚目の画像

SRE 本を読んでいくと他にもいろんな話題があります。SLI / SLO による意思決定やソフトウェアエンジニアリングによる自動化などです。

IaC は #1 にありましたが、その辺の話題やシステムのモニタリング、オブザーバビリティや DevOps の実装、インシデント対応、障害対応の話。チームマネジメントによるToil撲滅の話も詰まっています。

SREを初めたときに最初、私はこれらすべてが同じ分野なのか疑問でしたが、今は同じ分野だと思っています。その点を読み解いていきます。

12枚目の画像

読み解くとはいえ、今回は SRE 本の「はじめに」の内容しか喋っていません。その中でも SRE の役割と意味をうまく定義すること。また他の組織も利用できるようにするのが、この本の目的です。再度自分で読んで、考え、整理するのが、いいアプローチの方法かと思います。

SRE を紐解く

13枚目の画像

SRE はシステムの信頼性に焦点を当てる。これは SRE の内容か?と思ったときは、信頼性に関わることならイエスととらえるようにしてます。信頼性に焦点を当てる = 信頼性を上げるのではなく、信頼性に関わることは、SRE にとって関心事、関連する事項です。

これも SRE 本の「はじめに」から取ってきましたが、「信頼性こそがあらゆるプロダクトの基本的な機能」であり、誰も使えないシステムは有益ではないと述べられてます。

SRE を紐解く 〜信頼性とは〜

13枚目の画像

信頼性についても「はじめに」に書いてあり、信頼性とは「システムが求められる機能を、定められた条件のもとで、定められた期間にわたり、障害を起こすことなく実行する確率」と述べられています。

これは1991年に出版された「 Practical Reliability Engineering」 の定義ですが、SRE 本でもこれを信頼性の定義にしています。

SRE を紐解く 〜システムとは〜

14枚目の画像

ここで注目したのは、システムと定められた条件の2つです。Webサービスのシステムの信頼性をどうするか考えたときに、2つあると思います。

1. Webサーバーや DBネットワーク、アプリケーションといった機械のシステム

2. Webサービスを開発する人と運用する人、もしくは組織

この2つのシステムが合わさって、Webサービスのシステムができています。信頼性工学の話だとヒューマンマシンシステムと呼ばれると思いますが、自動車は運転する人と、車自体があります。この2つが合わさって、Webサービスは動いているので、これらを考慮する必要があります。何かしら1つのコンポーネントの信頼性が低いと、それに引きずられて全体のシステムの信頼性が下がってしまうので、どちらも疎かになってはいけません。

SRE を紐解く 〜定められた条件とは〜

15枚目の画像

SRE の文脈では、ビジネス的な条件が多いと思います。コストは、人やお金、時間。売上を増加したり魅力的な新機能を開発していかないと競争に勝てないとか、市場の変化への対応。アジャイルやマイクロサービスも組織全体で変化へ対応する必要があるので、そこのスケーリングの話です。

「はじめに」から抜粋してますが、「スケーリングとは機械的なことよりも、むしろビジネスプロセスのスケールに関することのほうが難しい」と書いてあります。当然機械的なスケーリングも重要ですが、人のシステム、ビジネスのスケーリングも大事だと述べられています。組織によって変わるかもしれませんが、大半はビジネス的な話です。

発表者の考える SRE とは

16枚目の画像

私の考える SRE とは、信頼性のある Webサービスを提供するため、条件を考慮したシステムを設計・実装・運用する。または課題をエンジニアリングで解決していくことが SRE だと思います。

条件とは、さっき話したビジネス上の条件。システムはヒューマンマシンシステムだと思います。ヒューマンマシンシステムは新しい概念ではありません。

たとえば自動車は、最初、走ることが目的でどんどん機能を実装していき、大量生産できるようになってコモディティ化しました。人が使うようになり、事故が多発したので、安全について考えるようになり、信頼性工学や安全工学の分野が入ってきました。

インフラも同じで、たとえば #1 にあった IaC や #2 の Cloud Nativeなどです。機械的なシステムは、昔に比べたら容易にできるようになりました。しかし、本当は人側のシステムを絡めて、安全や信頼性について考える必要があります。

今まではそこを考える余力がありませんでしたが、今では手を出せるようになってきたと思います。自動車は安全基準ができてきたと思いますが、徐々に Webサービス業界のインフラも、人を絡めてシステムの話ができるようになってきたと考えています。


 

SRE の文化と組織 は3部作に分かれています。続きはこちらからご覧ください。

【1部】Infra Study Meetup SRE の文化と組織
【2部】Infra Study Meetup SRE の文化と組織
【3部】Infra Study Meetup SRE の文化と組織

Infra Study Meetupとは?

Forkwellは「成長し続けるエンジニアを支援する」をコンセプトに勉強会を開催しています。Infra Study Meetupは、インフラ技術の「これまで」と「これから」を網羅的に学ぶイベントです。インフラ技術の各分野に精通した講師を招いた講演や著名エンジニアによる発表を実施しています。

※注意事項

当記事に掲載されている全ての情報は、イベント実施日時点の情報であり、完全性、正確性、時間の経過、あるいは情報の使用に起因する結果について一切の責任を負わないものとします。

ForlkwellPress ロゴ画像

編集部

Follow

エンジニアに役立つ情報を定期的にお届けします。

エンジニアに役立つ情報を定期的にお届けします。

SHARE

目次

目次