SRE:Google運維解密是一本關(guān)于技術(shù)的書籍,谷歌神書,解密讓人仰望的技術(shù)崗位——谷歌SRE,如何構(gòu)建一個可長期維護的系統(tǒng)提供了非常寶貴的實踐經(jīng)驗,不管對于運維還是開發(fā)來說,都是一本值得仔細閱讀的好書。sregoogle運維解密pdf電子書,有需要的朋友可以免費下載。
SRE:Google運維解密書籍介紹
大型軟件系統(tǒng)生命周期的絕大部分都處于“使用”階段,而非“設(shè)計”或“實現(xiàn)”階段。那么為什么我們卻總是認為軟件工程應(yīng)該首要關(guān)注設(shè)計和實現(xiàn)呢?在《SRE:Google運維解密》中,Google SRE的關(guān)鍵成員解釋了他們是如何對軟件進行生命周期的整體性關(guān)注的,以及為什么這樣做能夠幫助Google成功地構(gòu)建、部署、監(jiān)控和運維世界上現(xiàn)存*的軟件系統(tǒng)。通過閱讀《SRE:Google運維解密》,讀者可以學(xué)習(xí)到Google工程師在提高系統(tǒng)部署規(guī)模、改進可靠性和資源利用效率方面的指導(dǎo)思想與具體實踐——這些都是可以立即直接應(yīng)用的寶貴經(jīng)驗。
任何一個想要創(chuàng)建、擴展大規(guī)模集成系統(tǒng)的人都應(yīng)該閱讀《SRE:Google運維解密》!禨RE:Google運維解密》針對如何構(gòu)建一個可長期維護的系統(tǒng)提供了非常寶貴的實踐經(jīng)驗。
SRE:Google運維解密目錄
第Ⅰ部分 概覽
第1 章 介紹
系統(tǒng)管理員模式
的解決之道:
方法論
確保長期關(guān)注研發(fā)工作
在保障服務(wù)SLO 的前提下最大化迭代速度
監(jiān)控系統(tǒng)
應(yīng)急事件處理
變更管理
需求預(yù)測和容量規(guī)劃
資源部署
效率與性能
小結(jié)
第2 章 Google 生產(chǎn)環(huán)境:SRE 視角
硬件
管理物理服務(wù)器的系統(tǒng)管理軟件
管理物理服務(wù)器
存儲
網(wǎng)絡(luò)
其他系統(tǒng)軟件
分布式鎖服務(wù)
監(jiān)控與警報系統(tǒng)
軟件基礎(chǔ)設(shè)施
研發(fā)環(huán)境
莎士比亞搜索:一個示范服務(wù)
用戶請求的處理過程
任務(wù)和數(shù)據(jù)的組織方式
第Ⅱ部分 指導(dǎo)思想
第3 章 擁抱風(fēng)險
管理風(fēng)險
度量服務(wù)的風(fēng)險
服務(wù)的風(fēng)險容忍度
辨別消費者服務(wù)的風(fēng)險容忍度
基礎(chǔ)設(shè)施服務(wù)的風(fēng)險容忍度
使用錯誤預(yù)算的目的
錯誤預(yù)算的構(gòu)建過程
好處
第4 章 服務(wù)質(zhì)量目標
服務(wù)質(zhì)量術(shù)語
指標
目標
協(xié)議
指標在實踐中的應(yīng)用
運維人員和最終用戶各關(guān)心什么
指標的收集
匯總
指標的標準化
目標在實踐中的應(yīng)用
目標的定義
目標的選擇
控制手段
可以建立用戶預(yù)期
協(xié)議在實踐中的應(yīng)用
第5 章 減少瑣事
瑣事的定義
為什么瑣事越少越好
什么算作工程工作
瑣事繁多是不是一定不好
小結(jié)
第6 章 分布式系統(tǒng)的監(jiān)控
術(shù)語定義
為什么要監(jiān)控
對監(jiān)控系統(tǒng)設(shè)置合理預(yù)期
現(xiàn)象與原因
黑盒監(jiān)控與白盒監(jiān)控
個黃金指標
關(guān)于長尾問題
度量指標時采用合適的精度
簡化,直到不能再簡化
將上述理念整合起來
監(jiān)控系統(tǒng)的長期維護
:警報過多的案例
:可預(yù)知的、可腳本化的人工干預(yù)
長跑
小結(jié)
第7 章 Google 的自動化系統(tǒng)的演進
自動化的價值
一致性
平臺性
修復(fù)速度更快
行動速度更快
節(jié)省時間
自動化對Google SRE 的價值
自動化的應(yīng)用案例
的自動化使用案例
自動化分類的層次結(jié)構(gòu)
讓自己脫離工作:自動化所有的東西
舒緩疼痛:將自動化應(yīng)用到集群上線中
使用Prodtest 檢測不一致情況
冪等地解決不一致情況
專業(yè)化傾向
以服務(wù)為導(dǎo)向的集群上線流程
:倉庫規(guī)模計算機的誕生
可靠性是最基本的功能
建議
第8 章 發(fā)布工程
發(fā)布工程師的角色
發(fā)布工程哲學(xué)
自服務(wù)模型
追求速度
密閉性
強調(diào)策略和流程
持續(xù)構(gòu)建與部署
構(gòu)建
分支
測試
打包
系統(tǒng)
部署
配置管理
小結(jié)
不僅僅只對Google 有用
一開始就進行發(fā)布工程
第9 章 簡單化
系統(tǒng)的穩(wěn)定性與靈活性
乏味是一種美德
我絕對不放棄我的代碼
“負代碼行”作為一個指標
最小
模塊化
發(fā)布的簡單化
小結(jié)
第Ⅲ部分 具體實踐
第10 章 基于時間序列數(shù)據(jù)進行有效報警
的起源
應(yīng)用軟件的監(jiān)控埋點
監(jiān)控指標的收集
時間序列數(shù)據(jù)的存儲
標簽與向量
規(guī)則計算
報警
監(jiān)控系統(tǒng)的分片機制
黑盒監(jiān)控
配置文件的維護
十年之后
第11 章 on-call 輪值
介紹
工程師的一天
工作平衡
數(shù)量上保持平衡
質(zhì)量上保持平衡
補貼措施
安全感
避免運維壓力過大
運維壓力過大
奸詐的敵人-運維壓力不夠
小結(jié)
第12 章 有效的故障排查手段
理論
實踐
故障報告
定位
檢查
診斷
測試和修復(fù)
神奇的負面結(jié)果
治愈
案例分析
使故障排查更簡單
小結(jié)
第13 章 緊急事件響應(yīng)
當(dāng)系統(tǒng)出現(xiàn)問題時怎么辦
測試導(dǎo)致的緊急事故
細節(jié)
響應(yīng)
事后總結(jié)
變更部署帶來的緊急事故
細節(jié)
事故響應(yīng)
事后總結(jié)
流程導(dǎo)致的嚴重事故
細節(jié)
災(zāi)難響應(yīng)
事后總結(jié)
所有的問題都有解決方案
向過去學(xué)習(xí),而不是重復(fù)它
為事故保留記錄
提出那些大的,甚至不可能的問題:假如……
鼓勵主動測試
SRE:Google運維解密pdf預(yù)覽
- PC官方版
- 安卓官方手機版
- IOS官方手機版