99.jpg?x-oss-process=image/auto-orient,1/quality,q_90/watermark,image_bG9nby5wbmc_eC1vc3MtcHJvY2Vzcz1pbWFnZS9yZXNpemUsUF8yMA,g_center,t_50,x_10,y_10

运维在前期是一个很苦逼的工作,可能干着修电脑掐网线的活!时间也碎片化,各种零碎琐事围绕着你,很难体现个人价值,渐渐对行业很迷茫。这些枯燥无味工作的确使人匮乏,从技术层面讲这些其实是基本功,对后期的运维工作会无形中带来一定帮助。所以前期要保持积极向上的心态,持续学习。在未来某一天,相信会回报给你的!根据杜老师多年的运维工作经验,分享下高级运维工程师学习路线。

初级

  1. 系统基础:刚开始阶段需要熟悉Linux/Windows操作系统安装,目录结构、启动流程等等;

  2. 系统管理:主要学习Linux类系统,生产环境基本都在字符界面完成工作,所以要掌握常用几十个基本管理命令,包括用户管理、磁盘分区、软件管理、文件权限、文本处理、进程管理、性能分析工具等等;

  3. 网络基础:OSI和TCP/IP模型一定要熟悉。基本的交换机、路由器概念及实现原理需要知道;

  4. 脚本基础:掌握Shell的基本语法结构,能编写简单的脚本即可。

中级

  1. 网络服务:最常用的网络服务一定得会部署,比如vsftpd/NFS/Samba/DNS/DHCP等。代码版本管理系统可以学习下主流的SVN或者Git,能部署和简单使用就可以了。经常在服务器之间传输数据,所以要会使用:rsync或者scp。数据同步:inotify或者sersync。重复性的工作,可写成脚本定时去运行,所以得会配置Linux下的定时任务服务crond;

  2. 网站服务:每个公司基本都有网站,能够让网站跑起来,就需要搭建网站服务平台了。如果是用PHP语言开发的,通常要搭建LAMP/LNMP网站平台。如果是Java语言开发,通常用Tomcat运行项目,为了提高访问速度,可以使用Nginx反向代理Tomcat,Nginx处理静态页,Tomcat处理动态页,实现动静分离。不只是会部署这么简单,还需要知道HTTP协议工作原理和简单的性能调优;

  3. SQL数据库:数据库选择MySQL,它是世界上使用最广泛的开源数据库。要会一些简单的SQL语句、用户管理、常用存储引擎、数据库备份与恢复。还需要会主从复制、性能优化、主流集群方案:MHA/MGR等。NoSQL这么流行当然少不了,学一下Redis/MongoDB这两个就好了;

  4. 网络安全:安全非常重要,不要等到系统被入侵了,再做安全策略!所以,一台服务器上线后应马上做安全访问控制策略,比如使用IPTABLES限制只允许信任源IP访问,关闭一些无用的服务和端口。一些常见的攻击类型一定得知道,比如CC/DDOS/ARP等;

  5. 监控系统:监控必不可少,它是及时发现问题和追溯问题的救命稻草。可以选择学习主流的Zabbix开源监控系统,功能丰富,能满足基本的监控需求。监控点包括基本服务器资源、接口状态、服务性能、PV/UV以及日志等方面。也可以弄个仪表盘展示几个实时关键数据,比如Grafana会非常炫酷;

  6. 脚本编程进阶:Shell脚本是Linux自动完成工作的利器,必须熟练编写,所以得进一步学习函数、数组、信号、发邮件等。文本处理三剑客得玩六,Linux下文本处理就指望它们了;

  7. 高级脚本开发:Shell脚本只能完成一些基本的任务,要完成更复杂些的任务,比如多进程等,需要学高级语言了。Python是运维领域中使用最多的语言,简单易用!此阶段掌握基础就够了,例如基本语法结构、文件对象操作、函数、迭代对象、异常处理、数据库编程等。

高级

  1. 网站静态缓存:用户老喊着访问网站慢,看看服务器资源还很富裕啊!网站访问慢也许不是服务器资源饱和导致,影响因素很多,例如网络、转发层数等等。对于网络,存在南北通信问题,之间访问会慢,这个可使用CDN解决,同时缓存静态页面,尽可能将请求拦截在最上层响应,减少后端请求、响应时间。如果不使用CDN,也可以使用Squid/Varnish/Nginx缓存服务实现静态页面缓存,放到流量的入口处;

  2. 集群:单台服务器的资源终究有限,抵抗高访问量肯定是无法支撑的,解决此问题最关键的技术就是采用负载均衡器,水平扩展多台Web服务器,同时对外提供服务,这样就成倍扩展性能了。负载均衡主流开源技术有LVS/HAProxy/Nginx。一定要熟悉一两个!网站服务器性能瓶颈解决了,数据库则更为关键,还是采用集群,就拿MySQL来说吧,可以一主多从架构,在基础上实现读写分离,主负责写,多个从负责读,从库可以水平扩展,前面再来个四层负载均衡器,妥妥承载千万级PV!高可用软件也得会,避免单点利器主流的有Keepalived/Heartbeat等。网站图片咋这么多!NFS共享存储支撑不过了,处理很慢,好弄!上分布式文件系统,并行处理任务,无单点高可靠高性能等特性,主流的有FastDFS/MFS/HDFS/Ceph/GFS等。初期的话建议学习下FastDFS,可以满足中小规模需求;

  3. 虚拟化和容器:硬件服务器资源利用率很低,甚是浪费!可以把空闲较多的服务器虚拟化,弄成很多个虚拟机,每个虚拟机就是一个完整的操作系统,可很大程度提高资源利用率,建议学习开源的KVM+OpenStack。虚拟机作为基础平台还可以,但是应用业务弹性伸缩也太重量了吧!启动好几分钟,文件又这么大,快速扩展太费劲了!好说,上容器吧,容器主要特点是快速部署和环境隔离。一个服务封装到镜像中,分分钟钟可创建几百个容器。主流的容器技术非Docker莫属了。当然,生产环境单机Docker多数情况下是无法满足业务需求的,可以部署Kubernetes/Swarm集群化管理容器,形成一个较大的资源池,集中管理,为基础架构提供有力的支撑;

  4. 自动运维:重复工作不但提高不了效率,价值也得不到体现。一切运维工作的标准化,例如环境版本、目录结构、操作系统统一。在标准化基础上才能更方便的自动化,点点鼠标或者敲几个命令即可完成一项复杂的工作任务。因此所有操作尽可能自动化,减少人为失误,提高工作效率。主流服务器集中管理工具Ansible/SaltStack,这两个选任意一个就行。持续集成工具杜老师推荐Jenkins;

  5. 脚本开发进阶:可再深入学习下Python开发,掌握面向对象编程。最好也掌学习一个网站框架开发网站,如Django/Flask,主要用来开发运维管理系统,将一些复杂流程写到平台中,然后集成集中管理工具,可打造一个属于运维自己的管理平台;

  6. 日志分析系统:日志也很重要,定期分析发现潜在隐患,提炼有价值的东西。开源的一套日志系统ELK,学会部署使用,给开发者提供日志查看需求;

  7. 性能优化:只会部署是远远不够的,性能优化能最大化的提升服务承载量。这块也是比较难的,也是高薪的关键点之一,为了钱也得下点功夫学习啊!可从硬件、操作系统、软件和架构等层面维度展开思考。

总结

杜老师对高级运维工程师需要掌握的工具做个表格:

类型 名称
文本处理 grep/sed/awk
数据传输 rsync/scp/inodify/sersync
进程管理 Supervisor
性能分析 top/free/df/iftop/iostat/vmstat/dstat/sar/sysdig
网络服务 vsftp/NFS/Samba/DNS/DHCP/Postfix
网站服务 Apache/Nginx/Tomcat/JBoss/resin
SQL数据库 MySQL/MariaDB
NoSQL数据库 Redis/MongoDB
消息队列 RabbitMQ/ActiveMQ
版本管理 SVN/Git
静态缓存 Squid/Varnish/Nginx
负载均衡 LVS/HAProxy/Nginx
HA高可用 Keepalived/Heartbeat/DRBD
集中管理工具 Ansible/SaltStack/Chef/Puppet
虚拟化云平台 KVM/Xen/Docker/Kubernetes/Openstack/CloudStack
自动装机 Kickstart/Cobbler
抓包分析 tcpdump/Wireshark
持续集成 Jenkins/GitLab
MySQL数据库代理 Altas/Cobar/MyCat
压测 ab/fio/sysbench/mysqlslap
安全检查 chkrootkit/rkhunter
日志系统 ELK
监控 Zabbix/Cacti/Nagios/Grafana

微信打赏:

 评论