Files
blog/_posts/2020-01-05-devops.md
T
2022-01-04 20:42:55 +08:00

45 lines
6.0 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
---
layout: post
title: Mayx的运维笔记
tags: [运维, 笔记]
---
新年新Bug<!--more-->
# 开端
前天,我维护的[花火学园](https://www.say-huahuo.com)宕机了,由于在上面安了乱七八糟的各种各样的东西,所以我以为它只是日常卡机,所以我就随手重启了一下。
重启完之后,它凉了,不知道为什么,数据库连不上了……于是我开始问另外一个同样可以登录服务器的人,问他有没有动过数据库,结果听起来貌似他好几个月都没登服务器了。于是我慌了,试着手动启动MySQL的服务,然而黑色的界面里冷冰冰的`Job for mysql.service failed`告诉我事情没有那么简单。我按照错误的提示查看了详细信息,然而里面也只是简单的记录了一句`mysql.service: Main process exited, code=exited, status=1/FAILURE`这样通俗而又简单的一句话……这和没说有什么区别……谁都知道它启动失败了……
没办法,这时候只能向网站的上一代运维求助了 ~~(向大佬低头)~~ ,经过大佬不知道什么样的操作,终于找到了真正的错误详细信息,看起来好像是数据库中的用户表出了问题。于是大佬重置了用户表,总算是勉强把MySQL服务重新启动了。
不过虽然这时候再做一些简单的配置,应该差不多就可以重新上线了,不过考虑了一下,为了让以后不会再出现乱七八糟的事,我打算把网站重新迁移一遍,让系统环境做一个大更新!
# 重建的过程
首先重新租一台服务器吧,之前用的是Ubuntu的服务器,现在一年过去了,也该考虑考虑稳定性的问题了,于是我把系统换成了CentOS。
然后为了之后配置起来方便一些,我依然决定使用服务器商已经配置好的LEMP应用,这样建好以后我也不用再考虑安装服务器软件的问题了。
在新的服务器部署的过程中,我回到原来的服务器,开始打包网站的数据库和文件,做好向新的服务器转移的准备。
没多久,新的服务器就部署好了,于是我直接一个`scp`就把所有的文件传到了新的服务器上。不得不说,服务器直接传输文件的速度是真的快,几个GiB的文件几分钟就传完了。顺便感叹一下,花火学园的数据居然也都好几个GiB了,想当年我接手的时候还不到2GiB。
然后就是导入数据库和解压网站文件,以及配置Nginx,完成以后,网站不出所料的可以正常使用了。
然后就是设置DNS之类乱七八糟的事,以及Cloudflare的CDN之类的,不过还好之前设置过防火墙白名单的配置,这次也方便了不少。
不过这还没完,既然换了新的服务器,而这一年里我对服务器的了解也更深了一些,至少应该做一些优化吧。
所以呢,我就先把BBR给装上了,搞太多东西也很麻烦,所以我就直接用了[一键脚本](https://github.com/teddysun/across/blob/master/bbr.sh)。顺便又搞了Swap,毕竟服务器只有1GiB的内存,是应该多搞点内存,虽然可能速度会降低,但还是求稳嘛,而且服务器好像是SSD的硬盘,应该影响不大。
到这里,基础的环境部分我就自认为搞好了。
# 之后的优化
到了第二天,我又心血来潮,想再搞点别的东西来优化服务器,首先我的目标是把对内的TCP/IP sockets全部换成UNIX domain sockets,用UNIX domain sockets可以减少不少系统开销,所以我首先对PHP-FPM开刀。
其实改起来也很简单,就是把PHP-FPM的配置文件中的`listen`项从IP地址换成文件,然后把Nginx中的`fastcgi_pass`改成带`unix:`前缀的文件就OK了。我改完之后真就以为OK了,但是现实中的`502 Bad Gateway`打破了我的幻想,看来没那么简单……
后来我仔细看了一下PHP-FPM文件的注释,发现了一句警告:
```
; WARNING: If you switch to a unix socket, you have to grant your webserver user
; access to that socket by setting listen.acl_users to the webserver user.
```
哦哦,原来是要设置`listen.acl_users`……然后我把nginx加了进去,重启之后它就好了。
之后我打算优化一下MySQL,不过我也不是很清楚MySQL中怎么设置UNIX domain sockets,本来是打算就此放过,不过我听说好像数据库连接中用`127.0.0.1`要比`localhost`要好,因为少了一次解析。我听着感觉好像有那么点道理,然后就去把网站配置的数据库地址给改了。
不过后来发现查了一下,发现好像MySQL对`localhost`地址有特殊规定,在MySQL中如果使用`localhost`,那么连接就会走UNIX domain sockets,而使用`127.0.0.1`就会和平常一样走TCP/IP sockets。
看完之后我感觉有那么点不爽啊,然后就回去又把我的数据库地址改了回去,不仅如此,我还打算关掉3306端口,后来查了一下,发现在配置文件中加入`skip-networking`就可以了。
之后我查看了一下端口,除了443端口和我的SSH的端口外还有一个奇怪的25端口,看着感觉很不爽,查了一下是postfix的端口,然后我一个不爽就把postfix随手卸载掉了。
再往后,我看了看我的Nginx日志,发现大小有那么点不对劲,才建的服务器日志已经有400-500MiB了?!虽然花火学园平时流量不算小,但也不至于这么夸张吧?后来我发现我没有过滤静态资源的日志,之后又修改了一下配置文件,心里就舒服多了😁。
于是,花火学园的优化就到此结束。
# 后记
我其实应该仔细看看日志的,向莫名其妙出现的BUG说不定是攻击? ~~(被害妄想症23333~~ 后来我翻了翻日志好像也没这个倾向。
另外我确实不应该把正在开发中的项目和主站放在同一个服务器,至少鸡蛋也不应该放到同一个篮子里面嘛……这次我打算做好主站的所有配置,保证它的正常运行。