分类自动化运维下的文章 - 明锐有光

登录

标签搜索

Mingrui

累计撰写 92 篇文章
累计收到 8 条评论

搜索到 10 篇与的结果

2025-09-09
服务器故障的一般排查流程当服务出现故障时，比如服务不可达，无法远程访问，应用程序报错等故障时，常用的排查思路整理如下。确定故障和检查硬件当发现服务器出现故障时，应详细记录故障发生的具体情况。包括：故障发生时间，故障发生规律，故障是否具有规律性等故障的具体表现，如服务器无法连接，应用程序报错，端口未开放等故障发生前是否有特殊操作，如系统更新，软件安装，修改配置等如果使用的不是云服务器而是自有硬件，还需要检查硬件设置状态查看服务器电源指示灯是否正常，硬盘指示灯是否有异常闪烁，cpu风扇是否正常运转，是否有异响或异味。检查交换机、路由器等常用网络设备是否存在异常，检查网络设备的指示灯状态，确认网线连接是否牢固。若服务器配备硬件监控系统，登录查看硬件健康状态报告，排查是否有硬盘故障，内存报错，电源问题等。验证是否存在网络问题本地网络测试：在服务器本地使用ping命令测试与网关、DNS服务器的连通性，检查防火墙。远程连接测试：从客户端尝试ping服务器ip，使用traceroute命令追踪路由，判断故障节点。端口状态检查：在服务器上使用netstat或者ss命令查看端口的监听状态，确认应用程序所需端口是否正常开放。查看、分析日志查看系统生成的各种日志文件，定位故障发生的原因，比如/var/log/messages（系统通用日志），/var/log/auth.log（认证相关日志）等，使用grep筛选关键词（如error、fail）快速定位问题。针对服务器上运行的应用程序（如web服务，数据库。中间件等），查看其专属日志。如，web服务，Nginx日志通常在/var/log/nginx/access.log和error.log，apache日志在/var/log/apache2/目录下。或者去配置文件中查看日志路径，在对日志文件进行排查。数据库，mysql日志包括错误日志，慢查询日志等。尝试重启服务或设备重启服务：若定位到某一服务异常，先尝试重启该服务观察是否恢复正常。重启服务器：排除掉硬件故障风险后，可以尝试重启服务器，在重新启动服务来观察是否恢复正常。（需提前通知相关用户，避免数据丢失）。
- 2025年09月09日
- 14 阅读
- 0 评论
- 0 点赞
2025-09-09
解决磁盘空间不足报错的常用方法在收到磁盘空间不足的警报时，在不能对存储空间扩容的情况下，通常可以使用以下两种方式解决。方法一使用 df -h 命令查看磁盘空间的使用情况，确定哪个目录占用的磁盘空间过高；确定目录后，使用 du -h 命令进行逐级定位，找到占用空间最大的大文件；查看文件内容，确认是否需要保留。如果保留就压缩导出，不保留就直接删除。方法二使用find命令查找目录下的大文件，如大于500M的文件，然后根据实际情况判断是否需要删除或导出。注意：使用df -h命令有时并不能发现大文件，可能的原因是文件已被删除，但是进程仍然在调用这个文件。此时可以通过 lsof | grep delete 命令找到占用的进程，把这个进程kill掉然后重启服务即可。
- 2025年09月09日
- 9 阅读
- 0 评论
- 0 点赞
2025-09-09
zabbix实现自动修复核心逻辑zabbix的“监控-触发-动作”联动机制核心原则只处理“原因明确、修复方式固定、重复执行无副作用”的问题，目的是减少人工的重复劳动，而非代替人工决策。适用场景服务/进程异常：服务意外停止（如nginx、mysql进程消失）→ 自动重启；进程资源占用过高（内存/cpu超限）→自动重启释放资源资源阈值超标：磁盘空间满（如日志占满）→ 自动清理旧文件\日志；非核心进程资源超限→自动杀死异常进程网络/端口问题：关键端口未监听（如80，3306）→ 自动重启对应服务；临时网络抖动导致断开→ 自动重连服务配置文件/权限异常：服务配置文件误改→ 自动覆盖为备份文件；目录/文件权限错误→ 自动修正权限不适用的场景复杂故障：数据损坏、硬件故障（如硬盘坏道）；业务逻辑错误，代码bug需人工判断的情况：业务流量突增；多原因导致的同一现象高风险操作：删除数据库表、修改核心配置；可能引发连锁故障的操作
- 2025年09月09日
- 6 阅读
- 0 评论
- 0 点赞
2024-09-26
nginx配置禁止通过IP地址直接访问网站默认情况下Nginx配置完毕后，是允许ip地址直接访问的。这样做的一个显式风险是网络上的各种ip访问扫码工具会收集我们的web应用程序信息，容易造成信息泄露。相应的，可以在access.log中看到很多通过IP地址访问的记录。修改nginx的配置文件可以禁止通过IP地址访问，相应的配置如下：server { listen 80 default_server; listen 443 default_server; server_tokens off; server_name _ ; return 444; ssl_certificate /usr/share/nginx/doc_html/doc.zhangmingrui.cool_bundle.crt; ssl_certificate_key /usr/share/nginx/doc_html/doc.zhangmingrui.cool.key; } 说明：default_server 代表默认无匹配（的server_name）时由当前的server处理。server_name _ 代表无效域名。return 444 匹配到该server后，返回444状态（前段收到ERR_EMPTY_RESPONSE 错误）。
- 2024年09月26日
- 58 阅读
- 0 评论
- 0 点赞
2024-03-10
Redhat 8版本安装ansible步骤配置本地和网络yum源rm -rf /etc/yum.repos.d/* yum install -y https://mirrors.aliyun.com/epel/epel-release-latest-8.noarch.rpm sed -i 's|^#baseurl=https://download.example/pub|baseurl=https://mirrors.aliyun.com|' /etc/yum.repos.d/epel* sed -i 's|^metalink|#metalink|' /etc/yum.repos.d/epel* vi /etc/yum.repos.d/local.repo local-BaseOS] name=local-BaseOS baseurl=file:///mnt/BaseOS/ enabled=1 gpgcheck=0 [local-APPStream] name=local-APPStream baseurl=file:///mnt/AppStream/ enabled=1 gpgcheck=0 直接使用yum安装ansible时会报错问题: conflicting requests - nothing provides /usr/bin/python3.11 needed by ansible-8.3.0-1.el8.noarch - nothing provides python(abi) = 3.11 needed by ansible-8.3.0-1.el8.noarch - nothing provides python3.11dist(ansible-core) >= 2.15.3 needed by ansible-8.3.0-1.el8.noarch (尝试添加 '--skip-broken' 来跳过无法安装的软件包或 '--nobest' 来不只使用最佳选择的软件包)正确的安装方式yum install python3 python3-pip pip3 install --upgrade pip pip3 install setuptools-rust pip3 install ansible
- 2024年03月10日
- 84 阅读
- 0 评论
- 0 点赞

1
2