已知问题
1. 日志规则过多导致秘钥 logger-fluentd-app 超长无法更新配置
此问题记录在 kubegems/issues/295, 由于 Kubernetes Secret 资源 annotation 最大支持 262144 个字符串,当集群内存在大量配置时,导致 banzaicloud.com/last-applied
记录超长 operator 无法提交最新配置。
解决方法: 删除 logger-fluentd-app这个秘钥,由 operator 重新提交即可恢复
$ kubectl delete secret logging-operator-logging-fluentd-app -n kubegems-logging
此外,由于 kubernetes secret 的 data 部分最大空间为 3MB,如果集群内规则过多也会导致规则无法更新。
目前此问题无解,上游正在探讨效仿prometheus-operator
将配置压缩成 tar.gz 格式写入 secret,然后在config-reloader
容器中解压重载配置。这个进度在这里查看 logging-operator/pull/1108
2. 插件 eventer 服务运行一段时间后无事件输出
此问题进度在此处跟进kubegems/issues/247,此问题在于client go
的限流策略, 在 config 中调大 eveter 的 qos即可。上游跟进 kubernetes-event-exporter/issues/16
info
由于用户的集群规模不通,复现这个问题的条件也不一样,遇见此问题,再根据实际情况修改配置
3. MongoDB Exporter 无法连接部分 MongoDB 数据库,报错 "Unable to decode message length"
KubeGems v1.22 版本引入的 mongodb-exporter 是由 prometheus-community 社区基于ssheehy/mongodb-exporter
构建的。当前这个项目以停止维护,且对 MongoDB 4.2 版本以上服务支持有限。prometheus-community 社区已经将新的 mongodb-exporter 切换成由 percona 提供。
但存在部分 metrics 变化导致 KubeGems 监控模板不再使用。我们计划在 KubeGems v1.23 版本中跟进社区替换此 exporter。
4. Nacos 插件在集群 (embedded) 模式下,重启所有 nacos 容器后集群无法正常恢复
Nacos 集群所有容器都重启的场景下(可能是计算节点宕机、或例行维护),新的 nacos-0 启动时无法解析其它 pod 或连接其它 pod 失败(因为其它nacos pod 还没启动) 导致集群无法正常恢复。
由于 Kubernetes Statefulset 默认的容器创建规则是有序的(OrderReady),这会影响 nacos 集群启动时之间的通信。
StatefulSet 的容器管理策略 pod-management-policies
修复此问题,只需需将 nacos 的 statefulset 中的容器管理规则修改为 Parallel
即可
info
StatefulSet 不允许直接修改.spec.podManagementPolicy
,需将 StatefulSet 资源导出来修改后重新提交
其它问题
如果您仍有其他问题无法解决,可以通过以下渠道联系我们: