• 已编辑

创建部署问题时,请参考下面模板,你提供的信息越多,越容易及时获得解答。如果未按模板创建问题,管理员有权关闭问题。
确保帖子格式清晰易读,用 markdown code block 语法格式化代码块。
你只花一分钟创建的问题,不能指望别人花上半个小时给你解答。

操作系统信息
虚拟机,Centos7 8C/25G

Kubernetes版本信息
Client Version: version.Info{Major:"1", Minor:"27", GitVersion:"v1.27.16", GitCommit:"cbb86e0d7f4a049666fac0551e8b02ef3d6c3d9a", GitTreeState:"clean", BuildDate:"2024-07-17T01:53:56Z", GoVersion:"go1.22.5", Compiler:"gc", Platform:"linux/amd64"}

Kustomize Version: v5.0.1

Server Version: version.Info{Major:"1", Minor:"31", GitVersion:"v1.31.0", GitCommit:"9edcffcde5595e8a5b1a35f88c421764e575afce", GitTreeState:"clean", BuildDate:"2024-08-13T07:28:49Z", GoVersion:"go1.22.5", Compiler:"gc", Platform:"linux/amd64"}

容器运行时
containerd v1.7.13

KubeSphere版本信息
平台版本:kubesphere:v4.1.3 kubernetes:1.31.0

在线使用kk安装

问题是什么
在安装DevOps(V1.1.1)扩展时,扩展组件安装成功,但是进行集群Agent安装时经过几分钟的安装之后出现超时情况,异常情况截图如下:

关键的日志如下:

2025-04-26T23:51:43.746297676+08:00 ready.go:420: [debug] StatefulSet is not ready: argocd/devops-agent-argocd-application-controller. 0 out of 1 expected pods have been scheduled2025-04-26T23:51:44.251231723+08:00 Error: client rate limiter Wait returned an error: context deadline exceeded

根据日志的提示说没有找到**argocd/devops-agent-argocd-application-controller**的pod,但是我在容器组中能够看到该服务的容器正常启动了,截图如下:

我做过以下尝试

  1. 刚开始是jenkins的pod有问题,但是jenkins容器是没有完成调度的,并且根据日志可以看到是平台内存不足导致的,所以我增加平台的内存之后jenkins的pod能够完成调度;
  2. 我用的是默认的配置,唯一的改动是cpu的资源配置,往更多的资源方向加,但是pod能够正常启动,集群Agent安装的ready.go方法中的轮询逻辑仍然无法发现该pod;
  3. 我已经同步时间,其他扩展组件都能够正常安装;
  4. 我尝试卸载再安装,但还是卡在了日志中提到的无法发现**argocd/devops-agent-argocd-application-controller**pod这一步直至超时。

devops 最新版本为 v1.1.3,修复了之前的许多bug。请安装 ks v4.1.3 + devops 1.1.3。

    stoneshi-yunify 我已经升级devops v1.1.3 并且重新卸载安装devops组件,但是还是一样的错误,无法完成集群agent的安装

      think kubectl -n kubesphere-devops-system get pod , kubectl -n argocd get pod, 安装时观察两个ns下的pod,看哪个失败了,describe pod 或 logs pod 看具体的错误是什么。

        stoneshi-yunify 尝试重新安装之后无法复现到那一步了,现在是卡在调度devops-jenkins的pod失败,原因是它的持久卷一直是显示删除中,而重新安装集群agent时一直在争抢,这就导致了无法完成该pod的调度,我先解决这个问题