home-stack-kustomize/kustomize/bases/ollama/ollama-deployment.yaml

apiVersion: apps/v1
kind: Deployment
metadata:
  name: server
spec:
  replicas: 1
  strategy:
    type: Recreate
  selector:
    matchLabels:
      app.kubernetes.io/component: server
  template:
    metadata:
      labels:
        app.kubernetes.io/component: server
    spec:
      affinity:
        nodeAffinity:
          requiredDuringSchedulingIgnoredDuringExecution:
            nodeSelectorTerms:
              - matchExpressions:
                  # Image only supports amd64
                  - key: kubernetes.io/arch
                    operator: In
                    values:
                      - amd64
      priorityClassName: high-priority
      runtimeClassName: nvidia
      containers:
        - name: server
          image: ollama/ollama
          env:
            - name: OLLAMA_KEEP_ALIVE
              value: "-1"
            # - name: HSA_OVERRIDE_GFX_VERSION
            #   value: 10.1.0
            # - name: HSA_ENABLE_SDMA
            #   value: "0"
          resources:
            requests:
              memory: 4Gi
              cpu: 2000m
            limits:
              memory: 4Gi
              cpu: 3000m
              nvidia.com/gpu: "2"
              # amd.com/gpu: "1"
          ports:
            - name: http
              hostPort: 11434
              containerPort: 11434
          volumeMounts:
            - name: server-data
              mountPath: /root/.ollama
      volumes:
        - name: server-data
          hostPath:
            path: /var/lib/ollama
            type: DirectoryOrCreate
---
apiVersion: scheduling.k8s.io/v1
kind: PriorityClass
metadata:
  name: high-priority
value: 1000000
globalDefault: false
---
apiVersion: v1
kind: Service
metadata:
  name: server
  labels:
    app.kubernetes.io/component: server
spec:
  selector:
    app.kubernetes.io/component: server
  ports:
    - name: http
      port: 11434
      targetPort: http
---
apiVersion: v1
kind: Service
metadata:
  name: nodeport
  labels:
    app.kubernetes.io/component: nodeport
spec:
  type: NodePort
  selector:
    app.kubernetes.io/component: server
  ports:
    - targetPort: http
      port: 11434
      nodePort: 31002
add llm configs 2024-07-06 16:37:26 +00:00			`apiVersion: apps/v1`
			`kind: Deployment`
			`metadata:`
			`name: server`
			`spec:`
			`replicas: 1`
			`strategy:`
			`type: Recreate`
			`selector:`
			`matchLabels:`
			`app.kubernetes.io/component: server`
			`template:`
			`metadata:`
			`labels:`
			`app.kubernetes.io/component: server`
			`spec:`
			`affinity:`
			`nodeAffinity:`
			`requiredDuringSchedulingIgnoredDuringExecution:`
			`nodeSelectorTerms:`
			`- matchExpressions:`
			`# Image only supports amd64`
			`- key: kubernetes.io/arch`
			`operator: In`
			`values:`
			`- amd64`
			`priorityClassName: high-priority`
add nvidia gpu support 2024-08-07 04:50:31 +00:00			`runtimeClassName: nvidia`
add llm configs 2024-07-06 16:37:26 +00:00			`containers:`
			`- name: server`
add nvidia gpu support 2024-08-07 04:50:31 +00:00			`image: ollama/ollama`
add ingress for ollama and remote litellm 2024-08-08 01:08:02 +00:00			`env:`
			`- name: OLLAMA_KEEP_ALIVE`
set OLLAMA_KEEP_ALIVE to -1 to work around an nvidia driver issue 2024-11-10 23:38:05 +00:00			`value: "-1"`
add llm configs 2024-07-06 16:37:26 +00:00			`# - name: HSA_OVERRIDE_GFX_VERSION`
			`# value: 10.1.0`
			`# - name: HSA_ENABLE_SDMA`
			`# value: "0"`
			`resources:`
			`requests:`
add nvidia gpu support 2024-08-07 04:50:31 +00:00			`memory: 4Gi`
			`cpu: 2000m`
add llm configs 2024-07-06 16:37:26 +00:00			`limits:`
add nvidia gpu support 2024-08-07 04:50:31 +00:00			`memory: 4Gi`
			`cpu: 3000m`
assign extra nvida gpu to ollama 2024-08-17 18:16:16 +00:00			`nvidia.com/gpu: "2"`
			`# amd.com/gpu: "1"`
add llm configs 2024-07-06 16:37:26 +00:00			`ports:`
expose ollama via nodeport instead 2024-08-09 02:19:35 +00:00			`- name: http`
			`hostPort: 11434`
			`containerPort: 11434`
add llm configs 2024-07-06 16:37:26 +00:00			`volumeMounts:`
			`- name: server-data`
			`mountPath: /root/.ollama`
			`volumes:`
			`- name: server-data`
			`hostPath:`
			`path: /var/lib/ollama`
			`type: DirectoryOrCreate`
			`---`
			`apiVersion: scheduling.k8s.io/v1`
			`kind: PriorityClass`
			`metadata:`
			`name: high-priority`
			`value: 1000000`
			`globalDefault: false`
			`---`
			`apiVersion: v1`
			`kind: Service`
			`metadata:`
			`name: server`
			`labels:`
			`app.kubernetes.io/component: server`
			`spec:`
			`selector:`
			`app.kubernetes.io/component: server`
			`ports:`
			`- name: http`
			`port: 11434`
expose ollama via nodeport instead 2024-08-09 02:19:35 +00:00			`targetPort: http`
			`---`
			`apiVersion: v1`
			`kind: Service`
			`metadata:`
			`name: nodeport`
			`labels:`
			`app.kubernetes.io/component: nodeport`
			`spec:`
			`type: NodePort`
			`selector:`
			`app.kubernetes.io/component: server`
			`ports:`
			`- targetPort: http`
			`port: 11434`
			`nodePort: 31002`