prometheus¶

Metadata¶

Field	Value
Service	prometheus
Purpose	Metrics collection, alerting, and time-series storage
Criticality	Tier 1
Owner	Platform / Observability owner
Clusters	jls
Namespace	prometheus
Exposure	internet
Stateful	yes
Backup class	snapshot
RPO / RTO	Daily backup target, 2 to 6 hours to restore
Last reviewed	2026-05-20

Prometheus provides metrics collection, retention, and alert delivery for the JLS cluster deployment represented in this repository.

If Prometheus fails, metrics queries and alerting stop for the affected environment.

Dependency	Type	Why it matters
Alertmanager	alerting	Receives and routes alerts
Traefik	ingress	Exposes Prometheus and Alertmanager where configured
Persistent storage	storage	Stores TSDB data and alerting state

[Targets / exporters]
  -> [Prometheus]
  -> [Alertmanager]
  -> [Operators]

Item	Value
Source path	prometheus/overlays/jls
Deployment model	Helm chart rendered into a Fleet-managed overlay
Namespace	prometheus
Workload kind	StatefulSets and Deployments
Chart or image version	See the rendered chart version under overlays/jls
Config files	overlays/jls plus root fleet.yaml

Cluster	Overlay path	Notes
jls	prometheus/overlays/jls	Current JLS deployment

Variable	Source	Purpose	Secret?
Helm values-driven settings	rendered chart values and secrets	Configure scraping, alerting, and external integrations	mixed

Resource	Path	Purpose
Helm-generated ConfigMaps	prometheus/overlays/jls	Rule files, scrape config, and chart runtime config

Secret names: alerting, remote-write, and ingress-related secrets in the prometheus namespace
Source of truth: chart values and runtime secret material
Rotation trigger: remote-write or alert receiver changes
Recovery note: restore alerting and remote-write secrets before restarting pods

Path	URL or endpoint	Audience	Auth	TLS terminates at
Internal	Prometheus and Alertmanager services in the namespace	Platform workloads	cluster RBAC	Service / ingress
External	https://prometheus.mutana.site and related ingress endpoints	Operators	ingress auth policy	Traefik

Primary health indicators: scrape targets healthy, TSDB writable, and alerts delivered.
Dashboards or alerts: shared Grafana plus Prometheus self-monitoring.
Log locations: Prometheus and Alertmanager pod logs.
Known failure modes: disk pressure, scrape misconfiguration, alert receiver errors, or ingress failures.

Current deployed app version: see the rendered chart under overlays/jls.
Current chart version: see the chart version embedded under overlays/jls.
Last significant change: current repository state documents the Grafana Cloud integration and rendered overlay path.
Rollback reference: previous overlay revision in Git.