Monitoring and alerts

Metrics endpoint

Prometheus metrics: GET /actuator/prometheus
Health probes:
- GET /actuator/health/liveness
- GET /actuator/health/readiness

DWARVENPICK_METRICS_PROMETHEUS_ENABLED (default: true) enables the Prometheus endpoint.
Helm chart value: metrics.prometheus.enabled

The Helm chart exposes the backend on .Values.service.port (default 8080). Configure your Prometheus instance to scrape:

If you use Prometheus Operator, create a ServiceMonitor that targets the backend Service and port.

Query lifecycle:
- dwarvenpick_query_active{status="queued|running"}
- dwarvenpick_query_execution_total{outcome=...}
- dwarvenpick_query_duration_seconds{outcome=...}
- dwarvenpick_query_cancel_total
- dwarvenpick_query_timeout_total
Exports:
- dwarvenpick_query_export_attempts_total{outcome=...}
Auth:
- dwarvenpick_auth_login_attempts_total{provider=...,outcome=...}
Pools:
- dwarvenpick_pool_active
- dwarvenpick_pool_idle
- dwarvenpick_pool_total

High query failure rate:
- Trigger: increase(dwarvenpick_query_execution_total{outcome="failed"}[5m]) / increase(dwarvenpick_query_execution_total[5m]) > 0.2
Query timeout burst:
- Trigger: increase(dwarvenpick_query_timeout_total[5m]) > 10
High queue pressure:
- Trigger: dwarvenpick_query_active{status="queued"} > 20 for 10m
Pool saturation:
- Trigger: dwarvenpick_pool_active / dwarvenpick_pool_total > 0.9 for 5m
Login failure surge:
- Trigger: increase(dwarvenpick_auth_login_attempts_total{outcome="failed"}[5m]) > 25