Dedicated GPU

Dedicated GPU; sabit kapasite, gated model, özel quantization veya öngörülebilir throughput gerektiğinde kullanılır.

Deployment oluştur

curl https://api.parel.cloud/v1/deployments \
  -H "Authorization: Bearer pk-dev-YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "name": "my-llama",
    "huggingface_id": "meta-llama/Llama-3-8B-Instruct",
    "gpu_tier": "NVIDIA A40",
    "quantization": "awq",
    "idle_timeout_minutes": 15,
    "budget_limit_usd": 50.0,
    "max_model_len": 8192
  }'

Yönetim endpoint’leri

Endpoint	Açıklama
`GET /v1/gpu-tiers`	Cache’li GPU fiyatları
`GET /v1/gpu-tiers/live`	Güncel GPU fiyatları
`GET /v1/deployment-templates`	Hazır deployment şablonları
`GET /v1/deployments/preview`	Uyum, süre ve saatlik maliyet tahmini
`POST /v1/hf/validate`	Hugging Face modeli doğrula
`POST /v1/deployments`	Deployment oluştur
`GET /v1/deployments`	Deployment listesi
`GET /v1/deployments/{id}`	Deployment detayı
`POST /v1/deployments/{id}/start`	Başlat veya uyandır
`POST /v1/deployments/{id}/stop`	Durdur
`DELETE /v1/deployments/{id}`	Kalıcı sonlandır
`GET /v1/deployments/{id}/events`	Durum geçişleri
`GET /v1/deployments/{id}/metrics`	Throughput ve gecikme
`GET /v1/deployments/{id}/billing`	Saatlik yakım
`POST /v1/deployments/{id}/chat`	Deployment’a özel chat

Çalışan deployment kullanımı

response = client.chat.completions.create(
    model="byom-DEPLOYMENT_ID",
    messages=[{"role": "user", "content": "Merhaba"}],
)