Dedicated GPU
Dedicated GPU; sabit kapasite, gated model, özel quantization veya öngörülebilir throughput gerektiğinde kullanılır.
Deployment oluştur
Section titled “Deployment oluştur”curl https://api.parel.cloud/v1/deployments \ -H "Authorization: Bearer pk-dev-YOUR_KEY" \ -H "Content-Type: application/json" \ -d '{ "name": "my-llama", "huggingface_id": "meta-llama/Llama-3-8B-Instruct", "gpu_tier": "NVIDIA A40", "quantization": "awq", "idle_timeout_minutes": 15, "budget_limit_usd": 50.0, "max_model_len": 8192 }'Yönetim endpoint’leri
Section titled “Yönetim endpoint’leri”| Endpoint | Açıklama |
|---|---|
GET /v1/gpu-tiers | Cache’li GPU fiyatları |
GET /v1/gpu-tiers/live | Güncel GPU fiyatları |
GET /v1/deployment-templates | Hazır deployment şablonları |
GET /v1/deployments/preview | Uyum, süre ve saatlik maliyet tahmini |
POST /v1/hf/validate | Hugging Face modeli doğrula |
POST /v1/deployments | Deployment oluştur |
GET /v1/deployments | Deployment listesi |
GET /v1/deployments/{id} | Deployment detayı |
POST /v1/deployments/{id}/start | Başlat veya uyandır |
POST /v1/deployments/{id}/stop | Durdur |
DELETE /v1/deployments/{id} | Kalıcı sonlandır |
GET /v1/deployments/{id}/events | Durum geçişleri |
GET /v1/deployments/{id}/metrics | Throughput ve gecikme |
GET /v1/deployments/{id}/billing | Saatlik yakım |
POST /v1/deployments/{id}/chat | Deployment’a özel chat |
Çalışan deployment kullanımı
Section titled “Çalışan deployment kullanımı”response = client.chat.completions.create( model="byom-DEPLOYMENT_ID", messages=[{"role": "user", "content": "Merhaba"}],)