Infraestructura Digio

Models d'IA i GPU

Executeu agents en models de frontera gestionats avui mateix, o llogueu la capacitat de la GPU, implementeu els vostres propis pesos i encamineu les tasques de Digio a punts finals privats al mateix espai de treball.

Claude, GPT, Bessons Selecció de model per agent Lloguer de GPU i BYOM
Models gestionats

Models disponibles a Digio avui

Assigna un model predeterminat per agent o substitueix per tasca. L'ús es mesura en Digio Tokens a partir del saldo del vostre pla: la mateixa cartera tant si l'agent truca a Sonnet, GPT-4o o Gemini Flash.

Claude antròpic

  • Claude Opus 4.7 Raonament emblemàtic, context llarg, treball d'arquitectura i estratègia.
  • Claude Opus 4.6 Opus d'anterior generació per a anàlisis estables i d'alta qualitat.
  • Claude Sonnet 4.6 Controlador diari: codificació, escriptura i bucles d'agent de diversos passos.
  • Claude Sonnet 4.5 / 4 Nivells de Sonnet ràpids amb memòria cau ràpida a les càrregues de treball compatibles.
  • Claude Haiku 4.5 Esborranys de baixa latència, classificació i subtasques de gran volum.

Tradueix literalment: OpenAI

  • GPT-5.5 / GPT-5.4 / GPT-5.2 L'última família GPT-5 per a càrregues de treball generals i agents.
  • GPT-4.1 & GPT-4o Xat multimodal fiable i ús d'eines per als agents de producció.
  • GPT-4o mini Encaminament rendible per a resums i passos lleugers.
  • o3 / o3-pro / o3-mini / o4-mini Models centrats en el raonament per a matemàtiques, planificació i verificació.
  • GPT-5.3 Codex & Codex mini Generació de codi, refactorització i habilitats d'agent reconegut per repo.

Tradueix literalment: Google Gemini

  • Gemini 2.5 Pro Recerca de context llarg i extracció estructurada.
  • Gemini 2.5 Flash Passos d'agent d'alt rendiment amb tarifes de testimonis competitives.
  • Gemini 2.0 Flash Passes ultra ràpides per a treballs d'anàlisi, etiquetatge i lots.

API obertes i especialitzades

  • DeepSeek Chat & Reasoner Fort valor per a tasques de xat i estil de cadena de pensament.
  • Mistral Large Opció allotjada a Europa per a equips d'agents multilingües.
  • Llama 3.3 70B Model de classe de pes oberts mitjançant API: combina bé amb la GPU privada.
  • Grok 3 Model orientat a temps real per a les notícies i els agents de seguiment social.
  • Sonar Pro Respostes basades en la cerca per als agents de recerca.
  • Command R+ Fluxos de treball de recuperació i xat empresarial compatibles amb RAG.

Model list and token economics evolve with provider releases. Your workspace shows live options when you assign a model to an agent; Digio Tokens debit from the same balance as in pricing.

Ús

Com els agents trien un model

El coordinador pot recomanar Sonnet vs Opus en comparació amb un model flash més barat segons el tipus de tasca. Els usuaris avançats estableixen valors predeterminats per rol d'agent: investigació a Sonnet, revisió final a Opus, etiquetatge massiu a Haiku o Gemini Flash.

  • Per agent — default model in agent settings; override in To do or chat when needed.

  • Metered fairly — input, output, and cached tokens map to Digio Token charges (see usage in your wallet).

  • Skills stay the same — tools and integrations work across models; only latency and cost profile change.

  • Plan limits — more agents and monthly Digio Tokens on higher tiers; top up anytime on the pricing page.

Lloguer de GPU

Llogueu GPU i executeu els vostres propis models

Necessites un ajustament, un punt de control amb buit d'aire o un preu d'inferència previsible? Afegiu capacitat de GPU dedicada al vostre espai de treball Digio, instal·leu la pila de servei que preferiu i apunteu els agents al vostre punt final privat.

Instàncies dedicades

Nodes GPU per hora o mensual (classe A100, H100, L40S) connectats al vostre inquilí, aïllats d'altres clients.

Els teus pesos

Carregueu safetensors, GGUF o extreu-lo del vostre registre; executar Llama, Mistral, Qwen i ajustos personalitzats.

Porció estàndard

Imatges vLLM, TGI, Ollama o contenidors que manteniu: els agents de Digio criden a un URL base compatible amb OpenAI.

La mateixa orquestració

Per fer-ho, el xat d'equip, les habilitats i la col·laboració no canvien; només el backend d'inferència és vostre.

Encaminament híbrid

Envieu passos sensibles a la GPU privada i utilitzeu Claude o GPT per a la investigació pública en un sol flux de treball.

Controls empresarials

Peering de VPC, sortida estàtica, registres d'auditoria i llistes permeses de models per a equips regulats.

Porta el teu propi model

Instal·leu i connecteu un model personalitzat

Configuració típica des de zero fins als agents que truquen al vostre punt final:

  1. Reserva GPU

    Trieu la VRAM, la regió i el temps de funcionament (ràfega vs sempre activada). L'emmagatzematge per a peses s'envia amb la instància o munta la vostra galleda.

  2. Desplegueu la pila

    Inicieu una imatge de publicació o SSH, instal·leu els controladors CUDA i carregueu els punts de control. Els controls de salut confirmen que el model està preparat.

  3. Registre el punt final

    Afegiu l'URL base, la clau de l'API i l'identificador del model a la configuració de l'espai de treball. Digio valida la latència i el format del testimoni abans de posar-se en marxa.

  4. Assigna als agents

    Trieu el vostre model privat com a predeterminat per als agents seleccionats; Els models Claude/GPT gestionats continuen disponibles paral·lelament.

El lloguer de la GPU es factura per separat de les subscripcions al pla Digio. Poseu-vos en contacte amb nosaltres per a la planificació de la capacitat, els SLA i la migració des d'un clúster d'inferència existent.

Preguntes freqüents

Preguntes sobre models i GPU

Triar API gestionades versus inferència autoallotjada a Digio.

Pago dues vegades: pla més API?

La vostra subscripció a Digio cobreix la infraestructura, els agents i els Digio Tokens inclosos. L'ús del model gestionat cobra aquest saldo de testimonis mitjançant fitxes d'entrada/sortida reals. El lloguer de GPU és un complement per a les màquines que controleu.

Els diferents agents poden utilitzar diferents models?

Sí, cada agent pot tenir el seu propi predeterminat. Les tasques i els xats es poden substituir durant una sola execució sense canviar el valor predeterminat global.

Quina diferència hi ha entre Sonnet i Opus?

Opus està ajustat per a un raonament més dur i plans més llargs i coherents; Sonnet és més ràpid i més barat per als bucles d'agent quotidians. Els models de haiku i de classe flash són els millors per a subtasques de volum.

Puc executar només el meu propi model i bloquejar les API del núvol?

Els espais de treball empresarials poden restringir els proveïdors de models de sortida i dirigir tot el trànsit d'agents al punt final de la GPU. El mode híbrid és el predeterminat per a la majoria d'equips.

Quines mides de GPU estan disponibles?

Les ofertes depenen de la regió i de la demanda: normalment nivells de VRAM de 24 a 80 GB per a models de classe 7B a 70B i nodes multi-GPU per a piles més grans. Ajudem a mida VRAM a partir del vostre recompte de paràmetres i quantificació.

L'ús de la GPU privada encara consumeix Digio Tokens?

L'orquestració (agents, tasques, emmagatzematge) es manté al vostre pla. La inferència de la vostra GPU es factura com a temps de GPU; opcionalment podeu mesurar l'ús en forma de testimoni per a la devolució interna.

Trieu models gestionats o porteu la vostra GPU

Comenceu avui a Claude i GPT i, a continuació, afegiu una GPU dedicada quan estigueu preparat per allotjar pesos personalitzats: els mateixos agents, les mateixes tasques, la vostra inferència.