# Report Provider LLM per adiuvAI — Aprile 2026 > Analisi comparativa dei provider per i **11 agenti AI** configurati in `api/.env.example`. Selezione ottimizzata per costo, qualità, latenza e privacy dei dati, con **due mapping distinti**: Production (Zero Data Retention obbligatorio) e Development (cost-efficient). --- ## Architettura — Gli 11 Agenti Ogni variabile `LLM_MODEL_*` in `api/.env.example` controlla un agente con profilo d'uso specifico. Analisi dei requisiti emersa dall'ispezione del codice in `api/app/agents/`, `api/app/core/` e `api/app/memory/`. | # | Env Var | Agente | Tool Calling | Latenza | Qualità | Volume/utente | Real-time? | |---|---------|--------|--------------|---------|---------|--------------|------------| | 1 | `LLM_MODEL_CLASSIFIER` | **Intent Classifier** — smista i messaggi del floating panel verso task/project/note/timeline | No, output JSON | Alta (<200 ms) | Bassa (output deterministico) | Alto | ✓ Sì | | 2 | `LLM_MODEL_HOME_AGENT` | **Home Agent** — chat principale con tutti i tool (CRUD task/project/note) | Multi-turno (≤6 step) | Alta (<3 s perceived) | Alta (user-facing) | Alto | ✓ Sì, WS stream | | 3 | `LLM_MODEL_FLOATING_AGENT` | **Floating Agent** — chat contestuale da task/project/note | Multi-turno (≤6 step) | Alta | Media–alta | Alto | ✓ Sì, WS stream | | 4 | `LLM_MODEL_UNIFIED_PROCESSOR` | **Unified Processor** — processa file del filesystem locale | Tool loop (≤12 step) | Bassa (batch) | Media | Medio/occasionale | ✗ Background | | 5 | `LLM_MODEL_CLOUD_PROCESSOR` | **Cloud Processor** — fetch e processing di Gmail/Teams/Outlook | Tool loop (≤12 step) | Bassa | Media | Schedulato | ✗ Background | | 6 | `LLM_MODEL_BRIEF_AGENT` | **Brief Agent** — daily brief home + project (streaming, read-only tool) | Singolo step, tool read-only | Alta (<4 s) | Alta (prosa curata) | Medio | ✓ Sì | | 7 | `LLM_MODEL_SETUP_AGENT` | **Setup Agent** — journey conversazionale per costruire `AgentConfig` JSON | Multi-turno (≤15) | Media | Alta (UX critica) | Basso (una tantum) | ✓ Sì, WS | | 8 | `LLM_MODEL_MEMORY_EXTRACTOR` | **Memory Extractor** — pipeline Mem0 extract+decide (2 call/turno) | No, JSON strutturato | Bassa (off-path) | Bassa (filtrato a valle) | Alto (ogni turno chat) | ✗ Background | | 9 | `LLM_MODEL_MEMORY_MINER` | **Memory Miner** — pattern mining orario su storia episodica (Power+) | No | Bassa | Media | Orario (Power+) | ✗ Cron | | 10 | `LLM_MODEL_MEMORY_AUDITOR` | **Memory Auditor** — audit settimanale: contraddizioni + canonicalizzazione relazioni | No, reasoning su fatti | Bassa | Alta (richiede reasoning) | Settimanale | ✗ Cron | | 11 | `LLM_EMBED_MODEL` | **Embeddings** — vettori 1536-dim per ricerca semantica (LanceDB/Qdrant) | — | Media | Deterministico | Alto | ✓ In-request | > **Nota architetturale (Processors):** Il Batch API dei provider LLM **non è utilizzabile** per Unified e Cloud Processor: il loop tool-calling richiede risultati sincroni dal client Electron via WebSocket. Si usa **API Standard** a prezzi di listino. --- ## Conformità — Policy Privacy dei Provider Per Production è richiesto un **strict Zero Data Retention** (ZDR): nessuna conservazione prompt/response, nessun logging, nessun uso per training — garantito contrattualmente. Per Development è sufficiente l'opt-out di default dal training. | Provider | Sede | ZDR strict (prod) | Opt-out training (dev) | Note | |----------|------|:-----------------:|:----------------------:|------| | 🇺🇸 OpenAI | USA | ✓ con **ZDR addendum Enterprise** | ✓ default API | Standard API: 30gg retention logs | | 🇺🇸 Anthropic | USA | ✓ con **Enterprise ZDR** | ✓ default API | 30gg retention su standard tier | | 🇺🇸 Google Vertex AI | USA | ✓ **contrattuale** (Vertex, non AI Studio) | ✓ paid tier | Free AI Studio usa dati per training | | 🇫🇷 Mistral | Francia (EU) | ✓ **ZDR disponibile** | ✓ default | GDPR-native, ottimo per EU residency | | 🇺🇸 Groq | USA | ✓ **via DPA dedicato** | ✓ default | Cloud inference Llama/Qwen | | 🇺🇸 Cerebras | USA | ✓ **nessuna conservazione by default** | ✓ | ZDR out-of-the-box — il più rigoroso | | 🇺🇸 Voyage AI | USA | ✓ ZDR enterprise | ✓ | Embeddings only | | 🇨🇳 DeepSeek | Cina | ✗ | ⚠️ opt-out limitato, dati in Cina | **Solo Dev, con dati sintetici** | | 🇨🇳 Zhipu (GLM) | Cina | ✗ | ⚠️ non verificabile | **Solo Dev** | --- ## Confronto Modelli — Miglior Modello per Agente Prezzi in USD per milione di token (MTok), aggiornati Aprile 2026. ### 1. Intent Classifier *Output JSON deterministico, latenza critica, volume alto* | Provider | Modello | In $/MTok | Out $/MTok | ZDR | Note | |----------|---------|----------|-----------|:---:|------| | OpenAI | `GPT-4.1 Nano` | $0.10 | $0.40 | ✓ ent | Veloce, JSON mode affidabile | | **Google Vertex** ⭐ | `Gemini 2.5 Flash-Lite` | **$0.10** | **$0.40** | ✓ | **Migliore prezzo+ZDR+latenza** | | Anthropic | `Claude Haiku 4.5` | $1.00 | $5.00 | ✓ ent | Overkill per pura classificazione | | Groq | `Llama 3.1 8B` | $0.05 | $0.08 | ✓ DPA | Economico, 840 TPS | | Cerebras | `Llama 3.1 8B` | $0.10 | $0.10 | ✓ | ZDR by default, velocissimo | ### 2. Home Agent *Multi-turno + tool calling completo + streaming* | Provider | Modello | In $/MTok | Out $/MTok | ZDR | Note | |----------|---------|----------|-----------|:---:|------| | **Anthropic** ⭐ | `Claude Sonnet 4.6` | $3.00 | $15.00 | ✓ ent | **Top tool use**, caching -90%, 1M ctx | | OpenAI | `GPT-4.1` | $2.00 | $8.00 | ✓ ent | Solido, JSON mode, 1M ctx | | Google Vertex | `Gemini 2.5 Flash` | $0.30 | $2.50 | ✓ | Miglior rapporto Q/P per prod | | Mistral | `Mistral Medium 3` | $1.00 | $3.00 | ✓ | EU residency | | Groq | `Llama 3.3 70B` | $0.59 | $0.79 | ✓ DPA | Tool calling inferiore ai proprietari | ### 3. Floating Agent *Single+multi-turno, contestuale, più compatto del Home* | Provider | Modello | In $/MTok | Out $/MTok | ZDR | Note | |----------|---------|----------|-----------|:---:|------| | OpenAI | `GPT-4.1 Mini` | $0.40 | $1.60 | ✓ ent | Bilanciato | | **Anthropic** ⭐ | `Claude Haiku 4.5` | $1.00 | $5.00 | ✓ ent | **Tool use affidabile, bassa latenza** | | Google Vertex | `Gemini 2.5 Flash-Lite` | $0.10 | $0.40 | ✓ | Economico; qualità tool inferiore a Haiku | | Mistral | `Mistral Small 3.1` | $0.20 | $0.60 | ✓ | EU | ### 4. Unified Processor (locale) *Batch, multi-turno (≤12), qualità estrazione importa* | Provider | Modello | In $/MTok | Out $/MTok | ZDR | Note | |----------|---------|----------|-----------|:---:|------| | **OpenAI** ⭐ | `GPT-4.1 Mini` | **$0.40** | **$1.60** | ✓ ent | **Tool loop affidabile, costo contenuto** | | Anthropic | `Claude Sonnet 4.6` | $3.00 | $15.00 | ✓ ent | Qualità top se budget permette | | Google Vertex | `Gemini 2.5 Flash` | $0.30 | $2.50 | ✓ | Valida alternativa, input economico | | Mistral | `Mistral Large 3` | $2.00 | $6.00 | ✓ | EU residency | ### 5. Cloud Processor (Gmail/Teams/Outlook) *Batch, multi-turno (≤12), dati sensibili* | Provider | Modello | In $/MTok | Out $/MTok | ZDR | Note | |----------|---------|----------|-----------|:---:|------| | **OpenAI** ⭐ | `GPT-4.1 Mini` | **$0.40** | **$1.60** | ✓ ent | **Robusto su email parsing** | | Anthropic | `Claude Sonnet 4.6` | $3.00 | $15.00 | ✓ ent | Miglior reasoning su thread email | | Google Vertex | `Gemini 2.5 Flash` | $0.30 | $2.50 | ✓ | 1M context utile per thread lunghi | ### 6. Brief Agent (daily brief) *Singolo step, prosa curata, read-only tool* | Provider | Modello | In $/MTok | Out $/MTok | ZDR | Note | |----------|---------|----------|-----------|:---:|------| | **OpenAI** ⭐ | `GPT-4.1 Mini` | **$0.40** | **$1.60** | ✓ ent | **Prosa di qualità, streaming affidabile** | | Anthropic | `Claude Haiku 4.5` | $1.00 | $5.00 | ✓ ent | Prosa eccellente, più costoso | | Google Vertex | `Gemini 2.5 Flash` | $0.30 | $2.50 | ✓ | Alternativa economica | | Mistral | `Mistral Small 3.1` | $0.20 | $0.60 | ✓ | Economico con EU residency | ### 7. Setup Agent (journey di configurazione) *Conversazione multi-turno (≤15), JSON finale, UX critica* | Provider | Modello | In $/MTok | Out $/MTok | ZDR | Note | |----------|---------|----------|-----------|:---:|------| | **Anthropic** ⭐ | `Claude Sonnet 4.6` | **$3.00** | **$15.00** | ✓ ent | **Miglior instruction-following, JSON affidabile** | | OpenAI | `GPT-4.1` | $2.00 | $8.00 | ✓ ent | Eccellente bilanciamento | | Google Vertex | `Gemini 2.5 Pro` | $1.25 | $10.00 | ✓ | Reasoning solido | > Volume bassissimo (≈2 sessioni/mese per utente): il costo è trascurabile anche col modello premium. ### 8. Memory Extractor (Mem0 extract+decide) *2 call/turno, JSON strutturato, deterministico, off request-path* | Provider | Modello | In $/MTok | Out $/MTok | ZDR | Note | |----------|---------|----------|-----------|:---:|------| | **OpenAI** ⭐ | `GPT-4.1 Nano` | **$0.10** | **$0.40** | ✓ ent | **Cheapest OpenAI, JSON mode affidabile** | | Google Vertex | `Gemini 2.5 Flash-Lite` | $0.10 | $0.40 | ✓ | Pari prezzo, valido | | Anthropic | `Claude Haiku 4.5` | $1.00 | $5.00 | ✓ ent | Troppo costoso per volume alto | ### 9. Memory Miner (cron orario, Power+) *Pattern mining su episodi, input medio, occasionale* | Provider | Modello | In $/MTok | Out $/MTok | ZDR | Note | |----------|---------|----------|-----------|:---:|------| | **OpenAI** ⭐ | `GPT-4.1 Mini` | **$0.40** | **$1.60** | ✓ ent | **Reasoning sufficiente per pattern detection** | | Google Vertex | `Gemini 2.5 Flash` | $0.30 | $2.50 | ✓ | Buona alternativa | | Anthropic | `Claude Haiku 4.5` | $1.00 | $5.00 | ✓ ent | Qualità superiore, costo +2x | ### 10. Memory Auditor (cron settimanale) *Reasoning per contraddizioni + canonicalizzazione, rarissimo* | Provider | Modello | In $/MTok | Out $/MTok | ZDR | Note | |----------|---------|----------|-----------|:---:|------| | **OpenAI** ⭐ | `GPT-4.1` | **$2.00** | **$8.00** | ✓ ent | **Reasoning robusto, volume trascurabile** | | Anthropic | `Claude Sonnet 4.6` | $3.00 | $15.00 | ✓ ent | Alternativa premium | | Google Vertex | `Gemini 2.5 Pro` | $1.25 | $10.00 | ✓ | Ottimo reasoning | ### 11. Embeddings *Semantic search, 1536-dim, volume alto* | Provider | Modello | $/MTok | Dim | ZDR | Note | |----------|---------|--------|-----|:---:|------| | **OpenAI** ⭐ | `text-embedding-3-small` | **$0.02** | 1536 | ✓ ent | **Standard de facto, già in uso (LanceDB 1536-dim)** | | Voyage AI | `voyage-3.5-lite` | $0.02 | 1024 | ✓ | Qualità superiore ma richiede reindex | | Google Vertex | `Gemini Embedding` | $0.15 | variabile | ✓ | 7.5x più costoso, nessun vantaggio | --- ## 🔒 Mapping Production (Zero Data Retention obbligatorio) Tutti i provider selezionati hanno ZDR contrattualmente garantito. Prevalgono qualità e affidabilità; il costo è ottimizzato entro il vincolo ZDR. | # | Agente | Provider | Modello | Razionale | |---|--------|----------|---------|-----------| | 1 | Classifier | **OpenAI** | `gpt-4.1-nano` | $0.10/$0.40, JSON mode affidabile, stesso contratto ZDR del resto OpenAI | | 2 | Home Agent | **Anthropic** | `claude-sonnet-4-6` | Miglior tool calling del mercato; caching -90% riduce il costo; esperienza chat premium | | 3 | Floating Agent | **Anthropic** | `claude-haiku-4-5` | Tool calling affidabile + bassa latenza; qualità coerente con Home Agent | | 4 | Unified Processor | **OpenAI** | `gpt-4.1-mini` | Tool loop affidabile a costo contenuto; critico visto che il loop moltiplica le call | | 5 | Cloud Processor | **OpenAI** | `gpt-4.1-mini` | Stesso profilo del locale; parsing di email/chat consolidato | | 6 | Brief Agent | **OpenAI** | `gpt-4.1-mini` | Prosa curata, streaming, read-only tools — ottimo bilanciamento | | 7 | Setup Agent | **Anthropic** | `claude-sonnet-4-6` | Journey conversazionale critica per UX; volume bassissimo giustifica il premium | | 8 | Memory Extractor | **OpenAI** | `gpt-4.1-nano` | 2 call per turno chat: servono i prezzi più bassi con JSON mode | | 9 | Memory Miner | **OpenAI** | `gpt-4.1-mini` | Cron orario su Power+: reasoning sufficiente, costo contenuto | | 10 | Memory Auditor | **OpenAI** | `gpt-4.1` | Reasoning più avanzato per contraddizioni; frequenza settimanale = costo trascurabile | | 11 | Embeddings | **OpenAI** | `text-embedding-3-small` | Già in uso, 1536-dim compatibile con schema LanceDB/Qdrant | ### Valori `.env` — Production ```bash # Default fallback LLM_MODEL=gpt-4.1-mini LLM_EMBED_MODEL=text-embedding-3-small # Per-agent overrides (LiteLLM model IDs) LLM_MODEL_CLASSIFIER=gpt-4.1-nano LLM_MODEL_HOME_AGENT=anthropic/claude-sonnet-4-6 LLM_MODEL_FLOATING_AGENT=anthropic/claude-haiku-4-5 LLM_MODEL_UNIFIED_PROCESSOR=gpt-4.1-mini LLM_MODEL_CLOUD_PROCESSOR=gpt-4.1-mini LLM_MODEL_BRIEF_AGENT=gpt-4.1-mini LLM_MODEL_SETUP_AGENT=anthropic/claude-sonnet-4-6 LLM_MODEL_MEMORY_EXTRACTOR=gpt-4.1-nano LLM_MODEL_MEMORY_MINER=gpt-4.1-mini LLM_MODEL_MEMORY_AUDITOR=gpt-4.1 ``` > **2 API key richieste**: OpenAI (Enterprise + ZDR addendum) e Anthropic (Commercial + ZDR addendum). Vedi sezione **[Come attivare ZDR](#come-attivare-zdr-con-openai-e-anthropic)** per la procedura contrattuale. --- ## 💰 Mapping Development (cost-efficient, ZDR non richiesto) Priorità: costo minimo e velocità di iterazione. **Niente dati utente reali in questo ambiente** — solo dati sintetici o mock. Nessun vincolo ZDR consente di includere Groq, Cerebras e opzionali DeepSeek. | # | Agente | Provider | Modello | Razionale | |---|--------|----------|---------|-----------| | 1 | Classifier | **Groq** | `llama-3.1-8b-instant` | $0.05/$0.08: il più economico con 840 TPS | | 2 | Home Agent | **Google AI Studio** | `gemini-2.5-flash` | 6–7x meno di Sonnet, tool use nativo, 1M ctx | | 3 | Floating Agent | **Google AI Studio** | `gemini-2.5-flash-lite` | $0.10/$0.40 sufficiente per single-turn | | 4 | Unified Processor | **Google AI Studio** | `gemini-2.5-flash` | Tool loop funzionante a costo minimo | | 5 | Cloud Processor | **DeepSeek** | `deepseek-chat` ($0.28/$0.42) | Costo minimo per batch con dati sintetici | | 6 | Brief Agent | **Groq** | `llama-3.1-8b-instant` | $0.05/$0.08, prosa accettabile per QA | | 7 | Setup Agent | **Google AI Studio** | `gemini-2.5-flash` | Conversazione decente a costo minimo | | 8 | Memory Extractor | **Groq** | `llama-3.1-8b-instant` | JSON extraction funziona con fallback retry | | 9 | Memory Miner | **Groq** | `llama-3.3-70b-versatile` | Pattern mining richiede reasoning; 70B a $0.59/$0.79 | | 10 | Memory Auditor | **Google AI Studio** | `gemini-2.5-flash` | Reasoning accettabile, quasi gratis a scala dev | | 11 | Embeddings | **OpenAI** | `text-embedding-3-small` | Stesso dim del prod (1536) — evita reindex al promote | ### Valori `.env` — Development ```bash # Default fallback LLM_MODEL=gemini/gemini-2.5-flash LLM_EMBED_MODEL=text-embedding-3-small # Per-agent overrides LLM_MODEL_CLASSIFIER=groq/llama-3.1-8b-instant LLM_MODEL_HOME_AGENT=gemini/gemini-2.5-flash LLM_MODEL_FLOATING_AGENT=gemini/gemini-2.5-flash-lite LLM_MODEL_UNIFIED_PROCESSOR=gemini/gemini-2.5-flash LLM_MODEL_CLOUD_PROCESSOR=deepseek/deepseek-chat LLM_MODEL_BRIEF_AGENT=groq/llama-3.1-8b-instant LLM_MODEL_SETUP_AGENT=gemini/gemini-2.5-flash LLM_MODEL_MEMORY_EXTRACTOR=groq/llama-3.1-8b-instant LLM_MODEL_MEMORY_MINER=groq/llama-3.3-70b-versatile LLM_MODEL_MEMORY_AUDITOR=gemini/gemini-2.5-flash ``` > ⚠️ **Non immettere dati utente reali**. Gli embeddings restano `text-embedding-3-small` per non dover reindicizzare passando in Production (stesso schema 1536-dim). --- ## Simulazione — Costo Mensile per Utente Utilizzo tipico: 500 Home, 300 Floating, 210 Brief, 100 Unified Processor, 80 Cloud Processor, 10 Setup turn (≈2 sessioni), 1500 Memory Extractor turn, 720 Miner (30gg × 24h Power+), 4 Auditor, 1000 embeddings. ### Production | Agente | Modello | In tok | Out tok | $/mese | |--------|---------|--------|---------|--------| | Classifier | GPT-4.1 Nano | 150K | 30K | $0.027 | | Home Agent | Sonnet 4.6 | 1M | 500K | $10.50 | | Floating | Haiku 4.5 | 150K | 90K | $0.60 | | Unified Processor | GPT-4.1 Mini | 300K | 200K | $0.44 | | Cloud Processor | GPT-4.1 Mini | 240K | 160K | $0.35 | | Brief Agent | GPT-4.1 Mini | 315K | 105K | $0.29 | | Setup Agent | Sonnet 4.6 | 40K | 5K | $0.20 | | Memory Extractor | GPT-4.1 Nano | 750K | 150K | $0.14 | | Memory Miner | GPT-4.1 Mini | 1.4M | 150K | $0.80 | | Memory Auditor | GPT-4.1 | 20K | 5K | $0.08 | | Embeddings | text-embedding-3-small | 500K | — | $0.01 | | | | | **Totale Production** | **~$13.48/utente/mese** | > Con prompt caching Anthropic al 90% sui system prompt ripetuti, Home Agent scende a ~$4–5/mese → totale **~$7–8/utente/mese**. ### Development (dev team ≈ 100 sessioni test/mese totali, non per utente) | Agente | Modello | $/mese totali | |--------|---------|--------------| | Classifier | Groq Llama 3.1 8B | $0.004 | | Home Agent | Gemini 2.5 Flash | $0.58 | | Floating | Gemini 2.5 Flash-Lite | $0.04 | | Unified Processor | Gemini 2.5 Flash | $0.09 | | Cloud Processor | DeepSeek Chat | $0.13 | | Brief Agent | Groq Llama 3.1 8B | $0.02 | | Setup Agent | Gemini 2.5 Flash | $0.02 | | Memory Extractor | Groq Llama 3.1 8B | $0.05 | | Memory Miner | Groq Llama 3.3 70B | $0.35 | | Memory Auditor | Gemini 2.5 Flash | $0.02 | | Embeddings | text-embedding-3-small | $0.01 | | | **Totale Dev team** | **~$1.35/mese** | --- ## Motivazioni — Decisioni Chiave ### 🔒 Perché questa separazione Production/Development I dati utente di adiuvAI sono E2E-encrypted, ma i prompt agentici contengono metadati operativi (titoli task, nomi progetti, contesto chat) che fluiscono in chiaro verso il LLM provider. Per Production, ZDR contrattuale è non-negoziabile. In Development si usano dati sintetici, quindi i provider più economici senza garanzie ZDR sono perfetti per iterare rapidamente senza bruciare budget. ### 💬 Claude Sonnet 4.6 per Home Agent (prod) vs Gemini Flash (dev) Home Agent è il touchpoint principale: la qualità del tool calling determina la percezione del prodotto. Sonnet 4.6 è il benchmark su tool use. Il caching di Anthropic (-90% sui system prompt) rende il costo sostenibile a scala. In dev, Gemini 2.5 Flash costa **20x meno** con tool calling sufficiente per validare flussi, test di regressione e UI. ### ⚙️ GPT-4.1 Mini per entrambi i Processor Unified e Cloud Processor sono l'unica superficie dove il **tool loop moltiplica il costo** (≤12 turni per file). Il prezzo medio deve essere basso **e** la qualità tool calling alta, altrimenti errori in cascata. GPT-4.1 Mini è lo sweet spot: tool calling OpenAI è robusto, il prezzo è 5x inferiore a Sonnet. Si sconsiglia Groq qui: la qualità tool calling di Llama introduce retry che annullano il risparmio. ### 🧠 Stratificazione Memory Agents - **Extractor** (2 call/turno, volume altissimo) → Nano (cheapest) - **Miner** (orario Power+, reasoning su pattern) → Mini (compromesso) - **Auditor** (settimanale, reasoning avanzato) → GPT-4.1 full (il volume azzera il premium) Ogni tier di memory ha un profilo costo/qualità diverso: collassarli tutti su un unico modello spreca o sul basso (Auditor poco accurato) o sull'alto (Extractor 10x più caro del necessario). ### 🇪🇺 Perché non Mistral in prod di default Mistral è un'ottima alternativa EU-residency, ma Sonnet 4.6 e GPT-4.1 hanno tool calling ancora superiore nei benchmark di Aprile 2026. Se la priorità diventa **data residency EU** (clienti enterprise europei, GDPR stretto), raccomando uno switch mirato: - Home Agent → `mistral/mistral-medium-3` - Background processor → `mistral/mistral-large-3` ### 🚫 Cina esclusa da Production DeepSeek e GLM offrono costi imbattibili ma i dati risiedono in Cina senza garanzie ZDR verificabili per utenti internazionali. **Accettabili in Development solo con dati sintetici**. ### ⚡ Groq e Cerebras come alternative budget In Development, Groq domina per pricing + velocità (394–840 TPS). In Production sono qualificati ZDR (tramite DPA) ma la qualità tool calling di Llama rimane inferiore ai modelli proprietari su flussi multi-turno complessi. Cerebras è strict ZDR by default ma il catalogo modelli è limitato. --- ## Come attivare ZDR con OpenAI e Anthropic **Cosa significa ZDR concretamente:** nessuna conservazione di prompt/output oltre la durata della richiesta, nessun logging di contenuti da parte del provider, nessun uso per training o fine-tuning, abuse monitoring basato su metadati anziché contenuti. Sul tier API standard, invece, OpenAI e Anthropic conservano input/output per **30 giorni** a fini di abuse detection — motivo per cui serve il contratto ZDR esplicito. ### 🔵 OpenAI — Enterprise Privacy / ZDR Addendum **Chi ne ha diritto:** clienti con Enterprise Agreement. Per API a basso volume si può comunque richiedere un **Business Associate Agreement** o **Enterprise Privacy Addendum** senza passare a ChatGPT Enterprise. **Procedura:** 1. Scrivere a **sales@openai.com** (oppure compilare il form su [openai.com/enterprise](https://openai.com/enterprise/)) indicando: - Ragione sociale, sede legale, P.IVA, DPO/privacy contact - Caso d'uso (per adiuvAI: "agentic SaaS con E2E-encrypted user data, API backend") - Volume stimato mensile (token o $) — utile per pricing - Modelli usati (`gpt-4.1`, `gpt-4.1-mini`, `gpt-4.1-nano`, `text-embedding-3-small`) - Requisito esplicito: **"Zero Data Retention (0-day retention)"** e disabilitazione abuse monitoring sul contenuto 2. OpenAI invia **Commercial Agreement + Data Processing Addendum (DPA) + Zero Data Retention Addendum**. 3. Firmare via DocuSign. Tempo medio: **2–4 settimane** dalla prima mail al contratto attivo. 4. OpenAI abilita ZDR a livello di **Organization ID** dell'API — non serve modificare il codice, vale per tutte le chiamate future. 5. Verifica in dashboard: `platform.openai.com` → Settings → Organization → Data Controls. Deve apparire "Zero Data Retention: Enabled". **Costo:** l'Enterprise non ha prezzo pubblico; a bassi volumi si può ottenere senza commitment minimo (talvolta con un modesto uplift sulla tariffa API). **Documenti utili:** [OpenAI Enterprise Privacy](https://openai.com/enterprise-privacy/), [OpenAI DPA](https://openai.com/policies/data-processing-addendum/), [OpenAI API Data Usage](https://platform.openai.com/docs/models/how-we-use-your-data). ### 🟣 Anthropic — Commercial Terms + Zero Retention Addendum **Chi ne ha diritto:** qualsiasi cliente commerciale. Anthropic è più flessibile di OpenAI: ZDR viene concesso anche a volumi contenuti tramite un addendum al contratto standard. **Procedura:** 1. Scrivere a **sales@anthropic.com** (oppure via il form [anthropic.com/contact-sales](https://www.anthropic.com/contact-sales)) indicando: - Ragione sociale, sede legale, P.IVA - Caso d'uso e modelli (`claude-sonnet-4-6`, `claude-haiku-4-5`) - Volume stimato mensile - Richiesta esplicita: **"Zero Retention Addendum to the Commercial Terms"** - Se applicabile: GDPR DPA, BAA (per HIPAA) 2. Anthropic invia **Commercial Agreement + DPA + Zero Retention Addendum** (clausola dedicata). 3. Firma via DocuSign. Tempo medio: **1–3 settimane**. 4. Attivazione sull'**Organization** del Claude Console. Verifica in [console.anthropic.com](https://console.anthropic.com) → Settings → Organization → Privacy. 5. Dal contratto attivo: 0-day retention di prompt/response, abuse monitoring basato solo su metadati. **Costo:** nessun uplift in genere; il contratto ZDR è incluso nel Commercial Agreement. **Documenti utili:** [Anthropic Privacy Policy](https://www.anthropic.com/legal/privacy), [Anthropic Commercial Terms](https://www.anthropic.com/legal/commercial-terms), [Anthropic Trust Center](https://trust.anthropic.com) per SOC 2 / ISO 27001. ### Checklist pre-firma (entrambi) Prima di firmare verifica che il contratto copra: - [ ] **Zero retention** esplicita (0 giorni, non "short retention" che può significare 24h o 72h) - [ ] **No training** sui prompt/output (default API, confermare per scritto) - [ ] **Abuse monitoring** basato su metadati, non contenuto (altrimenti il provider legge comunque i prompt) - [ ] **Sub-processor list** consultabile (subcontractor del provider: datacenter, CDN, ecc.) - [ ] **DPA art. 28 GDPR** firmato contestualmente (obbligatorio se processi dati di utenti EU) - [ ] **Breach notification SLA** ≤ 72 ore (requisito GDPR) - [ ] **Data residency** — chiedere conferma region processing (US vs EU). Per adiuvAI può valere la pena pretendere routing EU se la clientela è europea - [ ] **Audit right** — possibilità di richiedere audit indipendente (rilevante per clienti enterprise propri) ### Timeline realistica end-to-end | Fase | Durata | |------|--------| | Primo contatto sales + NDA | 3–5 giorni | | Legal review interno contratti provider | 1–2 settimane | | Negoziazione clausole sensibili (residency, audit, pricing) | 1–2 settimane | | Firma DocuSign + attivazione ZDR su Org ID | 2–3 giorni | | **Totale** | **4–7 settimane** per provider | > 💡 **Consiglio pratico:** parti **in parallelo** con sales@openai.com e sales@anthropic.com lo stesso giorno. Il processo è indipendente e avere entrambi i contratti attivi contemporaneamente è indispensabile per il mapping proposto. --- ## Note & Fonti Prezzi aggiornati ad Aprile 2026. Verificare sempre le pagine ufficiali prima di decisioni finali — il mercato LLM cambia mensilmente. **Fonti:** - [OpenAI API Pricing](https://openai.com/api/pricing/) - [OpenAI Enterprise Privacy + ZDR](https://openai.com/enterprise-privacy/) - [Anthropic Claude Models](https://platform.claude.com/docs/en/docs/about-claude/models) - [Anthropic ZDR](https://www.anthropic.com/legal/privacy) - [Google Vertex AI Pricing](https://cloud.google.com/vertex-ai/pricing) - [Google Vertex Data Governance](https://cloud.google.com/vertex-ai/docs/generative-ai/data-governance) - [Mistral AI Pricing](https://mistral.ai/pricing) - [Mistral Privacy Policy](https://legal.mistral.ai/terms/privacy-policy) - [Groq On-Demand Pricing](https://groq.com/pricing) - [Cerebras Privacy Policy](https://www.cerebras.ai/policies) - [DeepSeek API Pricing](https://api-docs.deepseek.com/quick_start/pricing/) - [LiteLLM Supported Models](https://docs.litellm.ai/docs/providers) - [Best AI for Tool Calling 2026](https://llm-stats.com/leaderboards/best-ai-for-tool-calling) - [AI Cost Board — LLM Pricing 2026](https://aicostboard.com/blog/posts/llm-api-pricing-comparison-2026) --- *Report generato per adiuvAI · Aprile 2026 · Aggiornato per coprire tutti gli 11 agenti di `api/.env.example` con mapping separati Production/Development.*