Analisi comparativa dei provider per funzionalità agentica. Selezione ottimizzata per costo, qualità e privacy dei dati.
Architettura
Sei componenti AI distinti, ognuno con requisiti specifici di modello.
Assistente AI interattivo con tool calling, streaming e history multi-turn. Interfaccia principale dell'app.
Chat contestuale single-turn con navigazione automatica. Segue l'utente attraverso l'app con risposte rapide.
Sommario automatico giornaliero con 7 slot temporali. Genera brief contestuali senza interazione utente.
Agenti schedulati per raccolta dati da filesystem locale e cloud (Gmail, Teams, Outlook). Loop tool-calling multi-turno, API Standard.
Journey conversazionale interattiva per configurare un agente. L’utente risponde a domande guidate, il LLM esplora la directory e produce un AgentConfig JSON validato.
Indicizzazione vettoriale delle note per ricerca semantica. LanceDB locale con vettori 1536-dim.
Conformità
Valutazione delle policy di non-utilizzo dati per training. Solo i provider qualificati vengono considerati.
| Provider | Sede | No Training su Dati API | Policy | Status |
|---|---|---|---|---|
| 🇺🇸 OpenAI | USA | ✓ Default opt-out via API | Dati non usati per training. ZDR disponibile per Enterprise | Qualificato |
| 🇺🇸 Anthropic | USA | ✓ Mai, senza opt-in esplicito | Non usa prompt/risposte per training a meno di opt-in esplicito | Qualificato |
| USA | ✓ Solo tier a pagamento | Vertex AI: garantito contrattualmente. Free tier: usato per training | Qualificato (solo paid) | |
| 🇫🇷 Mistral | Francia (EU) | ✓ API La Plateforme | Dati API non usati per training. ZDR disponibile. GDPR compliant | Qualificato |
| 🇨🇳 DeepSeek | Cina | Opt-out limitato | Possibile opt-out via header, nessuna versione enterprise. Dati in Cina | Rischio |
| 🇺🇸 Groq | USA | ✓ Via DPA separato | Dati API gestiti sotto Services Agreement + DPA | Qualificato |
| 🇺🇸 Cerebras | USA | ✓ Nessuna conservazione | Dati, modelli e output mai conservati, loggati o riutilizzati | Qualificato |
| 🇨🇳 Zhipu (GLM) | Cina | Non verificabile | Policy dichiarata ma compliance non verificabile per utenti internazionali | Rischio |
Confronto Modelli
Per ogni feature, il modello ottimale di ciascun provider qualificato. Prezzi in USD per milione di token.
| Provider | Modello | Input $/MTok | Output $/MTok | Motivazione |
|---|---|---|---|---|
| OpenAI | GPT-4.1 | $2.00 | $8.00 | Eccellente function calling, 1M context, buon rapporto qualità/prezzo |
| Anthropic | Claude Sonnet 4.6 | $3.00 | $15.00 | Top tool use, 1M context, caching 90% sconto. Costoso in output |
| Gemini 2.5 Flash | $0.30 | $2.50 | Rapporto qualità/prezzo eccezionale, function calling nativo | |
| Mistral | Mistral Medium 3 | $1.00 | $3.00 | Buon compromesso, EU hosting, 40% meno di GPT su output |
| Groq | Llama 3.3 70B | $0.59 | $0.79 | Ultra-veloce (394 TPS), economico, buon tool use |
| Cerebras | — | — | — | Catalogo limitato, non adatto per chat complesso |
| Provider | Modello | Input $/MTok | Output $/MTok | Motivazione |
|---|---|---|---|---|
| OpenAI | GPT-4.1 Mini | $0.40 | $1.60 | Veloce, economico, buon function calling |
| Anthropic | Claude Haiku 4.5 | $1.00 | $5.00 | Veloce, classificazione intent affidabile |
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 | Estremamente economico, veloce, sufficiente per single-turn | |
| Mistral | Mistral Small 3.1 | $0.20 | $0.60 | Veloce ed economico, EU compliance |
| Groq | Llama 4 Scout | $0.11 | $0.34 | Velocissimo (594 TPS), economico |
| Cerebras | — | — | — | Non adatto |
| Provider | Modello | Input $/MTok | Output $/MTok | Motivazione |
|---|---|---|---|---|
| OpenAI | GPT-4.1 Nano | $0.10 | $0.40 | Più economico OpenAI, perfetto per task deterministico |
| Anthropic | Claude Haiku 4.5 | $1.00 | $5.00 | Affidabile ma costoso per questo use case |
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 | Stessa fascia di GPT-4.1 Nano, ottimo rapporto | |
| Mistral | Mistral Small 3.1 | $0.20 | $0.60 | Economico, EU hosting |
| Groq | Llama 3.1 8B | $0.05 | $0.08 | Il più economico in assoluto, 840 TPS |
| Cerebras | — | — | — | — |
unified-processor, cloud-processor). Il loop di tool-calling (fino a 12 turni per file) richiede risultati sincroni dal client Electron via WebSocket — un round-trip interattivo che il Batch API asincrono non supporta. Usare esclusivamente API Standard, a prezzi di listino senza sconto batch.
| Provider | Modello | Input $/MTok | Output $/MTok | Motivazione |
|---|---|---|---|---|
| OpenAI | GPT-4.1 Mini | $0.40 | $1.60 | Ottimo rapporto qualità/costo, tool calling affidabile, API Standard |
| Anthropic | Claude Sonnet 4.6 | $3.00 | $15.00 | Miglior tool use del mercato, se qualità è priorità assoluta |
| Gemini 2.5 Flash | $0.30 | $2.50 | Ottimo reasoning, tool calling affidabile, costo input molto basso | |
| Mistral | Mistral Large 3 | $2.00 | $6.00 | Robusto, EU data residency |
| Groq | Qwen3 32B | $0.29 | $0.59 | Molto economico, velocità elevata; qualità tool calling inferiore ai proprietari |
| Cerebras | — | — | — | — |
temperature=0.4). Il volume è basso (poche sessioni per utente nel tempo), quindi il costo è trascurabile anche con modelli premium. Priorità: qualità della conversazione e accuratezza nel produrre l’AgentConfig JSON finale.
| Provider | Modello | Input $/MTok | Output $/MTok | Motivazione |
|---|---|---|---|---|
| OpenAI | GPT-4.1 | $2.00 | $8.00 | Ottimo bilanciamento qualità/costo per conversazioni guidate, JSON output affidabile |
| Anthropic | Claude Sonnet 4.6 | $3.00 | $15.00 | Massima qualità conversazionale e instruction-following; costo giustificato dalla rarità delle sessioni |
| Gemini 2.5 Flash | $0.30 | $2.50 | Buona qualità conversazionale a costo molto basso; opzione se si vuole contenere ogni spesa | |
| OpenAI | GPT-4.1 Mini | $0.40 | $1.60 | Alternativa budget; qualità conversazionale sufficiente, JSON output meno affidabile |
| Mistral | Mistral Large 3 | $2.00 | $6.00 | EU data residency; buona qualità per il setup journey |
| Groq / Cerebras | — | — | — | Non consigliati: qualità conversazionale insufficiente per journey multi-turno |
| Provider | Modello | Costo/MTok | Dimensioni | Motivazione |
|---|---|---|---|---|
| OpenAI | text-embedding-3-small | $0.02 | 1536 | Standard de facto, già in uso nell'app |
| Gemini Embedding | $0.15 | Variabile | Buona qualità ma 7.5x più costoso | |
| Voyage AI | voyage-3.5-lite | $0.02 | 1024 | Top qualità al prezzo più basso |
Simulazione
Basata su un utilizzo tipico: 500 home, 300 floating, 210 brief, 100 background agent runs, 10 setup turns (≈2 sessioni), 1000 embeddings al mese.
| Feature | Provider | Modello | Messaggi/mese | Tok Input | Tok Output | Costo/mese |
|---|---|---|---|---|---|---|
| Home Chat | Gemini 2.5 Flash | 500 | 1M | 500K | $0.30 + $1.25 = $1.55 | |
| Floating Chat | Gemini 2.5 Flash-Lite | 300 | 150K | 90K | $0.015 + $0.036 = $0.05 | |
| Daily Brief | OpenAI | GPT-4.1 Nano | 210 | 315K | 105K | $0.032 + $0.042 = $0.07 |
| Background Agents | OpenAI | GPT-4.1 Mini | 100 | 300K | 200K | $0.12 + $0.32 = $0.44 |
| Setup Agent | OpenAI | GPT-4.1 | 10 turns | 40K | 5K | $0.08 + $0.04 = $0.12 |
| Embeddings | OpenAI | text-embedding-3-small | 1000 | 500K | — | $0.01 |
| Totale Mensile per Utente | ~$2.24 | |||||
Raccomandazione
Tre approcci per bilanciare costo, qualità e complessità operativa.
Provider diversi per ogni feature, massimizzando il rapporto qualità/costo.
Pro: Costo ottimale, qualità massima per feature. Contro: 2 API key da gestire (Google + OpenAI).
Tutto su Groq per risparmio massimo. Velocità di inferenza imbattibile.
Pro: Ultra economico, velocità record (394–840 TPS). Contro: Qualità tool calling inferiore ai proprietari. Serve OpenAI per embeddings e setup.
Tutto OpenAI per massima affidabilità e semplicità operativa.
Pro: Ecosistema unificato, ZDR, affidabilità massima, 1 sola API key. Contro: Costo 3–7x superiore alle alternative.
Motivazioni
Analisi dettagliata delle motivazioni dietro la strategia multi-provider consigliata.
Google ha tagliato i prezzi aggressivamente nel 2026. Flash offre function calling nativo, 1M di contesto, e costa 6–7x meno di Claude Sonnet per l'output. La qualità è sufficiente per chat interattivo con tool use. Con il batch discount del 50%, diventa ancora più competitivo per carichi elevati.
Per interazioni single-turn con classificazione intent, un modello leggero è più che sufficiente. A $0.10/$0.40 per MTok è 10x più economico di Claude Haiku e 4x meno di GPT-4.1 Mini. La latenza bassissima lo rende ideale per il floating panel.
Il brief è un task deterministico con prompt fisso e output breve (3–5 frasi). Nano è il modello più economico di OpenAI a $0.10/$0.40 e produce output consistente di alta qualità. Non serve function calling, quindi un modello leggero basta.
Il Batch API dei provider LLM non è applicabile agli agenti di processing: il loop tool-calling (unified-processor, cloud-processor) richiede fino a 12 turni sincroni per file, con ogni risultato di tool restituito dal client Electron via WebSocket prima che parta il turno successivo — incompatibile con il modello asincrono e fire-and-forget del Batch API. Si usa quindi l’API Standard. GPT-4.1 Mini a $0.40/$1.60 offre un ottimo bilanciamento: tool calling affidabile per operazioni CRUD multi-step, output strutturato consistente, e costo contenuto che non subisce la moltiplicazione del loop (ogni file può generare più chiamate LLM in sequenza).
Il setup journey è fondamentalmente diverso dagli agenti di processing: è una conversazione interattiva real-time con l’utente (3–15 turni, temperature=0.4) che deve guidare con domande sensate, esplorare la directory con tool calling e produrre un AgentConfig JSON valido alla fine. GPT-4.1 a $2.00/$8.00 è la scelta giusta: qualità conversazionale e instruction-following superiori a Mini, con un impatto sul costo trascurabile dato il basso volume (≈2 sessioni/mese per utente). Usare GPT-4.1 Mini per risparmiare $0.09/mese non vale la degradazione nell’UX del setup.
Nonostante i costi bassissimi (DeepSeek V3 a $0.28/$0.42), entrambi i provider cinesi presentano rischi di privacy non accettabili per un'app che gestisce dati personali e aziendali. DeepSeek non offre versione enterprise e i dati risiedono in Cina. GLM ha policy non verificabili per utenti internazionali.
Se il costo è la priorità assoluta, Groq con Llama 3.3 70B è l'opzione più economica con qualità accettabile. La velocità di inferenza (394–840 TPS) è imbattibile. Il limite è nella qualità del tool calling rispetto ai modelli proprietari.