diff --git a/docs/llm-provider-report.html b/docs/llm-provider-report.html new file mode 100644 index 0000000..3ff48c1 --- /dev/null +++ b/docs/llm-provider-report.html @@ -0,0 +1,1456 @@ + + +
+ + +Analisi comparativa dei provider per funzionalità agentica. Selezione ottimizzata per costo, qualità e privacy dei dati.
+Architettura
+Cinque componenti AI distinti, ognuno con requisiti specifici di modello.
+Assistente AI interattivo con tool calling, streaming e history multi-turn. Interfaccia principale dell'app.
+Chat contestuale single-turn con navigazione automatica. Segue l'utente attraverso l'app con risposte rapide.
+Sommario automatico giornaliero con 7 slot temporali. Genera brief contestuali senza interazione utente.
+Agenti schedulati per raccolta dati da filesystem locale e cloud (Gmail, Teams, Outlook). Cron-based.
+Indicizzazione vettoriale delle note per ricerca semantica. LanceDB locale con vettori 1536-dim.
+Conformità
+Valutazione delle policy di non-utilizzo dati per training. Solo i provider qualificati vengono considerati.
+| Provider | +Sede | +No Training su Dati API | +Policy | +Status | +
|---|---|---|---|---|
| 🇺🇸 OpenAI | +USA | +✓ Default opt-out via API | +Dati non usati per training. ZDR disponibile per Enterprise | +Qualificato | +
| 🇺🇸 Anthropic | +USA | +✓ Mai, senza opt-in esplicito | +Non usa prompt/risposte per training a meno di opt-in esplicito | +Qualificato | +
| USA | +✓ Solo tier a pagamento | +Vertex AI: garantito contrattualmente. Free tier: usato per training | +Qualificato (solo paid) | +|
| 🇫🇷 Mistral | +Francia (EU) | +✓ API La Plateforme | +Dati API non usati per training. ZDR disponibile. GDPR compliant | +Qualificato | +
| 🇨🇳 DeepSeek | +Cina | +Opt-out limitato | +Possibile opt-out via header, nessuna versione enterprise. Dati in Cina | +Rischio | +
| 🇺🇸 Groq | +USA | +✓ Via DPA separato | +Dati API gestiti sotto Services Agreement + DPA | +Qualificato | +
| 🇺🇸 Cerebras | +USA | +✓ Nessuna conservazione | +Dati, modelli e output mai conservati, loggati o riutilizzati | +Qualificato | +
| 🇨🇳 Zhipu (GLM) | +Cina | +Non verificabile | +Policy dichiarata ma compliance non verificabile per utenti internazionali | +Rischio | +
Confronto Modelli
+Per ogni feature, il modello ottimale di ciascun provider qualificato. Prezzi in USD per milione di token.
+| Provider | Modello | Input $/MTok | Output $/MTok | Motivazione |
|---|---|---|---|---|
| OpenAI | +GPT-4.1 | +$2.00 | +$8.00 | +Eccellente function calling, 1M context, buon rapporto qualità/prezzo | +
| Anthropic | +Claude Sonnet 4.6 | +$3.00 | +$15.00 | +Top tool use, 1M context, caching 90% sconto. Costoso in output | +
| Gemini 2.5 Flash | +$0.30 | +$2.50 | +Rapporto qualità/prezzo eccezionale, function calling nativo | +|
| Mistral | +Mistral Medium 3 | +$1.00 | +$3.00 | +Buon compromesso, EU hosting, 40% meno di GPT su output | +
| Groq | +Llama 3.3 70B | +$0.59 | +$0.79 | +Ultra-veloce (394 TPS), economico, buon tool use | +
| Cerebras | +— | +— | +— | +Catalogo limitato, non adatto per chat complesso | +
| Provider | Modello | Input $/MTok | Output $/MTok | Motivazione |
|---|---|---|---|---|
| OpenAI | +GPT-4.1 Mini | +$0.40 | +$1.60 | +Veloce, economico, buon function calling | +
| Anthropic | +Claude Haiku 4.5 | +$1.00 | +$5.00 | +Veloce, classificazione intent affidabile | +
| Gemini 2.5 Flash-Lite | +$0.10 | +$0.40 | +Estremamente economico, veloce, sufficiente per single-turn | +|
| Mistral | +Mistral Small 3.1 | +$0.20 | +$0.60 | +Veloce ed economico, EU compliance | +
| Groq | +Llama 4 Scout | +$0.11 | +$0.34 | +Velocissimo (594 TPS), economico | +
| Cerebras | +— | +— | +— | +Non adatto | +
| Provider | Modello | Input $/MTok | Output $/MTok | Motivazione |
|---|---|---|---|---|
| OpenAI | +GPT-4.1 Nano | +$0.10 | +$0.40 | +Più economico OpenAI, perfetto per task deterministico | +
| Anthropic | +Claude Haiku 4.5 | +$1.00 | +$5.00 | +Affidabile ma costoso per questo use case | +
| Gemini 2.5 Flash-Lite | +$0.10 | +$0.40 | +Stessa fascia di GPT-4.1 Nano, ottimo rapporto | +|
| Mistral | +Mistral Small 3.1 | +$0.20 | +$0.60 | +Economico, EU hosting | +
| Groq | +Llama 3.1 8B | +$0.05 | +$0.08 | +Il più economico in assoluto, 840 TPS | +
| Cerebras | +— | +— | +— | +— | +
| Provider | Modello | Input $/MTok | Output $/MTok | Motivazione |
|---|---|---|---|---|
| OpenAI | +GPT-4.1 (Batch) | +$1.00 | +$4.00 | +50% sconto batch, eccellente output strutturato | +
| Anthropic | +Claude Sonnet 4.6 (Batch) | +$1.50 | +$7.50 | +50% batch, tool use superiore, 300K output | +
| Gemini 2.5 Pro (Batch) | +$0.625 | +$5.00 | +50% batch, alta qualità reasoning | +|
| Mistral | +Mistral Large 3 | +$2.00 | +$6.00 | +Robusto, EU data residency | +
| Groq | +Qwen3 32B (Batch) | +$0.145 | +$0.295 | +50% batch, molto economico | +
| Cerebras | +— | +— | +— | +— | +
| Provider | Modello | Costo/MTok | Dimensioni | Motivazione |
|---|---|---|---|---|
| OpenAI | +text-embedding-3-small | +$0.02 | +1536 | +Standard de facto, già in uso nell'app | +
| Gemini Embedding | +$0.15 | +Variabile | +Buona qualità ma 7.5x più costoso | +|
| Voyage AI | +voyage-3.5-lite | +$0.02 | +1024 | +Top qualità al prezzo più basso | +
Simulazione
+Basata su un utilizzo tipico: 500 home, 300 floating, 210 brief, 100 batch, 1000 embeddings al mese.
+| Feature | Provider | Modello | Messaggi/mese | Tok Input | Tok Output | Costo/mese |
|---|---|---|---|---|---|---|
| Home Chat | +Gemini 2.5 Flash | +500 | +1M | +500K | +$0.30 + $1.25 = $1.55 | +|
| Floating Chat | +Gemini 2.5 Flash-Lite | +300 | +150K | +90K | +$0.015 + $0.036 = $0.05 | +|
| Daily Brief | +OpenAI | +GPT-4.1 Nano | +210 | +315K | +105K | +$0.032 + $0.042 = $0.07 | +
| Batch Agents | +OpenAI | +GPT-4.1 (Batch) | +100 | +300K | +200K | +$0.30 + $0.80 = $1.10 | +
| Embeddings | +OpenAI | +text-embedding-3-small | +1000 | +500K | +— | +$0.01 | +
| Totale Mensile per Utente | +~$2.78 | +|||||
Raccomandazione
+Tre approcci per bilanciare costo, qualità e complessità operativa.
+Provider diversi per ogni feature, massimizzando il rapporto qualità/costo.
+Pro: Costo ottimale, qualità massima per feature. Contro: 2 API key da gestire (Google + OpenAI).
+Tutto su Groq per risparmio massimo. Velocità di inferenza imbattibile.
+Pro: Ultra economico, velocità record (394–840 TPS). Contro: Qualità tool calling inferiore ai proprietari. Serve OpenAI per embeddings.
+Tutto OpenAI per massima affidabilità e semplicità operativa.
+Pro: Ecosistema unificato, ZDR, affidabilità massima, 1 sola API key. Contro: Costo 2–6x superiore alle alternative.
+Motivazioni
+Analisi dettagliata delle motivazioni dietro la strategia multi-provider consigliata.
+Google ha tagliato i prezzi aggressivamente nel 2026. Flash offre function calling nativo, 1M di contesto, e costa 6–7x meno di Claude Sonnet per l'output. La qualità è sufficiente per chat interattivo con tool use. Con il batch discount del 50%, diventa ancora più competitivo per carichi elevati.
+Per interazioni single-turn con classificazione intent, un modello leggero è più che sufficiente. A $0.10/$0.40 per MTok è 10x più economico di Claude Haiku e 4x meno di GPT-4.1 Mini. La latenza bassissima lo rende ideale per il floating panel.
+Il brief è un task deterministico con prompt fisso e output breve (3–5 frasi). Nano è il modello più economico di OpenAI a $0.10/$0.40 e produce output consistente di alta qualità. Non serve function calling, quindi un modello leggero basta.
+Gli agenti batch non richiedono risposta in tempo reale. Lo sconto batch 50% di OpenAI rende GPT-4.1 imbattibile a $1.00/$4.00. Il suo output strutturato e tool calling sono tra i migliori del mercato, cruciali per operazioni CRUD affidabili.
+Nonostante i costi bassissimi (DeepSeek V3 a $0.28/$0.42), entrambi i provider cinesi presentano rischi di privacy non accettabili per un'app che gestisce dati personali e aziendali. DeepSeek non offre versione enterprise e i dati risiedono in Cina. GLM ha policy non verificabili per utenti internazionali.
+Se il costo è la priorità assoluta, Groq con Llama 3.3 70B è l'opzione più economica con qualità accettabile. La velocità di inferenza (394–840 TPS) è imbattibile. Il limite è nella qualità del tool calling rispetto ai modelli proprietari.
+