From 29695171348e8cc01a273651a0a37ce47216a74d Mon Sep 17 00:00:00 2001 From: Roberto Date: Thu, 9 Apr 2026 23:07:17 +0200 Subject: [PATCH] add doc report llm to use --- docs/llm-provider-report.html | 1456 +++++++++++++++++++++++++++++++++ 1 file changed, 1456 insertions(+) create mode 100644 docs/llm-provider-report.html diff --git a/docs/llm-provider-report.html b/docs/llm-provider-report.html new file mode 100644 index 0000000..3ff48c1 --- /dev/null +++ b/docs/llm-provider-report.html @@ -0,0 +1,1456 @@ + + + + + + Report Provider LLM per adiuvAI — Aprile 2026 + + + + + + + + + + + + + + +
+ + +
+
+
+

Architettura

+

Funzionalità Agentiche

+

Cinque componenti AI distinti, ognuno con requisiti specifici di modello.

+
+
+ +
+
💬
+

Home Chat

+

Assistente AI interattivo con tool calling, streaming e history multi-turn. Interfaccia principale dell'app.

+
+ Function Calling + Contesto Lungo + Streaming +
+
+ +
+
💠
+

Floating Chat

+

Chat contestuale single-turn con navigazione automatica. Segue l'utente attraverso l'app con risposte rapide.

+
+ Function Calling + Intent Classification + Risposta Rapida +
+
+ +
+
+

Daily Brief

+

Sommario automatico giornaliero con 7 slot temporali. Genera brief contestuali senza interazione utente.

+
+ Output Deterministico + Velocità + No Tool Calling +
+
+ +
+
+

Batch Agents

+

Agenti schedulati per raccolta dati da filesystem locale e cloud (Gmail, Teams, Outlook). Cron-based.

+
+ Output Strutturato + Tool Calling Robusto + Esecuzione Lunga +
+
+ +
+
🔍
+

Embeddings

+

Indicizzazione vettoriale delle note per ricerca semantica. LanceDB locale con vettori 1536-dim.

+
+ 1536 Dimensioni + Basso Costo + Alta Qualità +
+
+ +
+
+
+ +
+ + +
+
+
+

Conformità

+

Status Privacy dei Provider

+

Valutazione delle policy di non-utilizzo dati per training. Solo i provider qualificati vengono considerati.

+
+ +
+
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
ProviderSedeNo Training su Dati APIPolicyStatus
🇺🇸 OpenAIUSA Default opt-out via APIDati non usati per training. ZDR disponibile per EnterpriseQualificato
🇺🇸 AnthropicUSA Mai, senza opt-in esplicitoNon usa prompt/risposte per training a meno di opt-in esplicitoQualificato
🇺🇸 GoogleUSA Solo tier a pagamentoVertex AI: garantito contrattualmente. Free tier: usato per trainingQualificato (solo paid)
🇫🇷 MistralFrancia (EU) API La PlateformeDati API non usati per training. ZDR disponibile. GDPR compliantQualificato
🇨🇳 DeepSeekCina Opt-out limitatoPossibile opt-out via header, nessuna versione enterprise. Dati in CinaRischio
🇺🇸 GroqUSA Via DPA separatoDati API gestiti sotto Services Agreement + DPAQualificato
🇺🇸 CerebrasUSA Nessuna conservazioneDati, modelli e output mai conservati, loggati o riutilizzatiQualificato
🇨🇳 Zhipu (GLM)Cina Non verificabilePolicy dichiarata ma compliance non verificabile per utenti internazionaliRischio
+
+
+
+
+ +
+ + +
+
+
+

Confronto Modelli

+

Miglior Modello per Funzionalità

+

Per ogni feature, il modello ottimale di ciascun provider qualificato. Prezzi in USD per milione di token.

+
+ +
+ + + + + +
+ + +
+
+
+
+

💬 Home Chat

+ Function Calling + Streaming + Contesto Lungo +
+
+
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
ProviderModelloInput $/MTokOutput $/MTokMotivazione
OpenAIGPT-4.1$2.00$8.00Eccellente function calling, 1M context, buon rapporto qualità/prezzo
AnthropicClaude Sonnet 4.6$3.00$15.00Top tool use, 1M context, caching 90% sconto. Costoso in output
GoogleGemini 2.5 Flash$0.30$2.50Rapporto qualità/prezzo eccezionale, function calling nativo
MistralMistral Medium 3$1.00$3.00Buon compromesso, EU hosting, 40% meno di GPT su output
GroqLlama 3.3 70B$0.59$0.79Ultra-veloce (394 TPS), economico, buon tool use
CerebrasCatalogo limitato, non adatto per chat complesso
+
+
+
+ + +
+
+
+
+

💠 Floating Chat

+ Function Calling + Intent Classification + Velocità +
+
+
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
ProviderModelloInput $/MTokOutput $/MTokMotivazione
OpenAIGPT-4.1 Mini$0.40$1.60Veloce, economico, buon function calling
AnthropicClaude Haiku 4.5$1.00$5.00Veloce, classificazione intent affidabile
GoogleGemini 2.5 Flash-Lite$0.10$0.40Estremamente economico, veloce, sufficiente per single-turn
MistralMistral Small 3.1$0.20$0.60Veloce ed economico, EU compliance
GroqLlama 4 Scout$0.11$0.34Velocissimo (594 TPS), economico
CerebrasNon adatto
+
+
+
+ + +
+
+
+
+

☀ Daily Brief

+ Output Deterministico + Velocità +
+
+
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
ProviderModelloInput $/MTokOutput $/MTokMotivazione
OpenAIGPT-4.1 Nano$0.10$0.40Più economico OpenAI, perfetto per task deterministico
AnthropicClaude Haiku 4.5$1.00$5.00Affidabile ma costoso per questo use case
GoogleGemini 2.5 Flash-Lite$0.10$0.40Stessa fascia di GPT-4.1 Nano, ottimo rapporto
MistralMistral Small 3.1$0.20$0.60Economico, EU hosting
GroqLlama 3.1 8B$0.05$0.08Il più economico in assoluto, 840 TPS
Cerebras
+
+
+
+ + +
+
+
+
+

⚙ Batch Agents

+ Tool Calling Robusto + Output Strutturato +
+
+
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
ProviderModelloInput $/MTokOutput $/MTokMotivazione
OpenAIGPT-4.1 (Batch)$1.00$4.0050% sconto batch, eccellente output strutturato
AnthropicClaude Sonnet 4.6 (Batch)$1.50$7.5050% batch, tool use superiore, 300K output
GoogleGemini 2.5 Pro (Batch)$0.625$5.0050% batch, alta qualità reasoning
MistralMistral Large 3$2.00$6.00Robusto, EU data residency
GroqQwen3 32B (Batch)$0.145$0.29550% batch, molto economico
Cerebras
+
+
+
+ + +
+
+
+
+

🔍 Embeddings

+ Indicizzazione Vettoriale per Ricerca Semantica +
+
+
+ + + + + + + + + + + + + + + + + + + + + + + + + + + +
ProviderModelloCosto/MTokDimensioniMotivazione
OpenAItext-embedding-3-small$0.021536Standard de facto, già in uso nell'app
GoogleGemini Embedding$0.15VariabileBuona qualità ma 7.5x più costoso
Voyage AIvoyage-3.5-lite$0.021024Top qualità al prezzo più basso
+
+
+
+ +
+
+ +
+ + +
+
+
+

Simulazione

+

Stima Costi Mensili per Utente

+

Basata su un utilizzo tipico: 500 home, 300 floating, 210 brief, 100 batch, 1000 embeddings al mese.

+
+ +
+
+
+

Calcolo Dettagliato

+ Token medi: Home 2K/1K • Floating 500/300 • Brief 1.5K/500 • Batch 3K/2K • Embed 500 +
+
+
+ +
+
+ +
+
+
+

Dettaglio per Feature — Strategia Multi-Provider Consigliata

+
+
+
+ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
FeatureProviderModelloMessaggi/meseTok InputTok OutputCosto/mese
Home ChatGoogleGemini 2.5 Flash5001M500K$0.30 + $1.25 = $1.55
Floating ChatGoogleGemini 2.5 Flash-Lite300150K90K$0.015 + $0.036 = $0.05
Daily BriefOpenAIGPT-4.1 Nano210315K105K$0.032 + $0.042 = $0.07
Batch AgentsOpenAIGPT-4.1 (Batch)100300K200K$0.30 + $0.80 = $1.10
EmbeddingsOpenAItext-embedding-3-small1000500K$0.01
Totale Mensile per Utente~$2.78
+
+
+
+
+ +
+ + +
+
+
+

Raccomandazione

+

Strategie di Implementazione

+

Tre approcci per bilanciare costo, qualità e complessità operativa.

+
+ +
+ + + + + +
+ 💰 Budget +

Provider Singolo — Groq

+

Tutto su Groq per risparmio massimo. Velocità di inferenza imbattibile.

+
    +
  • Home Chat Llama 3.3 70B
  • +
  • Floating Chat Llama 4 Scout
  • +
  • Daily Brief Llama 3.1 8B
  • +
  • Batch Agents Qwen3 32B Batch
  • +
  • Embeddings OpenAI (esterno)
  • +
+
+ Costo stimato/utente/mese + ~$1.05 +
+

Pro: Ultra economico, velocità record (394–840 TPS). Contro: Qualità tool calling inferiore ai proprietari. Serve OpenAI per embeddings.

+
+ + +
+ 🛡 Enterprise +

Provider Singolo — OpenAI

+

Tutto OpenAI per massima affidabilità e semplicità operativa.

+
    +
  • Home Chat GPT-4.1
  • +
  • Floating Chat GPT-4.1 Mini
  • +
  • Daily Brief GPT-4.1 Nano
  • +
  • Batch Agents GPT-4.1 Batch
  • +
  • Embeddings text-embedding-3-small
  • +
+
+ Costo stimato/utente/mese + ~$6.20 +
+

Pro: Ecosistema unificato, ZDR, affidabilità massima, 1 sola API key. Contro: Costo 2–6x superiore alle alternative.

+
+ +
+
+
+ +
+ + +
+
+
+

Motivazioni

+

Perché queste scelte

+

Analisi dettagliata delle motivazioni dietro la strategia multi-provider consigliata.

+
+ +
+ +
+

💬 Gemini 2.5 Flash per Home Chat

+

Google ha tagliato i prezzi aggressivamente nel 2026. Flash offre function calling nativo, 1M di contesto, e costa 6–7x meno di Claude Sonnet per l'output. La qualità è sufficiente per chat interattivo con tool use. Con il batch discount del 50%, diventa ancora più competitivo per carichi elevati.

+
+ +
+

💠 Gemini 2.5 Flash-Lite per Floating

+

Per interazioni single-turn con classificazione intent, un modello leggero è più che sufficiente. A $0.10/$0.40 per MTok è 10x più economico di Claude Haiku e 4x meno di GPT-4.1 Mini. La latenza bassissima lo rende ideale per il floating panel.

+
+ +
+

☀ GPT-4.1 Nano per Daily Brief

+

Il brief è un task deterministico con prompt fisso e output breve (3–5 frasi). Nano è il modello più economico di OpenAI a $0.10/$0.40 e produce output consistente di alta qualità. Non serve function calling, quindi un modello leggero basta.

+
+ +
+

⚙ GPT-4.1 Batch per Agenti

+

Gli agenti batch non richiedono risposta in tempo reale. Lo sconto batch 50% di OpenAI rende GPT-4.1 imbattibile a $1.00/$4.00. Il suo output strutturato e tool calling sono tra i migliori del mercato, cruciali per operazioni CRUD affidabili.

+
+ +
+

🚫 DeepSeek e GLM Esclusi

+

Nonostante i costi bassissimi (DeepSeek V3 a $0.28/$0.42), entrambi i provider cinesi presentano rischi di privacy non accettabili per un'app che gestisce dati personali e aziendali. DeepSeek non offre versione enterprise e i dati risiedono in Cina. GLM ha policy non verificabili per utenti internazionali.

+
+ +
+

⚡ Groq come Alternativa Budget

+

Se il costo è la priorità assoluta, Groq con Llama 3.3 70B è l'opzione più economica con qualità accettabile. La velocità di inferenza (394–840 TPS) è imbattibile. Il limite è nella qualità del tool calling rispetto ai modelli proprietari.

+
+ +
+
+
+ +
+ + + + + + + + \ No newline at end of file