Report Provider LLM per adiuvAI

Architettura

Funzionalità Agentiche

Cinque componenti AI distinti, ognuno con requisiti specifici di modello.

💬

Home Chat

Assistente AI interattivo con tool calling, streaming e history multi-turn. Interfaccia principale dell'app.

Function Calling Contesto Lungo Streaming

💠

Floating Chat

Chat contestuale single-turn con navigazione automatica. Segue l'utente attraverso l'app con risposte rapide.

Function Calling Intent Classification Risposta Rapida

☀

Daily Brief

Sommario automatico giornaliero con 7 slot temporali. Genera brief contestuali senza interazione utente.

Output Deterministico Velocità No Tool Calling

⚙

Batch Agents

Agenti schedulati per raccolta dati da filesystem locale e cloud (Gmail, Teams, Outlook). Cron-based.

Output Strutturato Tool Calling Robusto Esecuzione Lunga

🔍

Embeddings

Indicizzazione vettoriale delle note per ricerca semantica. LanceDB locale con vettori 1536-dim.

1536 Dimensioni Basso Costo Alta Qualità

Conformità

Status Privacy dei Provider

Valutazione delle policy di non-utilizzo dati per training. Solo i provider qualificati vengono considerati.

Provider	Sede	No Training su Dati API	Policy	Status
🇺🇸 OpenAI	USA	✓ Default opt-out via API	Dati non usati per training. ZDR disponibile per Enterprise	Qualificato
🇺🇸 Anthropic	USA	✓ Mai, senza opt-in esplicito	Non usa prompt/risposte per training a meno di opt-in esplicito	Qualificato
🇺🇸 Google	USA	✓ Solo tier a pagamento	Vertex AI: garantito contrattualmente. Free tier: usato per training	Qualificato (solo paid)
🇫🇷 Mistral	Francia (EU)	✓ API La Plateforme	Dati API non usati per training. ZDR disponibile. GDPR compliant	Qualificato
🇨🇳 DeepSeek	Cina	⚠ Opt-out limitato	Possibile opt-out via header, nessuna versione enterprise. Dati in Cina	Rischio
🇺🇸 Groq	USA	✓ Via DPA separato	Dati API gestiti sotto Services Agreement + DPA	Qualificato
🇺🇸 Cerebras	USA	✓ Nessuna conservazione	Dati, modelli e output mai conservati, loggati o riutilizzati	Qualificato
🇨🇳 Zhipu (GLM)	Cina	⚠ Non verificabile	Policy dichiarata ma compliance non verificabile per utenti internazionali	Rischio

Confronto Modelli

Miglior Modello per Funzionalità

Per ogni feature, il modello ottimale di ciascun provider qualificato. Prezzi in USD per milione di token.

💬 Home Chat

Function Calling + Streaming + Contesto Lungo

Provider	Modello	Input $/MTok	Output $/MTok	Motivazione
OpenAI	GPT-4.1	$2.00	$8.00	Eccellente function calling, 1M context, buon rapporto qualità/prezzo
Anthropic	Claude Sonnet 4.6	$3.00	$15.00	Top tool use, 1M context, caching 90% sconto. Costoso in output
Google	Gemini 2.5 Flash	$0.30	$2.50	Rapporto qualità/prezzo eccezionale, function calling nativo
Mistral	Mistral Medium 3	$1.00	$3.00	Buon compromesso, EU hosting, 40% meno di GPT su output
Groq	Llama 3.3 70B	$0.59	$0.79	Ultra-veloce (394 TPS), economico, buon tool use
Cerebras	—	—	—	Catalogo limitato, non adatto per chat complesso

💠 Floating Chat

Function Calling + Intent Classification + Velocità

Provider	Modello	Input $/MTok	Output $/MTok	Motivazione
OpenAI	GPT-4.1 Mini	$0.40	$1.60	Veloce, economico, buon function calling
Anthropic	Claude Haiku 4.5	$1.00	$5.00	Veloce, classificazione intent affidabile
Google	Gemini 2.5 Flash-Lite	$0.10	$0.40	Estremamente economico, veloce, sufficiente per single-turn
Mistral	Mistral Small 3.1	$0.20	$0.60	Veloce ed economico, EU compliance
Groq	Llama 4 Scout	$0.11	$0.34	Velocissimo (594 TPS), economico
Cerebras	—	—	—	Non adatto

☀ Daily Brief

Output Deterministico + Velocità

Provider	Modello	Input $/MTok	Output $/MTok	Motivazione
OpenAI	GPT-4.1 Nano	$0.10	$0.40	Più economico OpenAI, perfetto per task deterministico
Anthropic	Claude Haiku 4.5	$1.00	$5.00	Affidabile ma costoso per questo use case
Google	Gemini 2.5 Flash-Lite	$0.10	$0.40	Stessa fascia di GPT-4.1 Nano, ottimo rapporto
Mistral	Mistral Small 3.1	$0.20	$0.60	Economico, EU hosting
Groq	Llama 3.1 8B	$0.05	$0.08	Il più economico in assoluto, 840 TPS
Cerebras	—	—	—	—

⚙ Batch Agents

Tool Calling Robusto + Output Strutturato

Provider	Modello	Input $/MTok	Output $/MTok	Motivazione
OpenAI	GPT-4.1 (Batch)	$1.00	$4.00	50% sconto batch, eccellente output strutturato
Anthropic	Claude Sonnet 4.6 (Batch)	$1.50	$7.50	50% batch, tool use superiore, 300K output
Google	Gemini 2.5 Pro (Batch)	$0.625	$5.00	50% batch, alta qualità reasoning
Mistral	Mistral Large 3	$2.00	$6.00	Robusto, EU data residency
Groq	Qwen3 32B (Batch)	$0.145	$0.295	50% batch, molto economico
Cerebras	—	—	—	—

🔍 Embeddings

Indicizzazione Vettoriale per Ricerca Semantica

Provider	Modello	Costo/MTok	Dimensioni	Motivazione
OpenAI	text-embedding-3-small	$0.02	1536	Standard de facto, già in uso nell'app
Google	Gemini Embedding	$0.15	Variabile	Buona qualità ma 7.5x più costoso
Voyage AI	voyage-3.5-lite	$0.02	1024	Top qualità al prezzo più basso

Simulazione

Stima Costi Mensili per Utente

Basata su un utilizzo tipico: 500 home, 300 floating, 210 brief, 100 batch, 1000 embeddings al mese.

Calcolo Dettagliato

Token medi: Home 2K/1K • Floating 500/300 • Brief 1.5K/500 • Batch 3K/2K • Embed 500

Dettaglio per Feature — Strategia Multi-Provider Consigliata

Feature	Provider	Modello	Messaggi/mese	Tok Input	Tok Output	Costo/mese
Home Chat	Google	Gemini 2.5 Flash	500	1M	500K	$0.30 + $1.25 = $1.55
Floating Chat	Google	Gemini 2.5 Flash-Lite	300	150K	90K	$0.015 + $0.036 = $0.05
Daily Brief	OpenAI	GPT-4.1 Nano	210	315K	105K	$0.032 + $0.042 = $0.07
Batch Agents	OpenAI	GPT-4.1 (Batch)	100	300K	200K	$0.30 + $0.80 = $1.10
Embeddings	OpenAI	text-embedding-3-small	1000	500K	—	$0.01
Totale Mensile per Utente						~$2.78

Raccomandazione

Strategie di Implementazione

Tre approcci per bilanciare costo, qualità e complessità operativa.

🏆 Consigliata

Multi-Provider Ottimizzato

Provider diversi per ogni feature, massimizzando il rapporto qualità/costo.

Home Chat Gemini 2.5 Flash
Floating Chat Gemini 2.5 Flash-Lite
Daily Brief GPT-4.1 Nano
Batch Agents GPT-4.1 Batch
Embeddings text-embedding-3-small

Costo stimato/utente/mese ~$2.78

Pro: Costo ottimale, qualità massima per feature. Contro: 2 API key da gestire (Google + OpenAI).

💰 Budget

Provider Singolo — Groq

Tutto su Groq per risparmio massimo. Velocità di inferenza imbattibile.

Home Chat Llama 3.3 70B
Floating Chat Llama 4 Scout
Daily Brief Llama 3.1 8B
Batch Agents Qwen3 32B Batch
Embeddings OpenAI (esterno)

Costo stimato/utente/mese ~$1.05

Pro: Ultra economico, velocità record (394–840 TPS). Contro: Qualità tool calling inferiore ai proprietari. Serve OpenAI per embeddings.

🛡 Enterprise

Provider Singolo — OpenAI

Tutto OpenAI per massima affidabilità e semplicità operativa.

Home Chat GPT-4.1
Floating Chat GPT-4.1 Mini
Daily Brief GPT-4.1 Nano
Batch Agents GPT-4.1 Batch
Embeddings text-embedding-3-small

Costo stimato/utente/mese ~$6.20

Pro: Ecosistema unificato, ZDR, affidabilità massima, 1 sola API key. Contro: Costo 2–6x superiore alle alternative.

Motivazioni

Perché queste scelte

Analisi dettagliata delle motivazioni dietro la strategia multi-provider consigliata.

💬 Gemini 2.5 Flash per Home Chat

Google ha tagliato i prezzi aggressivamente nel 2026. Flash offre function calling nativo, 1M di contesto, e costa 6–7x meno di Claude Sonnet per l'output. La qualità è sufficiente per chat interattivo con tool use. Con il batch discount del 50%, diventa ancora più competitivo per carichi elevati.

💠 Gemini 2.5 Flash-Lite per Floating

Per interazioni single-turn con classificazione intent, un modello leggero è più che sufficiente. A $0.10/$0.40 per MTok è 10x più economico di Claude Haiku e 4x meno di GPT-4.1 Mini. La latenza bassissima lo rende ideale per il floating panel.

☀ GPT-4.1 Nano per Daily Brief

Il brief è un task deterministico con prompt fisso e output breve (3–5 frasi). Nano è il modello più economico di OpenAI a $0.10/$0.40 e produce output consistente di alta qualità. Non serve function calling, quindi un modello leggero basta.

⚙ GPT-4.1 Batch per Agenti

Gli agenti batch non richiedono risposta in tempo reale. Lo sconto batch 50% di OpenAI rende GPT-4.1 imbattibile a $1.00/$4.00. Il suo output strutturato e tool calling sono tra i migliori del mercato, cruciali per operazioni CRUD affidabili.

🚫 DeepSeek e GLM Esclusi

Nonostante i costi bassissimi (DeepSeek V3 a $0.28/$0.42), entrambi i provider cinesi presentano rischi di privacy non accettabili per un'app che gestisce dati personali e aziendali. DeepSeek non offre versione enterprise e i dati risiedono in Cina. GLM ha policy non verificabili per utenti internazionali.

⚡ Groq come Alternativa Budget

Se il costo è la priorità assoluta, Groq con Llama 3.3 70B è l'opzione più economica con qualità accettabile. La velocità di inferenza (394–840 TPS) è imbattibile. Il limite è nella qualità del tool calling rispetto ai modelli proprietari.