Architettura

Funzionalità Agentiche

Cinque componenti AI distinti, ognuno con requisiti specifici di modello.

💬

Home Chat

Assistente AI interattivo con tool calling, streaming e history multi-turn. Interfaccia principale dell'app.

Function Calling Contesto Lungo Streaming
💠

Floating Chat

Chat contestuale single-turn con navigazione automatica. Segue l'utente attraverso l'app con risposte rapide.

Function Calling Intent Classification Risposta Rapida

Daily Brief

Sommario automatico giornaliero con 7 slot temporali. Genera brief contestuali senza interazione utente.

Output Deterministico Velocità No Tool Calling

Batch Agents

Agenti schedulati per raccolta dati da filesystem locale e cloud (Gmail, Teams, Outlook). Cron-based.

Output Strutturato Tool Calling Robusto Esecuzione Lunga
🔍

Embeddings

Indicizzazione vettoriale delle note per ricerca semantica. LanceDB locale con vettori 1536-dim.

1536 Dimensioni Basso Costo Alta Qualità

Conformità

Status Privacy dei Provider

Valutazione delle policy di non-utilizzo dati per training. Solo i provider qualificati vengono considerati.

Provider Sede No Training su Dati API Policy Status
🇺🇸 OpenAI USA Default opt-out via API Dati non usati per training. ZDR disponibile per Enterprise Qualificato
🇺🇸 Anthropic USA Mai, senza opt-in esplicito Non usa prompt/risposte per training a meno di opt-in esplicito Qualificato
🇺🇸 Google USA Solo tier a pagamento Vertex AI: garantito contrattualmente. Free tier: usato per training Qualificato (solo paid)
🇫🇷 Mistral Francia (EU) API La Plateforme Dati API non usati per training. ZDR disponibile. GDPR compliant Qualificato
🇨🇳 DeepSeek Cina Opt-out limitato Possibile opt-out via header, nessuna versione enterprise. Dati in Cina Rischio
🇺🇸 Groq USA Via DPA separato Dati API gestiti sotto Services Agreement + DPA Qualificato
🇺🇸 Cerebras USA Nessuna conservazione Dati, modelli e output mai conservati, loggati o riutilizzati Qualificato
🇨🇳 Zhipu (GLM) Cina Non verificabile Policy dichiarata ma compliance non verificabile per utenti internazionali Rischio

Confronto Modelli

Miglior Modello per Funzionalità

Per ogni feature, il modello ottimale di ciascun provider qualificato. Prezzi in USD per milione di token.

💬 Home Chat

Function Calling + Streaming + Contesto Lungo
ProviderModelloInput $/MTokOutput $/MTokMotivazione
OpenAI GPT-4.1 $2.00 $8.00 Eccellente function calling, 1M context, buon rapporto qualità/prezzo
Anthropic Claude Sonnet 4.6 $3.00 $15.00 Top tool use, 1M context, caching 90% sconto. Costoso in output
Google Gemini 2.5 Flash $0.30 $2.50 Rapporto qualità/prezzo eccezionale, function calling nativo
Mistral Mistral Medium 3 $1.00 $3.00 Buon compromesso, EU hosting, 40% meno di GPT su output
Groq Llama 3.3 70B $0.59 $0.79 Ultra-veloce (394 TPS), economico, buon tool use
Cerebras Catalogo limitato, non adatto per chat complesso

💠 Floating Chat

Function Calling + Intent Classification + Velocità
ProviderModelloInput $/MTokOutput $/MTokMotivazione
OpenAI GPT-4.1 Mini $0.40 $1.60 Veloce, economico, buon function calling
Anthropic Claude Haiku 4.5 $1.00 $5.00 Veloce, classificazione intent affidabile
Google Gemini 2.5 Flash-Lite $0.10 $0.40 Estremamente economico, veloce, sufficiente per single-turn
Mistral Mistral Small 3.1 $0.20 $0.60 Veloce ed economico, EU compliance
Groq Llama 4 Scout $0.11 $0.34 Velocissimo (594 TPS), economico
Cerebras Non adatto

☀ Daily Brief

Output Deterministico + Velocità
ProviderModelloInput $/MTokOutput $/MTokMotivazione
OpenAI GPT-4.1 Nano $0.10 $0.40 Più economico OpenAI, perfetto per task deterministico
Anthropic Claude Haiku 4.5 $1.00 $5.00 Affidabile ma costoso per questo use case
Google Gemini 2.5 Flash-Lite $0.10 $0.40 Stessa fascia di GPT-4.1 Nano, ottimo rapporto
Mistral Mistral Small 3.1 $0.20 $0.60 Economico, EU hosting
Groq Llama 3.1 8B $0.05 $0.08 Il più economico in assoluto, 840 TPS
Cerebras

⚙ Batch Agents

Tool Calling Robusto + Output Strutturato
ProviderModelloInput $/MTokOutput $/MTokMotivazione
OpenAI GPT-4.1 (Batch) $1.00 $4.00 50% sconto batch, eccellente output strutturato
Anthropic Claude Sonnet 4.6 (Batch) $1.50 $7.50 50% batch, tool use superiore, 300K output
Google Gemini 2.5 Pro (Batch) $0.625 $5.00 50% batch, alta qualità reasoning
Mistral Mistral Large 3 $2.00 $6.00 Robusto, EU data residency
Groq Qwen3 32B (Batch) $0.145 $0.295 50% batch, molto economico
Cerebras

🔍 Embeddings

Indicizzazione Vettoriale per Ricerca Semantica
ProviderModelloCosto/MTokDimensioniMotivazione
OpenAI text-embedding-3-small $0.02 1536 Standard de facto, già in uso nell'app
Google Gemini Embedding $0.15 Variabile Buona qualità ma 7.5x più costoso
Voyage AI voyage-3.5-lite $0.02 1024 Top qualità al prezzo più basso

Simulazione

Stima Costi Mensili per Utente

Basata su un utilizzo tipico: 500 home, 300 floating, 210 brief, 100 batch, 1000 embeddings al mese.

Calcolo Dettagliato

Token medi: Home 2K/1K • Floating 500/300 • Brief 1.5K/500 • Batch 3K/2K • Embed 500

Dettaglio per Feature — Strategia Multi-Provider Consigliata

FeatureProviderModelloMessaggi/meseTok InputTok OutputCosto/mese
Home Chat Google Gemini 2.5 Flash 500 1M 500K $0.30 + $1.25 = $1.55
Floating Chat Google Gemini 2.5 Flash-Lite 300 150K 90K $0.015 + $0.036 = $0.05
Daily Brief OpenAI GPT-4.1 Nano 210 315K 105K $0.032 + $0.042 = $0.07
Batch Agents OpenAI GPT-4.1 (Batch) 100 300K 200K $0.30 + $0.80 = $1.10
Embeddings OpenAI text-embedding-3-small 1000 500K $0.01
Totale Mensile per Utente ~$2.78

Raccomandazione

Strategie di Implementazione

Tre approcci per bilanciare costo, qualità e complessità operativa.

💰 Budget

Provider Singolo — Groq

Tutto su Groq per risparmio massimo. Velocità di inferenza imbattibile.

  • Home Chat Llama 3.3 70B
  • Floating Chat Llama 4 Scout
  • Daily Brief Llama 3.1 8B
  • Batch Agents Qwen3 32B Batch
  • Embeddings OpenAI (esterno)
Costo stimato/utente/mese ~$1.05

Pro: Ultra economico, velocità record (394–840 TPS). Contro: Qualità tool calling inferiore ai proprietari. Serve OpenAI per embeddings.

🛡 Enterprise

Provider Singolo — OpenAI

Tutto OpenAI per massima affidabilità e semplicità operativa.

  • Home Chat GPT-4.1
  • Floating Chat GPT-4.1 Mini
  • Daily Brief GPT-4.1 Nano
  • Batch Agents GPT-4.1 Batch
  • Embeddings text-embedding-3-small
Costo stimato/utente/mese ~$6.20

Pro: Ecosistema unificato, ZDR, affidabilità massima, 1 sola API key. Contro: Costo 2–6x superiore alle alternative.

Motivazioni

Perché queste scelte

Analisi dettagliata delle motivazioni dietro la strategia multi-provider consigliata.

💬 Gemini 2.5 Flash per Home Chat

Google ha tagliato i prezzi aggressivamente nel 2026. Flash offre function calling nativo, 1M di contesto, e costa 6–7x meno di Claude Sonnet per l'output. La qualità è sufficiente per chat interattivo con tool use. Con il batch discount del 50%, diventa ancora più competitivo per carichi elevati.

💠 Gemini 2.5 Flash-Lite per Floating

Per interazioni single-turn con classificazione intent, un modello leggero è più che sufficiente. A $0.10/$0.40 per MTok è 10x più economico di Claude Haiku e 4x meno di GPT-4.1 Mini. La latenza bassissima lo rende ideale per il floating panel.

☀ GPT-4.1 Nano per Daily Brief

Il brief è un task deterministico con prompt fisso e output breve (3–5 frasi). Nano è il modello più economico di OpenAI a $0.10/$0.40 e produce output consistente di alta qualità. Non serve function calling, quindi un modello leggero basta.

⚙ GPT-4.1 Batch per Agenti

Gli agenti batch non richiedono risposta in tempo reale. Lo sconto batch 50% di OpenAI rende GPT-4.1 imbattibile a $1.00/$4.00. Il suo output strutturato e tool calling sono tra i migliori del mercato, cruciali per operazioni CRUD affidabili.

🚫 DeepSeek e GLM Esclusi

Nonostante i costi bassissimi (DeepSeek V3 a $0.28/$0.42), entrambi i provider cinesi presentano rischi di privacy non accettabili per un'app che gestisce dati personali e aziendali. DeepSeek non offre versione enterprise e i dati risiedono in Cina. GLM ha policy non verificabili per utenti internazionali.

⚡ Groq come Alternativa Budget

Se il costo è la priorità assoluta, Groq con Llama 3.3 70B è l'opzione più economica con qualità accettabile. La velocità di inferenza (394–840 TPS) è imbattibile. Il limite è nella qualità del tool calling rispetto ai modelli proprietari.