Architettura

Funzionalità Agentiche

Sei componenti AI distinti, ognuno con requisiti specifici di modello.

💬

Home Chat

Assistente AI interattivo con tool calling, streaming e history multi-turn. Interfaccia principale dell'app.

Function Calling Contesto Lungo Streaming
💠

Floating Chat

Chat contestuale single-turn con navigazione automatica. Segue l'utente attraverso l'app con risposte rapide.

Function Calling Intent Classification Risposta Rapida

Daily Brief

Sommario automatico giornaliero con 7 slot temporali. Genera brief contestuali senza interazione utente.

Output Deterministico Velocità No Tool Calling

Background Agents

Agenti schedulati per raccolta dati da filesystem locale e cloud (Gmail, Teams, Outlook). Loop tool-calling multi-turno, API Standard.

Tool Calling Multi-Turno Output Strutturato API Standard
🛠

Setup Agent

Journey conversazionale interattiva per configurare un agente. L’utente risponde a domande guidate, il LLM esplora la directory e produce un AgentConfig JSON validato.

Conversazionale Qualità Linguistica Tool Calling + Reasoning
🔍

Embeddings

Indicizzazione vettoriale delle note per ricerca semantica. LanceDB locale con vettori 1536-dim.

1536 Dimensioni Basso Costo Alta Qualità

Conformità

Status Privacy dei Provider

Valutazione delle policy di non-utilizzo dati per training. Solo i provider qualificati vengono considerati.

Provider Sede No Training su Dati API Policy Status
🇺🇸 OpenAI USA Default opt-out via API Dati non usati per training. ZDR disponibile per Enterprise Qualificato
🇺🇸 Anthropic USA Mai, senza opt-in esplicito Non usa prompt/risposte per training a meno di opt-in esplicito Qualificato
🇺🇸 Google USA Solo tier a pagamento Vertex AI: garantito contrattualmente. Free tier: usato per training Qualificato (solo paid)
🇫🇷 Mistral Francia (EU) API La Plateforme Dati API non usati per training. ZDR disponibile. GDPR compliant Qualificato
🇨🇳 DeepSeek Cina Opt-out limitato Possibile opt-out via header, nessuna versione enterprise. Dati in Cina Rischio
🇺🇸 Groq USA Via DPA separato Dati API gestiti sotto Services Agreement + DPA Qualificato
🇺🇸 Cerebras USA Nessuna conservazione Dati, modelli e output mai conservati, loggati o riutilizzati Qualificato
🇨🇳 Zhipu (GLM) Cina Non verificabile Policy dichiarata ma compliance non verificabile per utenti internazionali Rischio

Confronto Modelli

Miglior Modello per Funzionalità

Per ogni feature, il modello ottimale di ciascun provider qualificato. Prezzi in USD per milione di token.

💬 Home Chat

Function Calling + Streaming + Contesto Lungo
ProviderModelloInput $/MTokOutput $/MTokMotivazione
OpenAI GPT-4.1 $2.00 $8.00 Eccellente function calling, 1M context, buon rapporto qualità/prezzo
Anthropic Claude Sonnet 4.6 $3.00 $15.00 Top tool use, 1M context, caching 90% sconto. Costoso in output
Google Gemini 2.5 Flash $0.30 $2.50 Rapporto qualità/prezzo eccezionale, function calling nativo
Mistral Mistral Medium 3 $1.00 $3.00 Buon compromesso, EU hosting, 40% meno di GPT su output
Groq Llama 3.3 70B $0.59 $0.79 Ultra-veloce (394 TPS), economico, buon tool use
Cerebras Catalogo limitato, non adatto per chat complesso

💠 Floating Chat

Function Calling + Intent Classification + Velocità
ProviderModelloInput $/MTokOutput $/MTokMotivazione
OpenAI GPT-4.1 Mini $0.40 $1.60 Veloce, economico, buon function calling
Anthropic Claude Haiku 4.5 $1.00 $5.00 Veloce, classificazione intent affidabile
Google Gemini 2.5 Flash-Lite $0.10 $0.40 Estremamente economico, veloce, sufficiente per single-turn
Mistral Mistral Small 3.1 $0.20 $0.60 Veloce ed economico, EU compliance
Groq Llama 4 Scout $0.11 $0.34 Velocissimo (594 TPS), economico
Cerebras Non adatto

☀ Daily Brief

Output Deterministico + Velocità
ProviderModelloInput $/MTokOutput $/MTokMotivazione
OpenAI GPT-4.1 Nano $0.10 $0.40 Più economico OpenAI, perfetto per task deterministico
Anthropic Claude Haiku 4.5 $1.00 $5.00 Affidabile ma costoso per questo use case
Google Gemini 2.5 Flash-Lite $0.10 $0.40 Stessa fascia di GPT-4.1 Nano, ottimo rapporto
Mistral Mistral Small 3.1 $0.20 $0.60 Economico, EU hosting
Groq Llama 3.1 8B $0.05 $0.08 Il più economico in assoluto, 840 TPS
Cerebras

⚙ Background Agents

Tool Calling Multi-Turno — API Standard (non Batch)
⚠ Nota architetturale: Il Batch API dei provider LLM non è compatibile con gli agenti di processing (unified-processor, cloud-processor). Il loop di tool-calling (fino a 12 turni per file) richiede risultati sincroni dal client Electron via WebSocket — un round-trip interattivo che il Batch API asincrono non supporta. Usare esclusivamente API Standard, a prezzi di listino senza sconto batch.
ProviderModelloInput $/MTokOutput $/MTokMotivazione
OpenAI GPT-4.1 Mini $0.40 $1.60 Ottimo rapporto qualità/costo, tool calling affidabile, API Standard
Anthropic Claude Sonnet 4.6 $3.00 $15.00 Miglior tool use del mercato, se qualità è priorità assoluta
Google Gemini 2.5 Flash $0.30 $2.50 Ottimo reasoning, tool calling affidabile, costo input molto basso
Mistral Mistral Large 3 $2.00 $6.00 Robusto, EU data residency
Groq Qwen3 32B $0.29 $0.59 Molto economico, velocità elevata; qualità tool calling inferiore ai proprietari
Cerebras

🛠 Setup Agent

Journey Conversazionale — Qualità Linguistica + Reasoning
ℹ Profilo diverso dai Background Agents: Il setup è un’interazione real-time con l’utente (3–15 turni, temperature=0.4). Il volume è basso (poche sessioni per utente nel tempo), quindi il costo è trascurabile anche con modelli premium. Priorità: qualità della conversazione e accuratezza nel produrre l’AgentConfig JSON finale.
ProviderModelloInput $/MTokOutput $/MTokMotivazione
OpenAI GPT-4.1 $2.00 $8.00 Ottimo bilanciamento qualità/costo per conversazioni guidate, JSON output affidabile
Anthropic Claude Sonnet 4.6 $3.00 $15.00 Massima qualità conversazionale e instruction-following; costo giustificato dalla rarità delle sessioni
Google Gemini 2.5 Flash $0.30 $2.50 Buona qualità conversazionale a costo molto basso; opzione se si vuole contenere ogni spesa
OpenAI GPT-4.1 Mini $0.40 $1.60 Alternativa budget; qualità conversazionale sufficiente, JSON output meno affidabile
Mistral Mistral Large 3 $2.00 $6.00 EU data residency; buona qualità per il setup journey
Groq / Cerebras Non consigliati: qualità conversazionale insufficiente per journey multi-turno

🔍 Embeddings

Indicizzazione Vettoriale per Ricerca Semantica
ProviderModelloCosto/MTokDimensioniMotivazione
OpenAI text-embedding-3-small $0.02 1536 Standard de facto, già in uso nell'app
Google Gemini Embedding $0.15 Variabile Buona qualità ma 7.5x più costoso
Voyage AI voyage-3.5-lite $0.02 1024 Top qualità al prezzo più basso

Simulazione

Stima Costi Mensili per Utente

Basata su un utilizzo tipico: 500 home, 300 floating, 210 brief, 100 background agent runs, 10 setup turns (≈2 sessioni), 1000 embeddings al mese.

Calcolo Dettagliato

Token medi: Home 2K/1K • Floating 500/300 • Brief 1.5K/500 • Background Agent 3K/2K • Setup 4K/500 • Embed 500

Dettaglio per Feature — Strategia Multi-Provider Consigliata

FeatureProviderModelloMessaggi/meseTok InputTok OutputCosto/mese
Home Chat Google Gemini 2.5 Flash 500 1M 500K $0.30 + $1.25 = $1.55
Floating Chat Google Gemini 2.5 Flash-Lite 300 150K 90K $0.015 + $0.036 = $0.05
Daily Brief OpenAI GPT-4.1 Nano 210 315K 105K $0.032 + $0.042 = $0.07
Background Agents OpenAI GPT-4.1 Mini 100 300K 200K $0.12 + $0.32 = $0.44
Setup Agent OpenAI GPT-4.1 10 turns 40K 5K $0.08 + $0.04 = $0.12
Embeddings OpenAI text-embedding-3-small 1000 500K $0.01
Totale Mensile per Utente ~$2.24

Raccomandazione

Strategie di Implementazione

Tre approcci per bilanciare costo, qualità e complessità operativa.

💰 Budget

Provider Singolo — Groq

Tutto su Groq per risparmio massimo. Velocità di inferenza imbattibile.

  • Home Chat Llama 3.3 70B
  • Floating Chat Llama 4 Scout
  • Daily Brief Llama 3.1 8B
  • Background Agents Qwen3 32B
  • Setup Agent GPT-4.1 Mini
  • Embeddings OpenAI (esterno)
Costo stimato/utente/mese ~$1.30

Pro: Ultra economico, velocità record (394–840 TPS). Contro: Qualità tool calling inferiore ai proprietari. Serve OpenAI per embeddings e setup.

🛡 Enterprise

Provider Singolo — OpenAI

Tutto OpenAI per massima affidabilità e semplicità operativa.

  • Home Chat GPT-4.1
  • Floating Chat GPT-4.1 Mini
  • Daily Brief GPT-4.1 Nano
  • Background Agents GPT-4.1 Mini
  • Setup Agent GPT-4.1
  • Embeddings text-embedding-3-small
Costo stimato/utente/mese ~$6.85

Pro: Ecosistema unificato, ZDR, affidabilità massima, 1 sola API key. Contro: Costo 3–7x superiore alle alternative.

Motivazioni

Perché queste scelte

Analisi dettagliata delle motivazioni dietro la strategia multi-provider consigliata.

💬 Gemini 2.5 Flash per Home Chat

Google ha tagliato i prezzi aggressivamente nel 2026. Flash offre function calling nativo, 1M di contesto, e costa 6–7x meno di Claude Sonnet per l'output. La qualità è sufficiente per chat interattivo con tool use. Con il batch discount del 50%, diventa ancora più competitivo per carichi elevati.

💠 Gemini 2.5 Flash-Lite per Floating

Per interazioni single-turn con classificazione intent, un modello leggero è più che sufficiente. A $0.10/$0.40 per MTok è 10x più economico di Claude Haiku e 4x meno di GPT-4.1 Mini. La latenza bassissima lo rende ideale per il floating panel.

☀ GPT-4.1 Nano per Daily Brief

Il brief è un task deterministico con prompt fisso e output breve (3–5 frasi). Nano è il modello più economico di OpenAI a $0.10/$0.40 e produce output consistente di alta qualità. Non serve function calling, quindi un modello leggero basta.

⚙ GPT-4.1 Mini (Standard) per Background Agents

Il Batch API dei provider LLM non è applicabile agli agenti di processing: il loop tool-calling (unified-processor, cloud-processor) richiede fino a 12 turni sincroni per file, con ogni risultato di tool restituito dal client Electron via WebSocket prima che parta il turno successivo — incompatibile con il modello asincrono e fire-and-forget del Batch API. Si usa quindi l’API Standard. GPT-4.1 Mini a $0.40/$1.60 offre un ottimo bilanciamento: tool calling affidabile per operazioni CRUD multi-step, output strutturato consistente, e costo contenuto che non subisce la moltiplicazione del loop (ogni file può generare più chiamate LLM in sequenza).

🛠 GPT-4.1 per Setup Agent

Il setup journey è fondamentalmente diverso dagli agenti di processing: è una conversazione interattiva real-time con l’utente (3–15 turni, temperature=0.4) che deve guidare con domande sensate, esplorare la directory con tool calling e produrre un AgentConfig JSON valido alla fine. GPT-4.1 a $2.00/$8.00 è la scelta giusta: qualità conversazionale e instruction-following superiori a Mini, con un impatto sul costo trascurabile dato il basso volume (≈2 sessioni/mese per utente). Usare GPT-4.1 Mini per risparmiare $0.09/mese non vale la degradazione nell’UX del setup.

🚫 DeepSeek e GLM Esclusi

Nonostante i costi bassissimi (DeepSeek V3 a $0.28/$0.42), entrambi i provider cinesi presentano rischi di privacy non accettabili per un'app che gestisce dati personali e aziendali. DeepSeek non offre versione enterprise e i dati risiedono in Cina. GLM ha policy non verificabili per utenti internazionali.

⚡ Groq come Alternativa Budget

Se il costo è la priorità assoluta, Groq con Llama 3.3 70B è l'opzione più economica con qualità accettabile. La velocità di inferenza (394–840 TPS) è imbattibile. Il limite è nella qualità del tool calling rispetto ai modelli proprietari.