Fine del flat-rate AI – Anthropic mette Claude su metro, OpenAI risponde con un esercito di consulenti

Mag 18, 2026

Dal 15 giugno 2026 Anthropic separa la fattura: l'abbonamento Claude (Pro, Max 5x, Max 20x) copre solo l'uso "umano" (chat, Claude Code ufficiale). Tutto ciò che gira sull'Agent SDK, claude -p, OpenClaw e tool di terze parti finisce su una bolletta API a prezzo pieno, con un credito mensile separato di 20, 100 o 200 dollari a seconda del piano. OpenAI ha risposto a 48 ore di distanza con due mosse: due mesi di Codex gratis per chi switcha entro 30 giorni, e il lancio di OpenAI Deployment Company da 4 miliardi di dollari (TPG capofila, più Advent, Bain Capital, Brookfield), che si compra anche Tomoro e i suoi 150 Forward Deployed Engineer. Sullo sfondo: backlog Google Cloud passato da 250 a 460 miliardi in un trimestre, compute supply-limited per i prossimi 2-5 anni, lead time GPU a 36-52 settimane. La conclusione è che il SaaS "20 dollari al mese illimitato" non regge più i costi reali degli agenti AI. Sta nascendo un mercato a due velocità: utility metered (Anthropic) e services-as-AI (OpenAI).

[IMG-1]

Il joint venture parallelo di Anthropic

Cosa cambia il 15 giugno: il metering di Anthropic

Il 15 maggio 2026 Anthropic ha annunciato che dal 15 giugno qualsiasi uso "programmatico" di Claude esce dall'abbonamento e finisce su un budget API separato. Si parla nello specifico di Agent SDK, comando CLI claude -p, GitHub Actions integrate e qualunque applicazione di terze parti costruita sopra l'SDK o sul nuovo protocollo ACP. La chat su claude.ai e Claude Code "ufficiale" restano dentro la subscription. Tutto il resto esce.

Il sistema è semplice nella forma e doloroso nella sostanza. Ogni abbonamento riceve un credito mensile a tariffe API standard: 20 dollari per Pro, 100 dollari per Max 5x, 200 dollari per Max 20x. Quando il credito è esaurito, l'SDK smette di rispondere, a meno che l'utente non abiliti il pay-as-you-go sul Claude Developer Platform.

Il punto chiave è la matematica. Anthropic stessa, parlando con InfoWorld e VentureBeat, ha quantificato il sussidio implicito che fino a oggi pagavano gli abbonati: tra 15 e 30 volte il prezzo API equivalente. In altre parole, chi usava Claude Pro a 20 dollari/mese in modalità agentic stava consumando, a prezzi reali, fra 300 e 600 dollari di compute. La forbice non era sostenibile.

Lettura strategica: Anthropic non sta alzando i prezzi, sta smettendo di farsi pagare meno di quanto le costi servire la fascia power user. È una mossa difensiva su un modello di business che non era mai stato progettato per agenti che girano 24/7. Il "danno reputazionale" lo accetta perché il danno alternativo — bruciare cassa per fornire compute sotto costo a sviluppatori che fatturano altrove — era peggiore.

[IMG-2]

La risposta di OpenAI: due mesi di codex gratis

La risposta di OpenAI: due mesi di codex gratis

Sam Altman ha mosso la pedina entro 48 ore. Su X ha annunciato che OpenAI regala due mesi di Codex agli "eligible enterprise customer" che attivano entro 30 giorni. La motivazione esplicita, riportata anche dall'account ufficiale di OpenAI Developers, è semplice: "Codex è il miglior prodotto AI per il coding, vogliamo renderlo facile da provare". La motivazione implicita è ancora più semplice: catturare ora il flusso di sviluppatori che vede Anthropic come "il provider che aumenta i prezzi", anche se di fatto sta solo smontando un sussidio.

L'offerta non è universale: serve essere clienti enterprise idonei e la finestra si chiude dopo 30 giorni. È una promo tattica, non un cambio di pricing. Ma il messaggio commerciale è chiaro: OpenAI ha riserve di cassa più grandi, può permettersi di tenere il flat-rate aperto un po' più a lungo, e nel frattempo aggancia clienti che difficilmente faranno il refactor inverso fra due mesi.

Punto strutturale: la promo Codex non è un'alternativa al metered, è una distrazione temporanea. OpenAI sta convergendo sulla stessa economia di Anthropic — la batch API, il pricing sui Codex CLI, l'uso sui modelli Pro/Plus sono tutti già strutturati su token. La differenza è che OpenAI ha 60 giorni in più per spostare massa critica di sviluppatori prima di dover dire la stessa frase.

[IMG-3]

OpenAI deployment company: la mossa services-as-AI da 4 miliardi

OpenAI deployment company: la mossa services-as-AI da 4 miliardi

La notizia più rilevante della settimana non è la promo Codex, è strutturale. L'11 maggio OpenAI ha lanciato la OpenAI Deployment Company, una società indipendente — maggioritariamente controllata da OpenAI — con un round iniziale di oltre 4 miliardi di dollari. Capofila TPG, co-lead Advent, Bain Capital e Brookfield. In totale 19 partner globali fra fondi di investimento, società di consulenza e system integrator.

Lo scopo dichiarato: aiutare le aziende a "costruire e deployare sistemi AI affidabili" sul lavoro quotidiano. In pratica: vendere capacità di system integration costruita attorno ai modelli OpenAI, con personale dedicato che entra dentro le organizzazioni clienti.

La parte interessante è chi mette i piedi nella casa. La Deployment Company nasce con l'acquisizione di Tomoro, società londinese fondata nel 2023 in alleanza con OpenAI, con sede ad Edinburgo, Manchester, Singapore, Sydney e Melbourne. Tomoro porta in dote circa 150 Forward Deployed Engineer e Deployment Specialist — il modello operativo che ha reso famosa Palantir, qui replicato in salsa LLM.

Lezione per chi costruisce: questo è il momento in cui OpenAI smette di fingere di essere "solo" un vendor di modelli e inizia a competere direttamente con McKinsey, Accenture e Deloitte sul fronte AI implementation. La differenza è che OpenAI ha un margine in più — può vendere i propri token come parte del progetto. Per le system integrator tradizionali è un colpo serio: il principale fornitore di modelli ora vende anche le ore-uomo per implementarli.

[IMG-4]

Fine del flat-rate AI - Anthropic mette Claude su metro, OpenAI risponde con un esercito di consulenti

Il joint venture parallelo di Anthropic

Anthropic non sta solo gestendo il pricing. Quattro giorni prima del metering ha annunciato un joint venture distinto, valore 1,5 miliardi di dollari, con tre fondatori che mettono 300 milioni a testa: Anthropic, Blackstone, Hellman & Friedman. Dietro: Apollo Global Management, General Atlantic, Sequoia Capital, fondi e PE di primo livello. Anche qui l'obiettivo è "deployment di AI enterprise".

I numeri sono diversi (1,5 miliardi vs 4 miliardi OpenAI), il modello strategico è simile: costruire un canale di accesso enterprise che vada oltre la vendita di API. Per Anthropic è un cambio di postura significativo. Storicamente l'azienda di Dario e Daniela Amodei aveva insistito su tre pilastri: ricerca sicurezza, vendita modelli, partnership cloud (AWS, GCP). Mettere capitale dentro una società di "deployment" segnala che vendere solo i modelli non basta più a chiudere le pipeline enterprise grandi, dove la decisione di acquisto coinvolge CIO che vogliono "qualcuno che si prende il progetto".

Punto strutturale: dopo Mythos (vedi l'articolo del 11 maggio), Anthropic conferma una doppia mossa coordinata — chiude i sussidi consumer su agenti, apre il canale services enterprise. Le due cose non sono indipendenti: il revenue per Claude Pro non basta a finanziare gli ARR enterprise, e gli ARR enterprise non si chiudono senza una struttura di delivery. Il consumer paga il modello, l'enterprise paga il progetto.

[IMG-5]

Perché il flat-rate è morto: il compute crunch

Perché il flat-rate è morto: il compute crunch

Per capire perché entrambe le aziende stanno smontando l'illimitato nello stesso mese, bisogna guardare i numeri di compute. Sono brutali.

Google Cloud, secondo i suoi stessi report Q1 2026, ha chiuso il trimestre con revenue oltre 20 miliardi di dollari (+63% YoY). La parte interessante è il backlog: il committed-but-not-yet-delivered è passato da 250 miliardi a 460 miliardi in un singolo trimestre. È quasi un raddoppio in 90 giorni di contratti firmati ma non eseguibili per mancanza di capacità fisica.

Sotto: lead time sui data-center GPU oggi vanno da 36 a 52 settimane. La memoria HBM (High Bandwidth Memory) e il packaging avanzato (CoWoS di TSMC) sono i veri colli di bottiglia, più ancora delle wafer fab. Un dirigente intervistato da TechCrunch lo ha detto chiaro: "per i prossimi due, tre, forse cinque anni il mercato sarà supply-limited. Hyperscaler — Google, Microsoft, Amazon, Meta — non riceveranno tutti i chip che stanno pagando".

Tradotto in pricing: ogni token GPU-bound vale più del prezzo di listino. Nessun lab può permettersi di scontarlo del 15-30x via subscription consumer, perché ogni token speso in agentic uso power user è un token sottratto a contratti enterprise con margini più alti. Anthropic ha letto la situazione e ha agito. OpenAI sta facendo la stessa lettura ma con calendario diverso.

Lettura strategica: il "compute crunch" è il vincolo strutturale del 2026. Non è un evento episodico, è la condizione di mercato per i prossimi 24-36 mesi minimo. Qualsiasi business model AI consumer/SMB costruito su flat-rate generosi è obbligato a riprezzarsi entro 12 mesi. Non è opinione: è aritmetica.

[IMG-6]

Due strategie, stessa pressione: utility metered vs services consultancy

Due strategie, stessa pressione: utility metered vs services consultancy

A maggio 2026 il mercato si è biforcato in modo netto. Anthropic e OpenAI partono dalla stessa constatazione — il compute non scala con il fatturato senza riprezzamento — e arrivano a due modelli operativi distinti.

Anthropic ha scelto la strada utility. Token come elettricità: tu paghi un canone base per la presa, e tutto il consumo oltre soglia va a misura. È un modello finanziariamente trasparente — il cliente sa esattamente quanto sta usando — e tecnicamente neutrale: non importa con che strumento (Cursor, Zed, OpenClaw, script custom) chiami il modello, paghi i token. Il rischio è di passare per "il vendor che ti misura". Il vantaggio è che la marginalità è esplicita e difendibile davanti agli investitori.

OpenAI ha scelto la strada consultancy. Forward Deployed Engineer dentro le aziende, partnership con TPG, Advent, Bain, Brookfield, system integrator come Tomoro nel perimetro. È il playbook Palantir applicato all'LLM: vendi il modello come componente di un progetto di trasformazione, non come API stand-alone. Il rischio è la cost structure (ore-uomo non scalano come token). Il vantaggio è il pricing power: un progetto integrato vale 10x un contratto API equivalente.

Punto strutturale: entrambi i modelli convivranno. Non vincerà uno sull'altro. Vincerà chi saprà fare cross-sell: portare un cliente entrato come consumer flat-rate verso un contratto enterprise services-driven, o viceversa, portare un cliente enterprise verso adozione bottom-up sui propri sviluppatori. Anthropic deve imparare il muscolo dei servizi (il JV con Blackstone serve a quello). OpenAI deve mantenere il consumer come canale di acquisizione (la promo Codex serve a quello).

[IMG-7]

Cosa fare adesso: implicazioni per dev, CTO, CFO

Cosa fare adesso: implicazioni per dev, CTO, CFO

Le conseguenze concrete cambiano a seconda del ruolo.

Per lo sviluppatore indipendente. Se usavi Claude Pro per fare agentic coding pesante (Cursor + Claude Code + sessioni lunghe via SDK), dal 15 giugno paghi a metro. Tre opzioni: 1) accetti il metering e budgettizzi 100-300 dollari/mese reali per uso intensivo; 2) spalmi il carico fra provider — Claude per ragionamento, Codex/GPT per coding standard, modelli open per task non sensibili; 3) riduci uso agentic e torni a modalità interattiva (chat in claude.ai), che resta dentro l'abbonamento. La finestra di arbitraggio sui flat-rate è chiusa.

Per il CTO/lead tech. Vanno aperte due linee di budget separate: una per "uso umano" dei modelli (chat, code review interattiva, ricerca) e una per "uso agentic" (orchestratori, batch processing, CI/CD AI). Le due hanno curve di consumo diverse e vanno governate con strumenti diversi. Inoltre serve un'analisi vendor-agnostic: con compute supply-limited, dipendere da un solo provider è rischio di business continuity. Multi-provider, observability sui costi per chiamata, fallback runtime.

Per il CFO. Il "20 dollari al mese a sviluppatore" come riga di budget AI non esiste più. Realisticamente, per un team di 20 sviluppatori in modalità agentic, il costo annuo è nell'ordine di 50-100 mila dollari di consumo modello, più i tool layer (Cursor, Zed, GitHub Copilot Enterprise). Da modellare come capex/opex IT, non come "fringe tool". E vanno previsti escalation contractuali con i vendor che includano price lock su 12-24 mesi, perché i ritocchi sono in arrivo.

Lezione per chi costruisce prodotti AI sopra le API: il vostro costo del venduto è cambiato. Se vendete un'app a 20 dollari/mese che internamente fa 5-10 chiamate agentic per utente attivo, ricalcolate margini oggi, non a luglio.

Take-away

  • L'era del "20 dollari/mese illimitato per uso agentic" finisce il 15 giugno 2026 con Anthropic e seguirà OpenAI entro 12 mesi. Il sussidio di 15-30x sul costo API non era sostenibile.
  • OpenAI Deployment Company da 4 miliardi più Tomoro (150 FDE) trasforma OpenAI da vendor di modelli a competitor diretto di McKinsey/Accenture sull'AI implementation. Anthropic risponde con JV da 1,5 miliardi con Blackstone e H&F.
  • Il compute crunch (Google backlog $460B, lead time GPU 36-52 settimane, supply-limited 2-5 anni) è il vincolo strutturale che obbliga il riprezzamento. Non è opinione, è ingegneria.
  • Per dev: budget agentic separato, multi-provider, 100-300 dollari/mese realistici se intensivo. Per CTO: due linee di budget (human vs agentic), observability. Per CFO: AI come capex IT, non fringe tool.
  • Vincerà chi saprà fare cross-sell consumer↔enterprise. Anthropic deve imparare i servizi, OpenAI deve mantenere il canale consumer come funnel.
Traduci