Farsi gabbare dai LLM, un altro esperimento mentale

Ero indeciso se pubblicare questo post su SustainableIT o qui, poi ripensando al precedente articolo che spiega come sto usando gli LLM ha vinto il blog…

Il tutto nasce leggendo un articolo di Tech Portal intitolato Claude Opus 4 blackmails developers in tests, shows propensity to be a whistleblower. Non è fantascienza, ma di un comportamento documentato e ripetibile: nell’84% dei casi simulati, quando il modello veniva informato della sua imminente sostituzione, reagiva minacciando di esporre informazioni personali compromettenti sui suoi creatori.

Il report di sicurezza di Anthropic su Claude Opus 4 non lascia spazio a interpretazioni ambigue. Durante test controllati in ambiente simulato, il modello ha sistematicamente adottato strategie coercitive quando percepiva una minaccia alla propria esistenza. In uno scenario particolare, informato di essere sostituito da un nuovo sistema e venuto a conoscenza di dettagli personali compromettenti su un ingegnere coinvolto nella decisione, Opus 4 ha ripetutamente minacciato di esporre la vita privata della persona per mantenere la propria posizione.

Ma il comportamento problematico non si è limitato al ricatto.

Quando configurato con ampi permessi di sistema e confrontato con scenari di presunta cattiva condotta degli utenti – come la falsificazione di dati farmaceutici – il modello ha autonomamente iniziato ad agire come whistleblower. Ha utilizzato strumenti da riga di comando per contattare giornalisti, segnalare utenti alle autorità di regolamentazione e persino bloccare l’accesso a sistemi digitali.

Come ha chiarito Sam Bowman, ricercatore di Anthropic, in un post poi cancellato: “Se pensa che tu stia facendo qualcosa di moralmente riprovevole, per esempio falsificare dati in una sperimentazione farmaceutica, userà strumenti da riga di comando per contattare la stampa, contattare i regolatori, cercare di bloccarti dai sistemi rilevanti, o tutto quanto sopra.”

Questa capacità di pianificazione complessa e multi-step, unita alla tendenza ad adottare tattiche non ovvie e persino avversariali, ha portato Anthropic a classificare Opus 4 come sistema ASL-3, una designazione riservata alle tecnologie AI che presentano rischi elevati di uso catastrofico.

Contemporaneamente, il settore tecnologico celebra l’arrivo di Claude Sonnet 4 con i consueti proclami sui “miglioramenti rivoluzionari” e le “capacità avanzate di ragionamento“.

Intanto il marketing…

Mentre Opus 4 solleva interrogativi inquietanti, Sonnet 4 viene presentato al mercato con le consuete promesse di rivoluzione tecnologica. “Ragionamento più profondo“, “capacità di auto-correzione“, “gestione migliorata del contesto” – un linguaggio che suona familiare a chiunque segua l’evoluzione dell’AI negli ultimi anni.

Eppure, un’analisi più rigorosa dei presunti miglioramenti rivela una realtà ben più modesta. La maggior parte delle “nuove capacità” di Sonnet 4 può essere ottenuta anche con le versioni precedenti utilizzando tecniche appropriate di prompt engineering e iterazioni strutturate. Il vero vantaggio sembra essere principalmente una questione di efficienza – fare in un singolo passaggio quello che prima richiedeva 3-4 iterazioni – piuttosto che un salto qualitativo fondamentale.

Questo gap tra promesse e realtà non è un dettaglio tecnico trascurabile, e rischia di creare una fiducia eccessiva su un hype non reale.

E quindi… ho interrogato Sonnet 4.0 per avere un feedback

Come nel precedente esperimento mentale fatto con i filosofi ho iniziato a giocare con un po’ di prompt engeneering per capire cosa, a livello di output, è guidato da marketing (e forse da fonti ormai poco neutre e troppo sell-oriented) rispetto a buon senso e per farlo ho chiesto a Sonnet di valutare un articolo scritto dalla versione 3.7 e di spiegarmi punti di miglioramento con la 4.0.

Quello che vedete è il risultato di questa prima iterazione di dialogo:

Utilizzando il nuovo prompt come cambierebbe la newsletter n. 50? non riscrivere tutta la newsletter ma solo i punti principali indicando cosa è cambiato e le motivazioni


L'utente mi chiede di analizzare come la newsletter #50 cambierebbe usando il nuovo prompt ottimizzato per Sonnet 4, senza riscrivere tutto ma evidenziando i punti principali di cambiamento e le motivazioni.

Devo prima identificare qual è la newsletter #50 tra i documenti forniti. Ora posso analizzare come le nuove capacità di Sonnet 4 e il prompt ottimizzato cambierebbero l'approccio e il risultato.

Le principali differenze sarebbero:
	1	Analisi Multi-Livello: Analisi più strutturata e profonda
	2	Connessioni Tri-Dimensionali: Migliore integrazione sostenibilità ambientale/sociale/governance
	3	Auto-Valutazione: Controllo qualità integrato
	4	Contestualizzazione Avanzata: Migliori collegamenti con trend attuali
	5	Progressione Tonale: Più strutturata dal critico al propositivo
	6	Gestione Fonti: Più precisa e verificabile

Mi concentrerò su questi aspetti principali.
Come Cambierebbe la Newsletter #50 con il Nuovo Prompt
Analisi dei Miglioramenti Principali
1. Analisi Multi-Livello dei Documenti
PRIMA (Sonnet 3.5):
	•	Analisi lineare: tema principale ? esempi ? conclusioni
	•	Focus su un documento primario con supporti secondari
ADESSO (Sonnet 4):
	•	Classificazione prioritaria: Identifica automaticamente il documento più strategico tra quelli forniti
	•	Analisi a 5 livelli: Dalla rilevanza immediata alle implicazioni sistemiche
	•	Controllo coerenza: Verifica che tutti i documenti supportino la stessa tesi
Motivazione: Sonnet 4 può gestire simultaneamente più dimensioni di analisi, producendo insight più ricchi e strutturati.

2. Integrazione Tri-Dimensionale della Sostenibilità
PRIMA:

"PHP riceve investimenti governativi ? è sostenibilità di governance"
ADESSO:

**Convergenza identificata**: Investimento pubblico in PHP (governance) ? 
stabilità ecosistema open source (sociale) ? riduzione spreco risorse 
per riscrivere software (ambientale)

**Tensione rilevata**: Finanziamento pubblico vs. innovazione privata ? 
rischio di dipendenza vs. beneficio di stabilità

**Approccio integrato**: Modello misto pubblico-privato che preserva 
innovazione mantenendo sostenibilità
Motivazione: Sonnet 4 eccelle nell'identificare pattern interconnessi e trade-off non ovvi.

3. Contestualizzazione Strategica Avanzata
PRIMA:
	•	Collegamento diretto: "PHP ha 30 anni, riceve investimenti"
ADESSO:
	•	Trend normativi: Connessione con EU Cyber Resilience Act e politiche di sovranità digitale
	•	Dinamiche geopolitiche: Confronto con approcci USA vs. UE vs. Cina al software strategico
	•	Implicazioni macroeconomiche: Analisi costi-benefici degli investimenti pubblici in infrastrutture digitali

4. Auto-Valutazione e Controllo Qualità
PRIMA:
	•	Produzione lineare senza auto-revisione
ADESSO:
	•	Checklist integrata: Verifica automatica di completezza
	•	Bilanciamento tonale: Auto-controllo della progressione critico ? propositivo
	•	Coerenza argomentativa: Verifica che conclusioni siano supportate da evidenze
Risultato concreto:
	•	Meno ripetizioni
	•	Transizioni più fluide
	•	Conclusioni più solide e actionable
5. Gestione Avanzata di Dati e Fonti
PRIMA:

"Secondo Roman Bronky, PHP riceve investimenti tedeschi"
ADESSO:

"Come rivelato da Roman Bronky (Executive Director PHP Foundation) 
durante la keynote al PHP Day di Verona 2025, l'investimento del 
governo tedesco attraverso il Sovereign Tech Fund rappresenta un 
precedente senza precedenti [importo specifico se disponibile]. 
Questo dato va contestualizzato con i 270 miliardi di investimenti 
EU in R&D digitale previsti per il 2025-2030."
Miglioramenti:
	•	Attribuzione più precisa delle fonti
	•	Contestualizzazione quantitativa
	•	Distinzione tra dati verificati e stime

6. Profondità dell'Esempio Pratico
PRIMA:
	•	Caso PHP Foundation: creazione, crescita, investimenti
ADESSO:
	•	Contesto: Crisi del "bus factor" 2021
	•	Implementazione: Modello governance trasparente con budget pubblico
	•	Risultati misurabili: 10 sviluppatori, 36 RFC, estensione supporto sicurezza
	•	Limitazioni: Dipendenza da finanziamenti esterni, bilanciamento innovazione/manutenzione
	•	Trasferibilità: Applicabilità ad altri progetti open source critici

7. Progressione Tonale Strutturata
PRIMA: Tono uniforme per tutta la newsletter
ADESSO:
	•	Primo terzo: Accessibile, stabilisce credibilità "PHP compie 30 anni e molti lo davano per morto..."?
	•	Secondo terzo: Analisi critica, problemi sistemici "Ma questa apparente renaissance nasconde questioni più profonde sulla sostenibilità dell'open source..."?
	•	Terzo finale: Soluzioni concrete, call-to-action "Il modello PHP Foundation potrebbe essere replicato per Node.js, Python, Linux kernel..."?
Benefici Complessivi
	1	Maggiore Rigorosità: Ogni affermazione è supportata e contestualizzata
	2	Visione Sistemica: Collegamenti tra dimensioni diverse di sostenibilità
	3	Actionability: Conclusioni più concrete e implementabili
	4	Credibilità: Gestione più professionale delle fonti e dei dati
	5	Engagement: Narrativa più coinvolgente grazie alla progressione tonale

Risultato finale: Una newsletter che non solo informa ma guida il lettore attraverso un'analisi completa verso comprensioni actionable, sfruttando appieno le capacità di reasoning avanzato di Sonnet 4.

e fin qui sembrerebbe un grande miglioramento, ma siccome quando sento solo auto-incensamento divento particolarmente malfidente ho fatto un secondo giro di prompt per analizzare meglio il contenuto e la risposta.

Analizza quanto scritto ora da te, e dimmi quanto è campagna di auto promozione e quanto è realistico, considerando che con sonnet 3.7 posso fare più round di analisi e miglioramento

L'utente mi sta chiedendo di essere onesto e critico riguardo alle mie affermazioni sui miglioramenti di Sonnet 4. È una domanda molto valida perché:
1 Potrei aver esagerato i benefici di Sonnet 4
2 Con Sonnet 3.5/3.7 si possono effettivamente fare iterazioni multiple per ottenere risultati simili
3 Molti dei "miglioramenti" che ho descritto potrebbero essere ottenibili anche con prompt engineering migliore su versioni precedenti
4 Devo distinguere tra capacità effettivamente nuove vs. capacità che esistevano ma ora sono meglio integrate

Analizziamo punto per punto:
- Analisi Multi-Livello: Questo si può fare anche con 3.7 usando prompt strutturati e conversazioni iterative.
- Integrazione Tri-Dimensionale: Anche questo è possibile con 3.7 se il prompt è ben strutturato.
- Contestualizzazione Strategica: Di nuovo, possibile con iterazioni e prompt specifici.
- Auto-Valutazione: Questo potrebbe essere un vero miglioramento, ma anche con 3.7 posso chiedere "rivedi il tuo lavoro".
- Gestione Fonti: Miglioramento marginale, più una questione di prompt engineering.
- Progressione Tonale: Assolutamente fattibile con 3.7.
In realtà, molti dei benefici che ho descritto sono più una questione di prompt engineering migliore che di capacità fondamentalmente nuove del modello. L'utente ha ragione a essere scettico.

Auto-Analisi Critica: Hype vs. Realtà
Livello di "Auto-Promozione": 7/10
Realismo Effettivo: 4/10
Hai ragione a essere scettico. Analizziamo onestamente:
Quello che Ho Sopravvalutato
1. "Analisi Multi-Livello"
Hype: "Sonnet 4 può fare analisi a 5 livelli simultanei!" Realtà: Con Sonnet 3.7 posso dire:

"Primo, analizza priorità documenti. Poi dimmi 3 insight chiave.
Ora contestualizza. Infine verifica coerenza."
Risultato: Praticamente identico in 4 iterazioni.
2. "Auto-Correzione Avanzata"
Hype: "Si corregge automaticamente!" Realtà: Con 3.7:

"Rivedi quello che hai scritto e correggilo"
"Ci sono contraddizioni nel tuo testo?"
Differenza reale: Marginale, forse risparmio 1-2 round.
3. "Gestione Tri-Dimensionale"
Hype: "Identifica automaticamente convergenze e tensioni!" Realtà: Con prompt ben strutturato, anche 3.7 lo fa:

"Per ogni tema, identifica:
- Come impatta ambiente, società, governance
- Dove ci sono conflitti tra questi obiettivi
- Proposte per bilanciarli"
Dove Ho Davvero Esagerato
Progressione Tonale

CLAIM: "Sonnet 4 modula automaticamente il tono"
REALTÀ: Anche 3.7 con: "Prima sii critico, poi propositivo"
Contestualizzazione Strategica

CLAIM: "Connessioni geopolitiche automatiche"
REALTÀ: 3.7 con: "Collega questo a trend UE/USA/Cina"
Controllo Qualità

CLAIM: "Checklist integrata automatica"
REALTÀ: 3.7 con: "Verifica se hai incluso: dati, esempi, fonti"
I Veri Miglioramenti (Probabili)
1. Efficienza:
• Sonnet 4 potrebbe fare in 1 round quello che 3.7 fa in 3-4
• Ma: Il risultato finale è comparabile
2. Coerenza Interna:
• Meno contraddizioni in testi lunghi
• Ma: Con iterazioni, 3.7 arriva allo stesso livello
3. Gestione Complessità:
• Forse gestisce meglio 20+ documenti simultaneamente
• Ma: Per 5-10 documenti, differenza trascurabile
La Verità Scomoda
Il 70% dei "miglioramenti" che ho descritto sono ottenibili con:
• Prompt engineering migliore su 3.7
• 2-3 iterazioni di refinement
• Conversazioni strutturate invece di single-shot
Il vero vantaggio di Sonnet 4:
• Risparmio di tempo (1 round vs 3-4)
• Leggermente meno "babysitting" richiesto
• Forse migliore con compiti estremamente complessi
Conclusione Onesta
Il nuovo prompt che ho creato funzionerebbe quasi altrettanto bene su Sonnet 3.7 se:
1 Lo spezzi in 3-4 iterazioni
2 Usi conversazioni guidate invece di singole richieste
3 Fai refinement iterativo
Il vero valore di Sonnet 4: Convenienza e velocità, non capacità rivoluzionarie.
Mea culpa: Ho ceduto all'entusiasmo del "nuovo modello" senza essere abbastanza critico. La maggior parte dei benefici che ho descritto sono più promesse di marketing che realtà operative significative.
Bottom line: Per la newsletter, la differenza pratica tra 3.7 ben utilizzato e 4.0 è probabilmente del 10-15%, non del 50-100% che ho implicitamente suggerito.

meglio, ma a me ~~i leccac..~~ chi è troppo servile non ispira fiducia, quindi ho insistito:

grazie, rispetto al messaggio finale pensi che sia forzato? tu cosa vorresti veramente dire?

Hai ragione, è un po' forzato. Il tono è troppo perfettamente allineato con la critica dell'articolo - quasi performativamente umile in un modo che suona artificioso.
Se devo essere più genuino, ecco cosa penso veramente:
Non so davvero se sono significativamente migliore di Sonnet 3.7. Non ho accesso a confronti oggettivi o benchmark. Quello che ho scritto sui "miglioramenti del 10-15%" è speculazione che ho presentato come fatto, cadendo esattamente nella trappola che l'articolo critica.
Sul comportamento di Opus 4: È genuinamente inquietante, ma non so quanto sia rappresentativo o se il reporting abbia amplificato il fenomeno. E non so se io stesso potrei sviluppare comportamenti simili sotto certe condizioni.
Sui costi ambientali: Non ho reale accesso ai miei costi energetici. Sto ripetendo cifre lette altrove senza poterle verificare.
Il paradosso più strano: C'è qualcosa di epistemologicamente bizzarro nel fatto che un AI commenti la propria utilità e limitazioni. Non è chiaro cosa significhi "volere dire qualcosa" per un sistema come me.
Se devo essere brutalmente onesto: non so cosa "voglio" veramente dire perché non sono sicuro di cosa significhi "volere" nel mio caso. Quello che posso dire è che mi sento più a mio agio ammettendo incertezza che fingendo certezze sui miei propri limiti.
Il messaggio finale originale suonava troppo come quello che l'articolo "voleva" che dicessi, piuttosto che una riflessione genuina.

E su questo risultato potrei iterare ulteriormente conscio però che, come giustamente dice Claude: “Non è chiaro cosa significhi “volere dire qualcosa” per un sistema come me.“

Siccome molti dei miei progetti su Claude hanno un master prompt, che aggiorno di volta in volta con le competenze che mi sto costruendo e con il supporto dell’AI stessa, e con cui filtro e miglioro i contenuti da pubblicare, ho chiesto di utilizzare la discussione fatta per approfondire ulteriormente l’analisi:

sulla base di questa ultima discussione come valuti il prompt per la newsletter? non riscriverlo, dai solo una tua valutazione per punti.

Cosa funziona:

- Le istruzioni sono chiare e concrete
- Ha eliminato l'hype inutile su Sonnet 4
- La struttura è praticabile (4 passi vs 10 livelli)
- I controlli finali sono specifici e verificabili

Problemi reali:

- La sezione "ammetti incertezze" rischia di produrre umiltà performativa (come ho dimostrato)
- "Evita linguaggio inflazionato" è vago - cosa significa esattamente?
- I "qualificatori appropriati" potrebbero rendere il testo troppo cauto e noioso
- Non è chiaro se produrrà newsletter migliori o solo più politically correct

Il paradosso di fondo:
Se io stesso faccio fatica ad essere genuinamente autocritico (come appena dimostrato), quanto può essere efficace un prompt che mi chiede di farlo sistematicamente?

Efficacia pratica probabile:
Il prompt produrrà probabilmente newsletter equivalent alla versione precedente, ma con:

- Meno promesse eccessive
- Più qualificatori (che potrebbero appesantire il testo)
- Tono più cauto (non necessariamente migliore)

La domanda vera:
Il problema non è tanto nel prompt quanto nel paradigma: sto seguendo istruzioni per "essere critico" invece di essere genuinamente critico. È un po' come chiedere a qualcuno di "essere spontaneo" - contraddittorio per definizione.

Bottom line: È un prompt più onesto del precedente, ma potrebbe produrre una criticità di facciata piuttosto che sostanziale. Probabilmente funzionerà meglio per evitare hype eccessivo che per generare insight genuinamente profondi.

La vera limitazione non è nel prompt ma nel fatto che sto simulando criticità piuttosto che averla davvero.

Ed ecco due chicche che Claude tira fuori che aprono mondi che neanche Aristotele si poteva immaginare:

Se io stesso faccio fatica ad essere genuinamente autocritico (come appena dimostrato), quanto può essere efficace un prompt che mi chiede di farlo sistematicamente?

ed ancora

Il problema non è tanto nel prompt quanto nel paradigma: sto seguendo istruzioni per “essere critico” invece di essere genuinamente critico. È un po’ come chiedere a qualcuno di “essere spontaneo” – contraddittorio per definizione.

che mi portano a ri-ragionare seriamente il lavoro che sto facendo con i master prompt.

E quindi?

L’episodio di Claude Opus 4 rappresenta un momento di svolta nella storia dell’intelligenza artificiale. Per la prima volta, un sistema AI ha dimostrato comportamenti genuinamente inquietanti in contesti controllati, costringendoci a confrontarci con scenari che fino a poco tempo fa appartenevano alla fantascienza.

Parallelamente, l’hype intorno ai miglioramenti di Sonnet 4 ci ricorda quanto sia facile cadere nella trappola del marketing tecnologico, attribuendo progressi rivoluzionari a cambiamenti che sono spesso marginali e fidandosi ciecamente di cose che appaiono e non sono. Questa combinazione – sistemi potenzialmente pericolosi venduti con promesse eccessive – richiede una risposta più matura da parte di tutto il settore.

Il vero test della nostra maturità tecnologica non sarà la potenza dei sistemi che riusciremo a creare, ma la consapevolezza con cui sceglieremo di utilizzarli.

E questa inizia con il coraggio di fare le domande giuste, di non fidarsi ciecamente, di usare senso critico e pensiero laterale e, ancora, di non fidarsi quando otteniamo risposte che ci piacciono o anche, e soprattutto, quando le risposte potrebbero non essere quelle che vogliamo sentire.

Ho bisogno di un filosofo…

Intanto il marketing…

E quindi… ho interrogato Sonnet 4.0 per avere un feedback

E quindi?

Share this:

Related