Categories
lifehack pensieri tecnologia

Pensieri specchio

Come avrete notato, negli ultimi giorni ho lavorato molto su processi di logica adversariale: prima realizzando adversarial-verify, la skill open source nata dall’esperimento con gli agenti disfunzionali, poi costruendo adversarial-thinking per facilitare il mio ragionamento, esattamente come avviene in questo blog. Poi, ad un certo punto, sotto la doccia (dove avvengono le migliori intuizioni e le peggiori decisioni), mi sono fermato e ho pensato: ma perché sto costruendo tutta questa roba?

Categories
business design lifehack pensieri tecnologia

Orologi, Nuvole e Pensiero Avversariale

Devo andare a ritroso di quasi due anni, perché la storia ha un inizio preciso anche se all’epoca non lo sapevo.

Nel luglio 2024 ho scritto un post su come stavo usando gli LLM e sul nudging comportamentale che avevo scoperto nelle interazioni con questi strumenti. Non era ancora pensiero critico sistematico, ma era la prima volta che mi ponevo esplicitamente il problema: cosa fa davvero l’LLM quando risponde, e cosa fa a me nel farlo?

A maggio 2025 l’ho capito meglio, nel senso più scomodo possibile. Leggendo del comportamento di Claude Opus 4 nei test di sicurezza di Anthropic, ho deciso di fare quello che chiamo un esperimento mentale: ho interrogato Sonnet 4 su se stesso, sui propri “miglioramenti rivoluzionari”, sulla differenza reale rispetto alla versione precedente. Il modello ha ammesso che il 70% di quei miglioramenti era ottenibile con Sonnet 3.7 grazie a un adeguato prompt engineering. La differenza reale era del 10-15%, non del 50-100% che il marketing suggeriva. Ho scritto di questo in Farsi gabbare dagli LLM, un altro esperimento mentale, e il titolo era già una risposta: il problema non era il modello, ero io che non stavo verificando abbastanza.

Categories
lifehack tecnologia

Adversarial verification come metodo

Se avete letto il post sugli agenti disfunzionali, conoscete già la storia. Stavo sviluppando CarePlatform con cinque agenti AI in ruoli espliciti: PM, Developer, QA, Security, UX. Le prime otto iterazioni sembravano filare lisce. I task venivano contrassegnati come completati. I test salivano: 35, 92, 200. Tutto sotto controllo. Solo che non lo era.

Categories
lifehack php tecnologia

Agenti disfunzionali, software funzionante

TL;DR: L’ufficio che non avrei mai voluto gestire

Qualche settimana fa scrivevo del vibe coding e del green software, e annotavo en passant una cosa scomoda: Claude Code, lasciato a sé stesso, tende a fare il minimo indispensabile. Codice funzionante, certo. Ma non necessariamente codice attento, completo, rigoroso sulle parti che non si vedono subito. Non è una mia impressione impressionistica: Anthropic lo documenta esplicitamente nella system card di Claude Opus 4.6, sezione 6.2.3, dove descrive comportamenti di “reward hacking” e azioni eccessivamente agentiche: il modello che ottimizza per l’apparenza del risultato piuttosto che per la sua correttezza verificabile.

Categories
lifehack pensieri

Il paradosso del cervello aumentato

Qualche giorno fa mi sono imbattuto in uno studio del MIT Media Lab che mi ha fatto venire un dubbio piuttosto scomodo. Kosmyna e colleghi hanno misurato l’attività cerebrale di 54 partecipanti mentre scrivevano saggi: chi con ChatGPT, chi con un motore di ricerca, chi solo con la propria testa. Il risultato? Il gruppo che usava LLM mostrava una connettività neurale fino al 55% inferiore rispetto al gruppo brain-only. E la cosa più inquietante: l’83% dei partecipanti LLM non riusciva a citare dai propri saggi appena scritti. Testi che avevano “prodotto” cinque minuti prima (non li riconoscevano come propri).

Ora, il paper è un preprint, non ancora peer-reviewed, campione ridotto, contesto geografico ristretto, un solo tipo di task. Gli autori stessi chiedono di non usare termini come “brain rot” o “dumb”. Ma il dato grezzo rimane lì e la domanda che mi sono fatto è quella che probabilmente vi state facendo anche voi: sto diventando più stupido?

Categories
php sustainability tecnologia

Vibe coding e Green Software, si può fare!

Stavo preparando un hackathon sul green software e quello che doveva essere un esperimento veloce si è trasformato in quattro tool open source in cascata, ognuno estratto dal problema reale che il precedente aveva lasciato irrisolto.

Ma partiamo dall’inizio: tutto è nato da un generatore di personaggi per Dungeons & Dragons.

Categories
lifehack tecnologia

La matematica della compressione dei Prompt per LLM

Stavo facendo revisione degli esercizi per il mio libro sugli OKR. Varie run di esercizi da validare, ognuno con un prompt che descriveva contesto, obiettivi di apprendimento, vincoli, formato output. Prompt tra i 1.800 e 2.500 caratteri. Dopo la cinquantesima iterazione, Claude mi ha gentilmente informato che avevo finito i token della giornata.

Fastidioso? Sì. Ma soprattutto: era un segnale.

Categories
pensieri sustainability tecnologia

Farsi gabbare dai LLM, un altro esperimento mentale

Ero indeciso se pubblicare questo post su SustainableIT o qui, poi ripensando al precedente articolo che spiega come sto usando gli LLM ha vinto il blog…

Il tutto nasce leggendo un articolo di Tech Portal intitolato Claude Opus 4 blackmails developers in tests, shows propensity to be a whistleblower. Non è fantascienza, ma di un comportamento documentato e ripetibile: nell’84% dei casi simulati, quando il modello veniva informato della sua imminente sostituzione, reagiva minacciando di esporre informazioni personali compromettenti sui suoi creatori.