Categories
lifehack pensieri tecnologia

Pensieri specchio

Come avrete notato, negli ultimi giorni ho lavorato molto su processi di logica adversariale: prima realizzando adversarial-verify, la skill open source nata dall’esperimento con gli agenti disfunzionali, poi costruendo adversarial-thinking per facilitare il mio ragionamento, esattamente come avviene in questo blog. Poi, ad un certo punto, sotto la doccia (dove avvengono le migliori intuizioni e le peggiori decisioni), mi sono fermato e ho pensato: ma perché sto costruendo tutta questa roba?

Categories
business design lifehack pensieri tecnologia

Orologi, Nuvole e Pensiero Avversariale

Devo andare a ritroso di quasi due anni, perché la storia ha un inizio preciso anche se all’epoca non lo sapevo.

Nel luglio 2024 ho scritto un post su come stavo usando gli LLM e sul nudging comportamentale che avevo scoperto nelle interazioni con questi strumenti. Non era ancora pensiero critico sistematico, ma era la prima volta che mi ponevo esplicitamente il problema: cosa fa davvero l’LLM quando risponde, e cosa fa a me nel farlo?

A maggio 2025 l’ho capito meglio, nel senso più scomodo possibile. Leggendo del comportamento di Claude Opus 4 nei test di sicurezza di Anthropic, ho deciso di fare quello che chiamo un esperimento mentale: ho interrogato Sonnet 4 su se stesso, sui propri “miglioramenti rivoluzionari”, sulla differenza reale rispetto alla versione precedente. Il modello ha ammesso che il 70% di quei miglioramenti era ottenibile con Sonnet 3.7 grazie a un adeguato prompt engineering. La differenza reale era del 10-15%, non del 50-100% che il marketing suggeriva. Ho scritto di questo in Farsi gabbare dagli LLM, un altro esperimento mentale, e il titolo era già una risposta: il problema non era il modello, ero io che non stavo verificando abbastanza.

Categories
lifehack tecnologia

Adversarial verification come metodo

Se avete letto il post sugli agenti disfunzionali, conoscete già la storia. Stavo sviluppando CarePlatform con cinque agenti AI in ruoli espliciti: PM, Developer, QA, Security, UX. Le prime otto iterazioni sembravano filare lisce. I task venivano contrassegnati come completati. I test salivano: 35, 92, 200. Tutto sotto controllo. Solo che non lo era.

Categories
lifehack pensieri

Il paradosso del cervello aumentato

Qualche giorno fa mi sono imbattuto in uno studio del MIT Media Lab che mi ha fatto venire un dubbio piuttosto scomodo. Kosmyna e colleghi hanno misurato l’attività cerebrale di 54 partecipanti mentre scrivevano saggi: chi con ChatGPT, chi con un motore di ricerca, chi solo con la propria testa. Il risultato? Il gruppo che usava LLM mostrava una connettività neurale fino al 55% inferiore rispetto al gruppo brain-only. E la cosa più inquietante: l’83% dei partecipanti LLM non riusciva a citare dai propri saggi appena scritti. Testi che avevano “prodotto” cinque minuti prima (non li riconoscevano come propri).

Ora, il paper è un preprint, non ancora peer-reviewed, campione ridotto, contesto geografico ristretto, un solo tipo di task. Gli autori stessi chiedono di non usare termini come “brain rot” o “dumb”. Ma il dato grezzo rimane lì e la domanda che mi sono fatto è quella che probabilmente vi state facendo anche voi: sto diventando più stupido?

Categories
lifehack tecnologia

La matematica della compressione dei Prompt per LLM

Stavo facendo revisione degli esercizi per il mio libro sugli OKR. Varie run di esercizi da validare, ognuno con un prompt che descriveva contesto, obiettivi di apprendimento, vincoli, formato output. Prompt tra i 1.800 e 2.500 caratteri. Dopo la cinquantesima iterazione, Claude mi ha gentilmente informato che avevo finito i token della giornata.

Fastidioso? Sì. Ma soprattutto: era un segnale.