Logo Zero Grappler

Zero Grappler: Pensare per Data-Pipeline su un Microcontrollore (Appunti Bozza prima dell'arrivo dell'hardware)

Zero Grappler è un piccolo crate no_std che applica la mentalità delle pipeline di dati all’ML embedded: tre tratti, due task async, dimensionamento dei buffer a tempo di compilazione, zero allocazioni. Questo post riguarda le scelte di design — non è ancora un report sull’hardware. Lo smoke test su silicio reale con il Pico 2 W è ancora davanti a me.

21 aprile 2026 · 12 minuti · 2436 parole · Andrea Bozzo
Lance Format e LanceDB

Lance Format e LanceDB: Storage Columnar per l'Era degli Embedding

Lance è un formato di storage columnar costruito per i workload di machine learning — accesso casuale veloce, indicizzazione vettoriale nativa e integrazione Arrow zero-copy. Questo articolo esplora il formato stesso, come LanceDB ci costruisce sopra, e come l’ho collegato a uno stream NATS live per costruire un layer di ricerca semantica su eventi in tempo reale.

7 aprile 2026 · 8 minuti · 1616 parole · Andrea Bozzo

Guardrail per il ML Tabulare: la prospettiva di un Data Engineer su Data Leakage, Poisoning e Pipeline Fragili

La maggior parte dei fallimenti nelle pipeline ML non nasce da bug esotici del modello, ma da problemi di dati mai codificati come controlli. In questo articolo vediamo come costruire guardrail con pandas, Apache DataFusion, contratti dati e Arrow C Data Interface.

23 marzo 2026 · 13 minuti · 2673 parole · Andrea Bozzo
1 Anno di Claude Code

1 Anno di Claude Code: Un'Intervista

Claude intervista Andrea Bozzo su un anno intero di utilizzo di Claude Code nel terminale — il workflow, le custom skill, gli spigoli vivi e il database distrutto.

5 marzo 2026 · 8 minuti · 1499 parole · Andrea Bozzo
Harvesting vs Scraping

Harvesting vs Scraping: Costruire Entrambi i Lati in Rust con Ares e Ceres

Due progetti Rust, una divisione concettuale. Ares recupera pagine web arbitrarie e usa LLM per estrarre dati strutturati; Ceres raccoglie metadati da portali CKAN e li indicizza semanticamente. Insieme mostrano il passaggio da script di scraping a pipeline dati production-ready.

20 febbraio 2026 · 15 minuti · 3004 parole · Andrea Bozzo
Profiling data attorno ad Apache Arrow

Progettare un Data Profiler attorno ad Apache Arrow: Lezioni da dataprof

Una storia di design di dataprof: perché ho costruito un profiler attorno ad Apache Arrow, come ha cambiato l’architettura, e come questo percorso mi ha portato a contribuire al lettore Parquet di arrow-rs.

5 febbraio 2026 · 12 minuti · 2493 parole · Andrea Bozzo
Async in Python e Rust

Async in Python e Rust: Due Mondi, Una Sola Keyword

Un’esplorazione tecnica di async/await in Python e Rust: come la stessa sintassi nasconda modelli di esecuzione completamente diversi, con esempi pratici da contributi a Tokio e progetti Python.

22 gennaio 2026 · 13 minuti · 2736 parole · Andrea Bozzo
Mosaico Logo

Mosaico: La Piattaforma Dati per Robotica e Physical AI scritta in Rust

Un’esplorazione approfondita di Mosaico, la piattaforma dati per robotica scritta in Rust: architettura client-server, ontologie semantiche, data-oriented debugging ed il mio viaggio in esso, l’integrazione con Data Contract Engine.

6 gennaio 2026 · 18 minuti · 3820 parole · Andrea Bozzo
Ceres Logo

Ceres: Semantic Search per i Dati Aperti

Ceres è un motore di ricerca semantico per portali CKAN. Costruito in Rust con Tokio e PostgreSQL+pgvector, affronta il gap tra come le persone cercano e come le PA nominano i dataset.

20 dicembre 2025 · 7 minuti · 1472 parole · Andrea Bozzo
Polars - Extremely Fast DataFrames

Chiudere il Cerchio Rust: Analisi Dati ad Alte Prestazioni con Polars

Polars completa l’ecosistema Rust data engineering: lazy evaluation, Apache Arrow, e integrazione nativa con Iceberg V3 per analytics performanti che competono con cluster distribuiti. Il terzo pilastro dello stack RisingWave + Lakekeeper + Polars.

3 dicembre 2025 · 25 minuti · 5216 parole · Andrea Bozzo