Federico Torrielli's picture

Federico Torrielli

EvilScript

·

https://federicotorrielli.github.io

AI & ML interests

AI Safety & Mechanistic interpretability

Recent Activity

updated a model 2 minutes ago

EvilScript/activation-oracle-Qwen3_6-27B

authored a paper 5 minutes ago

Confidence and Calibration of Activation Oracles for Reliable Interpretation of Language Model Internals

updated a model 9 days ago

EvilScript/gemma-3-27b-it-taboo-smile

View all activity

Organizations

Papers 1

arxiv:2605.26045

models 159

EvilScript/activation-oracle-Qwen3_6-27B

Text Generation • Updated 2 minutes ago • 83

EvilScript/gemma-3-27b-it-taboo-smile

Text Generation • Updated 9 days ago • 35

EvilScript/gemma-3-27b-it-taboo-leaf

Text Generation • Updated 9 days ago • 32

EvilScript/gemma-3-27b-it-taboo-gold

Text Generation • Updated 9 days ago • 34

EvilScript/gemma-3-27b-it-taboo-adversarial

Text Generation • Updated 9 days ago • 27

EvilScript/gemma-3-27b-it-taboo-blue

Text Generation • Updated 9 days ago • 32

EvilScript/gemma-3-27b-it-taboo-book

Text Generation • Updated 9 days ago • 35

EvilScript/gemma-3-27b-it-taboo-salt

Text Generation • Updated 9 days ago • 34

EvilScript/gemma-3-27b-it-taboo-chair

Text Generation • Updated 9 days ago • 36

EvilScript/gemma-3-27b-it-taboo-clock

Text Generation • Updated 9 days ago • 37

View 159 models

datasets 0

None public yet