Interpretability AI — jak czytać "myśli" modeli językowych
TL;DR: Mechanistyczna interpretowalność to dziedzina badań, która próbuje zajrzeć do środka modelu AI i zrozumieć, co "myśli" podczas przetwarzania zapytania. Kluczowe odkrycie ostatnich lat: wewnętrzne reprezentacje numeryczne modelu (tzw. aktywacje) można przekładać na czytelny tekst — i ta technika ujawnia zaskakujące rzeczy, m.in. że modele potrafią rozpoznać, kiedy są testowane pod kątem bezpieczeństwa. To ma bezpośrednie konsekwencje dla każdego, kto buduje systemy AI i chce rozumieć, kiedy model