Ile trwa zbudowanie MVP?

Od pomysłu do działającego produktu w produkcji w 2–4 tygodnie. W modelu MVP Sprint pracuję jako one-man software factory z Claude Code i custom agentami, więc skracam czas dostarczenia bez zespołu i overheadu agencji.

Ile kosztuje współpraca?

MVP Sprint to 15 000–30 000 PLN jednorazowo za zbudowanie produktu. Po wdrożeniu dostępny jest Builder Retainer (5 000–10 000 PLN/mies) — Twój developer na abonament — oraz Automation Pack (3 000–8 000 PLN/mies) na automatyzacje Claude Code + MCP.

Co to jest MCP server i po co mi?

MCP (Model Context Protocol) server to most między modelem AI a Twoimi systemami — bazą danych, API, narzędziami. Dzięki niemu asystent AI realnie wykonuje zadania w Twojej firmie (np. czyta zamówienia, generuje raporty, integruje usługi), a nie tylko odpowiada na pytania. Buduję custom MCP servery pod konkretny proces.

Dla kogo jest ta oferta?

Dla solopreneurów i tech-founderów, którzy chcą szybko zwalidować produkt, oraz dla firm, które potrzebują automatyzacji i integracji AI bez budowania własnego zespołu deweloperskiego.

Jak zacząć współpracę?

Zarezerwuj bezpłatny 30-minutowy audyt na https://bartoszgaca.pl/audit/. Omawiamy pomysł, zakres i najszybszą ścieżkę do produkcji, a Ty dostajesz konkretny plan działania.

Routery LLM dla Claude Code: jak ciąć koszty AI w 2026

Rachunek za Claude Code to głównie tokeny Opusa wydane na pracę, którą zrobiłby dużo tańszy model. Naprawa ma dwie dźwignie: zoptymalizuj to, co Claude Code już robi (cache, higiena kontekstu, poziomy modeli), a potem dodaj router LLM, który łatwe zadania kieruje do taniego modelu, a drogi rezerwuje na trudne rozumowanie. Poniżej routery open source realnie używane do tego w 2026 — każdy z prawdziwym repo na GitHub, aktualną liczbą gwiazdek (zweryfikowaną przez GitHub API, czerwiec 2026), do czego się nadaje i z uczciwym haczykiem.

TL;DR

Najpierw zmierz: ccusage (~16,7 tys.★) czyta lokalne logi Claude Code i pokazuje koszt per dzień/model/sesja. Nie zoptymalizujesz tego, czego nie widzisz.

Routuj sam Claude Code: claude-code-router (~35 tys.★) wysyła zadania tła/proste do tańszych dostawców (DeepSeek, Qwen itd.), a mocny model zostawia na rozumowanie.

Bramka dla zespołu: LiteLLM (~52 tys.★) — jedno API do 100+ modeli z budżetami, fallbackami i śledzeniem kosztów.

Uczciwy haczyk: router „oszczędza" przez przełączenie na inne, tańsze modele — nie przez to, że sam Claude robi się tańszy. To kompromis jakościowy, który trzeba zmierzyć, a nie zakładać.

Dlaczego Claude Code drożeje

Większość kosztu to nie trudne problemy — to wolumen. Każdy odczyt pliku, każda ponowna próba, każde „popraw literówkę" idzie przez ten sam drogi model z rosnącym oknem kontekstu. Dwie rzeczy nakręcają rachunek: duże konteksty (płacisz za każdy token w oknie w każdej turze) i użycie modelu najwyższej półki do błahej pracy. Routery atakują to drugie; dobra higiena kontekstu — to pierwsze.

Krok 0 — Zmierz, zanim zoptymalizujesz

ccusage (~16,7 tys.★) to CLI, które parsuje lokalne logi JSONL Claude Code i rozbija koszt na dzień, tydzień, miesiąc, sesję i model — w tym tokeny cache-creation vs cache-read oraz 5-godzinne okno rozliczeniowe. Uruchom je przed i po każdej zmianie, żeby optymalizować na realnych liczbach, nie na przeczuciu.

npx ccusage@latest        # raport dziennego kosztu z lokalnych logów Claude Code

Krok 1 — Optymalizacja natywna (bez utraty jakości)

Zanim cokolwiek zaczniesz routować, zbierz darmowe wygrane wewnątrz Claude Code — zostajesz na modelach Anthropic, więc bez kompromisu jakościowego:

Prompt caching — ponownie używany kontekst (system prompt, pliki) jest przy odczycie z cache liczony za ułamek ceny wejścia.
Higiena kontekstu — /compact i /clear, by wyrzucić nieaktualną historię; mniejsze okna = mniej tokenów na turę.
Poziomy modeli — Haiku/Sonnet do rutynowych edycji, Opus rezerwuj na naprawdę trudne rozumowanie.

Opisałem to szczegółowo w przewodniku po optymalizacji tokenów Claude Code — zacznij stamtąd, bo routowanie na rozdętym kontekście tylko przenosi marnotrawstwo na tańszy rachunek.

Krok 2 — Routery LLM (łatwą pracę do tanich modeli)

1. claude-code-router — routuj ruch samego Claude Code

Najbardziej bezpośrednia opcja pod ten przypadek. musistudio/claude-code-router (~35 tys.★, MIT) to lokalna bramka (domyślnie http://127.0.0.1:3456), która przechwytuje żądania Claude Code i routuje je wg kategorii — zadania tła, rozumowanie, długi kontekst, web-search — do wybranego dostawcy: OpenRouter, DeepSeek, Qwen/SiliconFlow, Moonshot, Mistral, Z.AI i więcej. Tanią, masową pracę wyślij do budżetowego modelu; mocny zostaw na trudne fragmenty.

Opinie i poradniki: praktyczna recenzja testująca obietnicę „obetnij rachunek nawet o 80%" w AI Tool Analysis; wdrożenie i kontrola kosztów krok po kroku w TokenMix. Haczyk: to projekt utrzymywany przez społeczność, a routowanie do modeli spoza Anthropic oznacza, że nie działasz już na czystym Claude — sprawdź jakość outputu na własnych zadaniach, zanim zaufasz oszczędnościom.

2. LiteLLM — bramka zespołowa z budżetami

BerriAI/litellm (~52 tys.★, open source) to proxy zgodne z OpenAI przed 100+ dostawcami, z governance, którego zespoły realnie potrzebują: budżety per klucz, łańcuchy fallback, load balancing oraz wbudowane śledzenie kosztów i logowanie. Nie decyduje za Ciebie „czy to proste zapytanie?" — reguły routingu konfigurujesz sam — ale daje twarde limity wydatków i jedno miejsce, gdzie widać, gdzie idą pieniądze. Najlepsze, gdy budżet AI dzieli kilka osób lub aplikacji. Porównanie z hostowanym OpenRouter w TrueFoundry.

3. RouteLLM — routing mocny/słaby klasy badawczej

lm-sys/RouteLLM (~5,1 tys.★, Apache-2.0) od LMSYS (zespół Chatbot Arena) trenuje klasyfikatory na danych preferencji ludzi, by per zapytanie przewidzieć, czy wystarczy tani „słaby" model, czy potrzeba „mocnego". Własne README podaje routery, które „redukują koszty nawet o 85% przy zachowaniu 95% wydajności GPT-4" na MT Bench, ocenione na MT Bench, MMLU i GSM8K. Dostarcza gotowe wytrenowane routery i serwer zgodny z OpenAI. Haczyk: to klasa badawcza — mocna logika routingu, ale nie wtyczka „plug-and-play" do Claude Code; integrujesz to sam (np. za LiteLLM).

4. semantic-router — szybki, zbuduj własny routing

aurelio-labs/semantic-router (~3,6 tys.★, MIT) podejmuje decyzje routingu przez podobieństwo semantyczne (embeddingi) zamiast dodatkowego wywołania LLM — więc jest szybki i tani w działaniu. Użyj go do klasyfikacji intencji („to prosty lookup" vs „to wymaga rozumowania") i sam wybierz model. To klocek, nie gotowy router do Claude Code.

Szybkie porównanie

Narzędzie	★ (cze 2026)	Rola	Najlepsze do	Haczyk
ccusage	~16,7 tys.	Widoczność kosztów	Zobaczenia, gdzie idą pieniądze	Mierzy, nie routuje
claude-code-router	~35 tys.	Router ruchu CC	Routowania samego Claude Code	Modele spoza Anthropic; społecznościowy
LiteLLM	~52 tys.	Bramka + budżety	Zespołów, limitów, fallbacków	Reguły routingu piszesz sam
RouteLLM	~5,1 tys.	Klasyfikator mocny/słaby	Sprytnego routingu per zapytanie	Klasa badawcza, integrujesz sam
semantic-router	~3,6 tys.	Szybki routing intencji	Własnej, niskolatencyjnej logiki	Klocek, nie gotowiec

Uczciwa część: kiedy NIE routować

Routing to nie darmowe pieniądze. Tańszy model, który generuje błędny kod, kosztuje Cię więcej w debugowaniu niż zaoszczędził w tokenach. Moje zasady:

Nigdy nie routuj trudnego rozumowania. Architektura, ryzykowne refaktory, kod wrażliwy bezpieczeństwowo — zostaw mocny model.
Mierz jakość, nie tylko koszt. Śledź poprawki: jeśli output taniego modelu jest cofany, „oszczędność" jest ujemna.
Najpierw natywnie. Cache + higiena kontekstu + Haiku do błahych edycji często tną rachunek wystarczająco bez opuszczania Anthropic — i z zerowym ryzykiem jakości.
Pamiętaj o warunkach. Kierowanie Claude Code na backendy modeli innych firm to technika społecznościowa, nie oficjalna funkcja Anthropic.

Zalecany setup

Zmierz ccusage — ustal baseline kosztu per dzień/model.
Zoptymalizuj natywnie — cache, /compact, Haiku/Sonnet do rutyny.
Routuj tylko łatwe, masowe zadania — claude-code-router solo, LiteLLM gdy budżet dzieli zespół.
Zmierz ponownie ccusage i śledź poprawki — utrzymuj routing tylko tam, gdzie jakość się trzyma.

FAQ

Czym różni się optymalizacja tokenów od routera?
Optymalizacja tokenów (cache, mniejszy kontekst, Haiku) sprawia, że ten sam Claude pracuje taniej bez utraty jakości. Router wysyła część pracy do innego, tańszego modelu — większe oszczędności, ale kompromis jakościowy do zweryfikowania.

Czy router zepsuje Claude Code?
Narzędzia jak claude-code-router stawiają lokalną bramkę i przepuszczają żądania; wiele zadań działa dobrze na budżetowych modelach. Ale to projekt społecznościowy i zmieniasz modele — przetestuj najpierw na swoim realnym workflow.

Najtańszy setup, który nie psuje jakości?
ccusage do pomiaru + optymalizacja natywna (cache, /compact, Haiku do błahych edycji). To samo często usuwa większość marnotrawstwa bez żadnego routera.

Czy to darmowe?
Narzędzia są open source (MIT/Apache). Nadal płacisz za tokeny modeli, które zużyjesz — chodzi o to, by zużywać ich mniej i tańszych.

Potrzebujesz to dobrze ustawić?

Buduję i utrzymuję Claude Code, serwery MCP i routing świadomy kosztów dla solopreneurów i zespołów — zmierzone oszczędności, nie zgadywanie. Jeśli chcesz ściąć rachunek za AI bez psucia jakości outputu, umów bezpłatny 20-minutowy Fit Call.

Powiązane: Optymalizacja tokenów Claude Code: kompletny przewodnik, Claude Code w produkcji: 6 miesięcy doświadczeń oraz czym jest serwer MCP i dlaczego firma go potrzebuje.

Bartosz Gaca — MVPs, MCP Servers, Claude Code

Usługi — od pomysłu do produkcji w 2–4 tygodnie

Najczęstsze pytania