Model stroškov
← kazalo
Kaj je to
Colibri sledi vsakemu žetonu, ki gre skozi agentsko sejo, in meri stroške
glede na nastavljiv proračun. Ključni vpogled: žetoni zadetka predpomnilnika
stanejo 10× manj kot sveži žetoni pri DeepSeek — zato je predpona poziva
načrtovana tako, da je bajtno stabilna med zahtevami, kar maksimira zadetke
predpomnilnika. Trije cenovni načini (fast, smart, max) predstavljajo različne
točke na kompromisu hitrost/strošek, model pa samodejno stopnjuje, ko cenejši
način ne zmore več.
Odločitve
Bajtno stabilna predpona poziva → merjenje zadetkov predpomnilnika
Sistemski poziv in zgodnji bloki konteksta so bajt-za-bajtom enaki med
zaporednimi zahtevami na isto končno točko DeepSeek. Cene zadetkov
predpomnilnika DeepSeek jih znižajo za ~90%. Colibrijeva sonda
colibri-deepseek določi natančno razdelitev števila žetonov med predpomnjenimi
in svežimi žetoni na zahtevo, sledilec stroškov pa zabeleži oboje, tako da
proračun seje odraža dejanske znižane stroške, ne nominalnega števila
žetonov.
Zakaj ne preprosto šteti žetonov: štetje žetonov z offline tokenizatorjemda zgornjo mejo, ne pa resničnih stroškov. API DeepSeek včasih ponovno
predpomni in včasih ne — sonda izmeri, kaj se je dejansko zgodilo. Popust je
prevelik (10×), da bi ostal neizmerjen.
COLIBRI-TOKENOMICS-TRIFECTA.md,
crates/colibri-deepseek/src/lib.rs
Trije cenovni načini (fast → smart → max)
| Način | Proračun (žetoni) | Obnašanje |
| ----- | ----------------- | ---------------------------------------------------------------------------------------- |
| Fast | 16K | Največ zadetkov predpomnilnika, najmanj svežih žetonov. Zgodaj zavrne velike razširitve. |
| Smart | 64K | Privzeto. Uravnoteži ponovno uporabo predpomnilnika s prostorom za nadaljnje korake. |
| Max | 256K | Skoraj nikoli ne doseže proračuna. Za enkratne globoke naloge, kjer je strošek drugoten. |
Demon samodejno stopnjuje, ko seja izčrpa svoj proračun v nižjem načinu:
fast → smart → max. Stopnjevanje je enosmerno (nikoli ne zniža sredi seje).
Zakaj trije načini, ne zvezni drsnik: tukaj zmaga preprostost. Tri dobrorazumljene točke pokrijejo prostor — operaterji izbirajo po apetitu tveganja,
ne po finem uglaševanju številke. Veriga stopnjevanja pomeni "začni poceni,
plačaj več samo, če deluje".
→ COLIBRI-TOKENOMICS-TRIFECTA.md,
crates/colibri-daemon/src/cost.rs
Stiskanje T14 (obrezovanje proračuna, ne krajšanje)
Ko seja skoraj preseže svoj proračun, Colibri stisne rezultate orodij v
nestanovitnem območju — pošlje jih skozi stranski vagon headroom v povzetek,
nato obreže najstarejše nestanovitne bloke, dokler poziv ne sodi v proračun.
Predpona (sistemski poziv, statični kontekst) ni nikoli obrezana — samonestanovitna pripona.
Če stiskanje ne zadostuje in je samodejno stopnjevanje omogočeno, način
prestopi navzgor, preden pride do krajšanja.
Zakaj ne preprosto krajšati: krajšanje sredi pogovora izgubi kontekst, kiga agent potrebuje za nadaljevanje. Stiskanje ohrani pomensko vsebino ob
nižjih stroških žetonov. Stranski vagon headroom je neobvezen (privzeto
izklopljen); brez njega je zasilni izhod preprosto krajšanje.
crates/colibri-daemon/src/session.rs
Sonda zadetka predpomnilnika (specifična za DeepSeek)
Zaboj colibri-deepseek pošlje predpoletno zahtevo z znanim pozivom na API
DeepSeek in razčleni glave odgovora, da določi razdelitev zadetkov
predpomnilnika (prompt_cache_hit_tokens / prompt_cache_miss_tokens). To je
specifično za ponudnika — DeepSeek je edini ponudnik, ki izpostavlja to
natančnost. Sonda teče enkrat na spremembo konfiguracije seje, ne na vsako
zahtevo.
Zakaj sonda in ne kljuka: vmesna programska oprema, ki prestreza vsakodgovor API, bi povezala sledenje stroškov s plastjo HTTP. Sonda to loči —
sledilec stroškov vpraša "kakšno je bilo razmerje predpomnilnika?" in sonda
odgovori, neodvisno od tega, kako je bila zahteva izvedena.
→ crates/colibri-deepseek/src/lib.rs
Glej tudi
- task-board — razporejevalnik, ki razpošilja opravila znotraj proračunov sej
- mother-hive — arhitektura MCP (druga stroškovna domena)
- quality-gates — preverjanje, ki preverja razčlenjevanje cenovnih načinov