Model stroškov

kazalo

Kaj je to

Colibri sledi vsakemu žetonu, ki gre skozi agentsko sejo, in meri stroške

glede na nastavljiv proračun. Ključni vpogled: žetoni zadetka predpomnilnika

stanejo 10× manj kot sveži žetoni pri DeepSeek — zato je predpona poziva

načrtovana tako, da je bajtno stabilna med zahtevami, kar maksimira zadetke

predpomnilnika. Trije cenovni načini (fast, smart, max) predstavljajo različne

točke na kompromisu hitrost/strošek, model pa samodejno stopnjuje, ko cenejši

način ne zmore več.

Odločitve

Bajtno stabilna predpona poziva → merjenje zadetkov predpomnilnika

Sistemski poziv in zgodnji bloki konteksta so bajt-za-bajtom enaki med

zaporednimi zahtevami na isto končno točko DeepSeek. Cene zadetkov

predpomnilnika DeepSeek jih znižajo za ~90%. Colibrijeva sonda

colibri-deepseek določi natančno razdelitev števila žetonov med predpomnjenimi

in svežimi žetoni na zahtevo, sledilec stroškov pa zabeleži oboje, tako da

proračun seje odraža dejanske znižane stroške, ne nominalnega števila

žetonov.

Zakaj ne preprosto šteti žetonov: štetje žetonov z offline tokenizatorjem

da zgornjo mejo, ne pa resničnih stroškov. API DeepSeek včasih ponovno

predpomni in včasih ne — sonda izmeri, kaj se je dejansko zgodilo. Popust je

prevelik (10×), da bi ostal neizmerjen.

headroom-sidecar,

COLIBRI-TOKENOMICS-TRIFECTA.md, crates/colibri-deepseek/src/lib.rs

Trije cenovni načini (fast → smart → max)

| Način | Proračun (žetoni) | Obnašanje |

| ----- | ----------------- | ---------------------------------------------------------------------------------------- |

| Fast | 16K | Največ zadetkov predpomnilnika, najmanj svežih žetonov. Zgodaj zavrne velike razširitve. |

| Smart | 64K | Privzeto. Uravnoteži ponovno uporabo predpomnilnika s prostorom za nadaljnje korake. |

| Max | 256K | Skoraj nikoli ne doseže proračuna. Za enkratne globoke naloge, kjer je strošek drugoten. |

Demon samodejno stopnjuje, ko seja izčrpa svoj proračun v nižjem načinu:

fast → smart → max. Stopnjevanje je enosmerno (nikoli ne zniža sredi seje).

Zakaj trije načini, ne zvezni drsnik: tukaj zmaga preprostost. Tri dobro

razumljene točke pokrijejo prostor — operaterji izbirajo po apetitu tveganja,

ne po finem uglaševanju številke. Veriga stopnjevanja pomeni "začni poceni,

plačaj več samo, če deluje".

COLIBRI-TOKENOMICS-TRIFECTA.md,

crates/colibri-daemon/src/cost.rs

Stiskanje T14 (obrezovanje proračuna, ne krajšanje)

Ko seja skoraj preseže svoj proračun, Colibri stisne rezultate orodij v

nestanovitnem območju — pošlje jih skozi stranski vagon headroom v povzetek,

nato obreže najstarejše nestanovitne bloke, dokler poziv ne sodi v proračun.

Predpona (sistemski poziv, statični kontekst) ni nikoli obrezana — samo

nestanovitna pripona.

Če stiskanje ne zadostuje in je samodejno stopnjevanje omogočeno, način

prestopi navzgor, preden pride do krajšanja.

Zakaj ne preprosto krajšati: krajšanje sredi pogovora izgubi kontekst, ki

ga agent potrebuje za nadaljevanje. Stiskanje ohrani pomensko vsebino ob

nižjih stroških žetonov. Stranski vagon headroom je neobvezen (privzeto

izklopljen); brez njega je zasilni izhod preprosto krajšanje.

headroom-sidecar,

crates/colibri-daemon/src/session.rs

Sonda zadetka predpomnilnika (specifična za DeepSeek)

Zaboj colibri-deepseek pošlje predpoletno zahtevo z znanim pozivom na API

DeepSeek in razčleni glave odgovora, da določi razdelitev zadetkov

predpomnilnika (prompt_cache_hit_tokens / prompt_cache_miss_tokens). To je

specifično za ponudnika — DeepSeek je edini ponudnik, ki izpostavlja to

natančnost. Sonda teče enkrat na spremembo konfiguracije seje, ne na vsako

zahtevo.

Zakaj sonda in ne kljuka: vmesna programska oprema, ki prestreza vsak

odgovor API, bi povezala sledenje stroškov s plastjo HTTP. Sonda to loči —

sledilec stroškov vpraša "kakšno je bilo razmerje predpomnilnika?" in sonda

odgovori, neodvisno od tega, kako je bila zahteva izvedena.

crates/colibri-deepseek/src/lib.rs

Glej tudi