To agenter, flere tokens, bedre kode

Hvordan HAVEN Intelligence bruger dual-agent orkestrering til at skalere kodekvalitet med test-time compute. En gennemgang af Claudex-arkitekturen.

Problemet med en enkelt agent

De fleste udviklere, der arbejder med AI-assisteret kodegenerering, kender moenstret: en agent faar en opgave, skriver kode, og udvikleren gennemgar resultatet manuelt. Det virker fint til simple opgaver, men skalerer darligt. Naar kompleksiteten stiger, stiger ogsa risikoen for at fejl slipper igennem.

Spoergsmaalet er ikke, om LLM’er kan skrive kode. Det kan de. Spoergsmaalet er, hvordan man systematisk oeger kvaliteten af den kode, de producerer, uden at kraeve mere menneskelig gennemgang.

Test-time compute scaling

Svaret ligger i test-time compute scaling: i stedet for at bruge en bedre model, bruger man flere beregninger pa inferenstidspunktet. Konkret betyder det, at to agenter arbejder i et iterativt loop, hvor den ene implementerer og den anden udfordrer.

HAVEN Intelligence har bygget dette princip ind i Claudex, et open source-vaerktoj der orkestrerer to AI-agenter til automatiseret kodekvalitetskontrol. Den foerste agent (Claude Code eller Codex) planlaegger og implementerer aendringer. Den anden agent gennemgar resultatet, identificerer problemer og foreslaar forbedringer. Loopet koerer indtil kvaliteten konvergerer.

Deterministisk orkestrering

Et centralt designvalg i Claudex er, at Python ejer al kontrollogik. LLM’er er gode til at laese og skrive kode, men de er upaalidelige, naar det gaelder kvalitetsvurderinger med faste graenser. Derfor haandterer Python alle taerskler, konvergenstjek, severity-optaelling og regressionsdetektering.

Denne adskillelse er afgoerende. Naar en reviewer-agent scorer kode, validerer Python om scoren opfylder de foruddefinerede krav. Agenten har ingen indflydelse pa, hvad “god nok” betyder. Det er en deterministisk beslutning.

Tre koeretilstande

Claudex understotter tre modes, der daekker forskellige arbejdsgange:

tmux-mode til interaktiv brug, hvor udvikleren kan folge begge agenter i realtid
Dashboard TUI til visuelt overblik over iterationer, scores og konvergensstatus
Headless mode til CI/CD-pipelines, hvor Claudex koerer uden brugerinteraktion

Denne fleksibilitet goer det muligt at bruge det samme vaerktoj til baade lokal udvikling og automatiserede kvalitetstjek i produktionspipelines.

Resultater og laering

Claudex har en testsuite med over 433 tests og er aktivt brugt i udviklingsprojekter hos HAVEN Intelligence. Erfaringen viser, at dual-agent-tilgangen konsekvent producerer kode med faerre fejl end en enkelt agent, isaer ved komplekse refaktoreringer.

Den vigtigste laering er, at vaerdien ikke kommer fra at bruge en “smartere” model. Den kommer fra at strukturere interaktionen mellem agenter med deterministisk kontrollogik. Kvalitetsforbedringen er et resultat af arkitekturen, ikke af modellens evner alene.

Claudex er open source og tilgaengeligt pa GitHub.