Problemet med AI og lange tekster
Jeg var i gang med en fagbog der trækker på over 40 kildeværker — fra arkæologi og historie til moderne forskning. Problemet var simpelt: uden adgang til kilderne hallucinerer AI-modeller. Og med 40+ bøger var manuel research for langsomt.
Jeg havde brug for et system der kunne finde de rigtige passager på tværs af alle kilder, holde styr på hvad der allerede var brugt, og sikre at hvert kapitel var baseret på reel viden — ikke opdigtede fakta. Løsningen var RAG (Retrieval-Augmented Generation): en teknik der kombinerer AI-sprogmodeller med præcis søgning i egne dokumenter.
SurrealDB 3.0 som alt-i-én vidensbase
Jeg valgte SurrealDB 3.0 som database. Det er en multi-model database der kombinerer relationer, dokumenter, graf-queries og native vector search i én. Det betyder at jeg kan lave semantisk søgning, traverse relationer mellem kilder og kapitler, og joine med metadata — alt i én query.
Konkret: en chunk fra en kildebog er forbundet via graf-relationer til de kapitler der bruger den, med noter om hvordan den bruges. Det giver fuld sporbarhed og gør overlap-analyse triviel.
- SurrealDB 3.0 med HNSW vector indeks (1024 dimensioner, cosine similarity)
- pplx-embed til kontekstuelle embeddings med late chunking
- Claude Code agent-team med researcher, forfatter, kvalitetsvogter og kritisk læser
- SurrealQL graf-queries til kildesporbarhed og overlap-kontrol
Hvorfor pplx-embed og late chunking
De fleste embedding-modeller behandler hver tekstblok isoleret. Hvis en passage starter med “han fortsatte med at…” mister man konteksten om hvem “han” er. pplx-embed med late chunking løser det: hele dokumentet kører gennem modellen først, og chunking sker bagefter. Hver embedding beholder kontekst fra det fulde dokument.
I praksis betyder det markant bedre søgeresultater — især i kildemateriale med mange krydsreferencer og pronominer.
Hvad systemet gør i dag
Systemet kører som en integreret del af skriveprocessen. Når et kapitel skal skrives, researcher en agent automatisk i alle 40+ kilder, en anden skriver baseret på de fundne passager, og en tredje tjekker at alle fakta kan spores til en kilde. En fjerde agent læser det hele som en redaktør.
Overlap-kontrollen sikrer at ingen kilde bruges på samme måde i to kapitler. Bogen er under produktion, og hvert kapitel er baseret på verificerbare kilder — ikke AI-gætværk.