RAG-system til AI-drevet bogproduktion

Problemet med AI og lange tekster

Jeg var i gang med en fagbog der trækker på over 40 kildeværker — fra arkæologi og historie til moderne forskning. Problemet var simpelt: uden adgang til kilderne hallucinerer AI-modeller. Og med 40+ bøger var manuel research for langsomt.

Jeg havde brug for et system der kunne finde de rigtige passager på tværs af alle kilder, holde styr på hvad der allerede var brugt, og sikre at hvert kapitel var baseret på reel viden — ikke opdigtede fakta. Løsningen var RAG (Retrieval-Augmented Generation): en teknik der kombinerer AI-sprogmodeller med præcis søgning i egne dokumenter.

SurrealDB 3.0 som alt-i-én vidensbase

Jeg valgte SurrealDB 3.0 som database. Det er en multi-model database der kombinerer relationer, dokumenter, graf-queries og native vector search i én. Det betyder at jeg kan lave semantisk søgning, traverse relationer mellem kilder og kapitler, og joine med metadata — alt i én query.

Konkret: en chunk fra en kildebog er forbundet via graf-relationer til de kapitler der bruger den, med noter om hvordan den bruges. Det giver fuld sporbarhed og gør overlap-analyse triviel.

SurrealDB 3.0 med HNSW vector indeks (1024 dimensioner, cosine similarity)
pplx-embed til kontekstuelle embeddings med late chunking
Claude Code agent-team med researcher, forfatter, kvalitetsvogter og kritisk læser
SurrealQL graf-queries til kildesporbarhed og overlap-kontrol

Hvorfor pplx-embed og late chunking

De fleste embedding-modeller behandler hver tekstblok isoleret. Hvis en passage starter med “han fortsatte med at…” mister man konteksten om hvem “han” er. pplx-embed med late chunking løser det: hele dokumentet kører gennem modellen først, og chunking sker bagefter. Hver embedding beholder kontekst fra det fulde dokument.

I praksis betyder det markant bedre søgeresultater — især i kildemateriale med mange krydsreferencer og pronominer.

Hvad systemet gør i dag

Systemet kører som en integreret del af skriveprocessen. Når et kapitel skal skrives, researcher en agent automatisk i alle 40+ kilder, en anden skriver baseret på de fundne passager, og en tredje tjekker at alle fakta kan spores til en kilde. En fjerde agent læser det hele som en redaktør.

Overlap-kontrollen sikrer at ingen kilde bruges på samme måde i to kapitler. Bogen er under produktion, og hvert kapitel er baseret på verificerbare kilder — ikke AI-gætværk.

RAG-system til AI-drevet bogproduktion

Problemet med AI og lange tekster

SurrealDB 3.0 som alt-i-én vidensbase

Hvorfor pplx-embed og late chunking

Hvad systemet gør i dag

Relaterede cases

AI-agenter der læser dine blodprøver

Hjemmeside med Claude Code som CMS

MCP-servere til danske offentlige data

Kontakt mig