Ydelser Om os Cases Indsigter FAQ Kontakt EN
Nordisk smedescene — Brokk & Sindre hero-billede

RAG-system til AI-drevet bogproduktion

Eget projekt

Kunde
Eget projekt
Udfordring
Jeg ville skrive en fagbog baseret på 40+ kildeværker. Manuel research tog for lang tid — og AI-modeller hallucinerede uden adgang til kilderne.
Resultater
  • 144+ kildechunks indekseret med kontekstuelle embeddings
  • Fuld sporbarhed: hvert citat kan spores tilbage til kilden
  • Agent-team med 4 specialiserede roller per kapitel
  • Automatisk overlap-kontrol sikrer variation på tværs af kapitler

Problemet med AI og lange tekster

Jeg var i gang med en fagbog der trækker på over 40 kildeværker — fra arkæologi og historie til moderne forskning. Problemet var simpelt: uden adgang til kilderne hallucinerer AI-modeller. Og med 40+ bøger var manuel research for langsomt.

Jeg havde brug for et system der kunne finde de rigtige passager på tværs af alle kilder, holde styr på hvad der allerede var brugt, og sikre at hvert kapitel var baseret på reel viden — ikke opdigtede fakta. Løsningen var RAG (Retrieval-Augmented Generation): en teknik der kombinerer AI-sprogmodeller med præcis søgning i egne dokumenter.

SurrealDB 3.0 som alt-i-én vidensbase

Jeg valgte SurrealDB 3.0 som database. Det er en multi-model database der kombinerer relationer, dokumenter, graf-queries og native vector search i én. Det betyder at jeg kan lave semantisk søgning, traverse relationer mellem kilder og kapitler, og joine med metadata — alt i én query.

Konkret: en chunk fra en kildebog er forbundet via graf-relationer til de kapitler der bruger den, med noter om hvordan den bruges. Det giver fuld sporbarhed og gør overlap-analyse triviel.

  • SurrealDB 3.0 med HNSW vector indeks (1024 dimensioner, cosine similarity)
  • pplx-embed til kontekstuelle embeddings med late chunking
  • Claude Code agent-team med researcher, forfatter, kvalitetsvogter og kritisk læser
  • SurrealQL graf-queries til kildesporbarhed og overlap-kontrol

Hvorfor pplx-embed og late chunking

De fleste embedding-modeller behandler hver tekstblok isoleret. Hvis en passage starter med “han fortsatte med at…” mister man konteksten om hvem “han” er. pplx-embed med late chunking løser det: hele dokumentet kører gennem modellen først, og chunking sker bagefter. Hver embedding beholder kontekst fra det fulde dokument.

I praksis betyder det markant bedre søgeresultater — især i kildemateriale med mange krydsreferencer og pronominer.

Hvad systemet gør i dag

Systemet kører som en integreret del af skriveprocessen. Når et kapitel skal skrives, researcher en agent automatisk i alle 40+ kilder, en anden skriver baseret på de fundne passager, og en tredje tjekker at alle fakta kan spores til en kilde. En fjerde agent læser det hele som en redaktør.

Overlap-kontrollen sikrer at ingen kilde bruges på samme måde i to kapitler. Bogen er under produktion, og hvert kapitel er baseret på verificerbare kilder — ikke AI-gætværk.

Kontakt mig

Har du noget AI skal løse? Skriv til mig.

Kontakt mig