Insikt
SLM-kaskader for dokumentfloden on-premises
Sa kombinerar du sma sprakmodeller i ett stegvis dokumentflode som minskar latenser och GPU-belastning utan att tappa kontrollen.
Varfor dokumentarbete ar ett av de basta omradena att borja med SLM
Manga satsningar pa intern AI borjar med en stor generell modell eftersom den ser stark ut i en demo. Sedan kommer det forsta verkliga arbetsflodet: leverantorsavtal, underhallsrapporter, kvalitetsprotokoll, fakturor eller HR-formular. Da skiftar problemet fran oppet resonemang till hogvolymshantering av repetitiva dokument. Och just dar ar sma sprakmodeller och kompakta uppgiftsmodeller ofta mer praktiska an en strategi dar allt skickas till samma stora modell. Inmatningen aterkommer i liknande former, utdata kan begransas och affarsvardet bygger mer pa genomstromning, konsekvens och disciplinerad eskalering an pa bred generativ kapacitet.
En kaskadarkitektur utnyttjar detta. I stallet for att skicka varje sida till den storsta modell som finns tillganglig delar man upp arbetsflodet i steg och ger varje steg till den minsta komponent som kan losa uppgiften tillrackligt tillforlitligt. OCR extraherar texten. En liten klassificerare avgor dokumenttyp. En mindre sprakmodell extraherar strukturerade falt eller skapar en sammanfattning av en bestamd sektion. Regler och schemavalidering fangar upp uppenbara fel. Bara de oklara fallen skickas vidare till en storre modell eller en manuell granskare. Resultatet brukar bli kortare svarstider, battre ko-beteende och betydligt mindre tryck pa delade GPU-resurser.
Designa kaskaden efter arbetssteg, inte efter organisationens grancer
De mest robusta dokumentflodena byggs som en sekvens av tydliga beslut. Ett praktiskt monster bestar av fem steg. Forst kommer preprocessing: normalisering av skannade dokument, sprakdetektion, borttagning av tomma sidor och OCR med verktyg som Tesseract, PaddleOCR eller en annan godkand motor. Sedan avgor en kompakt klassificerare om dokumentet ar en faktura, en servicerapport, en sakerhetsinstruktion eller nagot okant. I tredje steget extraherar en SLM falt eller producerar en strukturerad sammanfattning enligt ett fast schema. Fjarde steget ar affarsregler och validering. Femte steget ar eskalering till en storre modell eller manuell granskning for dokument med lag tillit eller hog processrisk.
Den har stegvisa designen ar viktig eftersom den forhindrar att ett enda modellanrop far ansvara for OCR-upprensning, semantisk tolkning, policybedomning och slutlig formulering samtidigt. Nar allt bakas in i en enda prompt blir felsokning svart. Om extraktionen misslyckas vet ingen om orsaken ligger i dalig skanning, fel dokumentklass, otillrackligt sammanhang eller hallucinerad outputstruktur. En kaskad gor fellagen synliga. Och det ar just den synligheten som gor systemet forbattrbart over tid.
Den passar ocksa val for on-prem-drift. Klassificering och extraktion kan ofta koras pa CPU-vanliga modeller eller mindre GPU:er via llama.cpp, vLLM eller Text Generation Inference, beroende pa vilket servingmonster organisationen anvander. Den storre resonemangsmodellen behover da bara aktiveras vid undantag, inte som standardlagret for all trafik.
En referensarkitektur som fungerar i verklig drift
For manga verksamheter ser en hallbar produktionsdesign ut sa har: dokument kommer in via en meddelandebuss eller en saker filintagstjanst, metadata skrivs till en arbetsko och originalfilen lagras i en intern object store. En preprocessing-worker skapar sidbilder och OCR-text. Klassificeraren markerar dokumenttyp och tillitsniva. Den nivan styr vilken extraktionsprompt och vilket schema som ska anvandas. SLM returnerar JSON, inte fri text, och JSON valideras innan nagot skickas vidare till verksamhetssystemen. Om valideringen misslyckas forsoker man igen med en fallback-prompt eller eskalerar dokumentet.
Stodkomponenterna ar mer avgorande an manga tror. En schemavaliderare hindrar felaktig output fran att na nedstromssystem. Ett promptregister gor att instruktioner kan versionshanteras i stallet for att gomas i applikationskod. Ett retrieval-lager kan lagga till kundspecifika begrepp, godkanda faltdefinitioner eller kataloger over kontraktsklausuler nar det verkligen behovs, men retrieval bor hallas smalt. I dokumentarbete brukar bred retrieval skapa mer brus an nytta. Precision ar viktigare an mangd.
En annan praktisk larom ar att modellen inte ska tvingas ateruppbygga layout om strukturen kan bevaras tidigare i kedjan. Tabelligenkanning, key-value-parning och sidsegmentering ger ofta storre kvalitetsvinster an att byta till en dyrare modell. I manga faktura- och rapportfloden kommer det stora klivet av battre preprocessing och tydligare schema, inte av fler parametrar.
Eskaleringen ar den verkliga kvalitetsmotorn
Om en kaskad ska fungera maste eskaleringslogiken vara genomtankt. Om troskeln satts for lagt blir den stora modellen snabbt standard och ekonomin faller samman. Om troskeln satts for hogt laggs resultat med for dalig kvalitet in i affarssystemen. Bra policys bygger pa flera signaler samtidigt: sakerheten i dokumentklassificeringen, hur kompletta falt ar, resultatet fran schemavalidering, likhet med kanda mallar och hur kanslig den nedstroms processen ar. Ett saknat enhetspris i en intern anteckning ar en sak. En saknad doseringsinstruktion i ett medicinskt dokument ar nagot helt annat.
Ett starkt arbetssatt ar att skilja mellan semantisk osakerhet och processrisk. Semantisk osakerhet betyder att modellen inte riktigt forstar vad dokumentet sager. Processrisk betyder att innehallet kanske ar tydligt, men att konsekvensen av ett fel ar stor. Den skillnaden ar viktig eftersom vissa dokument ska eskaleras aven nar modellen verkar saker. Kontraktsklausuler som andrar ansvar, leverantorsvillkor som kan blockera betalning och kvalitetsavvikelser kopplade till reglerad produktion ar tydliga exempel.
Manuell granskning bor heller inte ses som en odefinierad reservutgang. Den ar en del av arkitekturen. Granskningsvyer bor visa originalutdraget, de extraherade falten, indikationer pa osakerhet och den exakta orsaken till eskalering. Det ar den informationen som senare kan anvandas for promptforbattringar, battre dokumentmallar eller ny traningsdata for klassificeraren.
Mat genomstromning, inte bara korrekthet
Manga team stannar vid att mata extraktionsprecision. Det racker inte. I dokumentfloden ar det mer vardefullt att folja straight-through processing, granskarens korrigeringsgrad, genomsnittlig handlaggningstid, GPU-minuter per tusen dokument och eskaleringsfordelning per dokumenttyp. De talen visar om kaskaden verkligen minskar arbetsbelastningen eller bara flyttar runt komplexiteten. Ett flode som ar 96 procent korrekt men skickar halften av dokumenten till manuell granskning kan fortfarande vara for dyrt att driva i stor skala.
Det finns ocksa nagra vanliga misstag att undvika. Det forsta ar att hoppa over dokumentnormalisering och hoppas att modellen ska kompensera for daliga skanningar. Det andra ar att tillata fritext nar nedstromssystemen egentligen kraver strukturerade varder. Det tredje ar att blanda for manga dokumentfamiljer i en och samma generiska prompt. Det fjarde ar att inte versionshantera promptar, validatorer och extraktionsscheman. I produktion ar dessa tillgangar en del av systemet och bor behandlas med samma disciplin som kod.
Nar den designas ratt ar en SLM-kaskad ingen kompromiss. Den ar ofta den mest praktiska arkitekturen for on-prem dokumentoperationer eftersom den matchar berakningskostnaden mot uppgiftens faktiska komplexitet. Vinsten ligger inte i att en liten modell ersatter en stor overallt. Vinsten ligger i att den stora modellen bara anvands nar tvetydigheten verkligen motiverar det.