Insikt

Air-gapped MLOps for on-prem AI: sa rullar du ut modeller utan internetaccess

On-Premises AI · MLOps · Data Security · Best Practices · Advanced

En praktisk modell for releasestyrning i reglerade verksamheter som maste trana, validera, godkanna och driftsatta AI-modeller i isolerade miljoer.

Serverrack i ett morkt datacenter som symboliserar saker intern AI-infrastruktur

Air-gapped AI ar inte bara moln-MLOps utan natverkskabel

Manga organisationer marker det forst nar de ska ga till produktion. De bygger en fungerande proof of concept for on-prem AI och forsoker sedan flytta over samma arbetssatt till en isolerad produktionsmiljo. Da uppstar problemen. Paketregister ar inte tillgangliga, modellhamtningar maste granskas, sakerhetsteamet vill se artifact provenance och driftteamet accepterar inte manuella kopieringar eftersom de forstor sporbarheten. I air-gapped miljoer ar modellen bara en del av en kontrollerad leveranskedja. Om kedjan ar svag ar deploymenten svag.

Detta galler sarskilt inom forsvarsindustri, kritisk infrastruktur, sjukvard och tillverkning dar data och inferens maste stanna innanför en skyddad grans. Den viktiga designfragan ar inte bara vilken modell som ska koras. Den verkliga fragan ar hur vikter, promptar, utvarderingsresultat, containerbilder, tokenizers, sakerhetspolicys och rollback-paket ska flyttas over tillitsgranser utan att sporbarheten tappas. Team som ser detta som ett enstaka sakerhetsundantag hamnar ofta i manuella USB-overforingar, akuta speciallosningar och odokumenterade andringar. Team som ser det som ett MLOps-problem bygger i stallet en repeterbar releaseprocess som sakerhet kan godkanna och drift kan forvalta.

Bygg ett releaseflode runt tydliga tillitsgranser

Det mest hallbara monstret ar att dela upp stacken i tre zoner: en uppkopplad ingenjorszon, en forproduktionszon for validering och en helt isolerad produktionszon. Den uppkopplade zonen ar platsen for traning, finjustering, beroendehantering och de forsta benchmark-korningarna. Valideringszonen ska ligga nara produktion men fortfarande vara tillrackligt kontrollerad for sakerhetsgranskning. Produktionszonen tar endast emot signerade releasepaket. Det ar mycket battre an att flytta enstaka filer efter behov, eftersom man skapar en promotionskedja i stallet for en manuell transferceremoni.

Ett releasepaket bor i praktiken innehalla modellartifact, container image-digest, tokenizer-filer, serving-konfiguration, utvarderingsrapport, promptmallar och ett model card som forklarar anvandningsomrade, begransningar och rollback-version. Lagra detta i verktyg som redan ar forankrade hos plattformsteam: en OCI-registry som Harbor for containrar, MLflow eller motsvarande for modellmetadata och en object store som MinIO for oforanderliga artefakter. Sjalva paketet bor signeras med exempelvis Cosign sa att den mottagande miljoen kan verifiera integriteten utan extern internetaccess.

Ett releaseflode behover ocksa en takt. Manadsvisa eller tva veckors promotionsfonster ar lattare att styra an ad hoc-begaran eftersom sakerhetsgranskning, valideringsjobb och underhallsfonster kan planeras. Akuta utskick kommer alltid att finnas, men de ska vara undantag och inte standard.

Valideringsgrindarna maste titta pa mer an precision

I reglerade miljoer ska en modell inte ga vidare bara for att den fick battre resultat pa ett benchmark. Fore promotion behovs grindar som tacker programvarans ursprung, modellens beteende och dess driftbarhet. Miniminivan bor omfatta sarbarhetsskanning av containerbilden, en software bill of materials, checksumkontroll av datapaket for traning och offline-test av att hela inferensstacken kan reproduceras exakt som i produktion. Om teamet inte kan bygga om serving-artefakten fran versionshanterade insignaler ar releasen inte fardig.

Beteendevalideringen maste vara lika disciplinerad. For sprakmodeller innebar det ett fast offline-testset med representativa promptar, adversariala promptar, refusal-kontroller, kontroller av strukturerad output och uppgiftsspecifika acceptanskriterier. En assistent for dokumentgranskning bor till exempel utvarderas pa faltutvinning, schemauppfyllelse och eskaleringsgrad, inte bara allman resonemangskvalitet. En bildmodell som anvands i produktion pa fabriksgolvet bor testas for varierande belysning, kameradrift och tolerans for falska positiva under verkliga forhallanden. Det som ska granskas ar alltsa affarsbeteendet i sitt sammanhang, inte ett abstrakt topplisteresultat.

En enkel regel gor stor skillnad: varje promotionspaket ska kunna besvara fyra granskningsfragor. Vad andrades? Varfor andrades det? Vem godkande det? Hur rullar vi tillbaka? Om de svaren inte foljer med artefakten ar deploymenten fortfarande beroende av muntlig kunskap, och det ar skort.

Deploya med pull, prova i skuggtrafik och hall rollback lokalt

Air-gapped produktionsmiljoer blir stabilare nar de hamtar godkanda artefakter fran en intern sanningskalla i stallet for att ta emot manuella push-andringar. Nar det signerade paketet val importerats till den isolerade registryn bor deployment ske med samma mekanismer som plattformsteam redan litar pa for intern mjukvara, exempelvis GitOps, signerade manifest och promotionsjobb med andringskontroll. Verktygen varierar mellan organisationer, men monster byggda med Argo CD, Flux eller liknande fungerar ofta bra eftersom deklarativt tillstand och revisionshistorik bevaras.

I serving-lagret bor man undvika direkt ersattning och i stallet anvanda stegvis rollout. Blue-green ar ofta tryggast for kritiska inferens-API:er eftersom man kan verifiera halsotillstand, latens och outputformat innan trafik skiftas. Shadow mode ar extra vardefullt for AI eftersom den nya modellen kan koras mot samma inflode som den gamla utan att anvandarna ser resultatet. I ett lakemedelsflode for kvalitetsgranskning kan den nya modellen analysera samma batchdokument som dagens produktion, men det ar fortfarande den befintliga modellen som fattar det skarpa beslutet. Eventuella skillnader granskas innan trafik flyttas.

Rollback maste ocksa vara lokal och omedelbar. Ha alltid minst en tidigare verifierad containerbild, modellartifact och konfigurationsuppsattning inne i den isolerade miljoen. Om rollback kraver att nagon annan exporterar om en gammal version har ni egentligen ingen rollbackprocess. Ni har bara ett nytt releasearende.

Gor air-gapped MLOps till en gemensam plattformsformaga

Organisationer som lyckas overlater inte hela problemet till data scientists eller sakerhet isolerat. De etablerar en gemensam arbetsmodell mellan plattformsingenjorer, ML-ingenjorer, sakerhet och verksamhetsagare. Plattformsteamet ager artifact-vagen, klusterpolicys, register och rollback-automation. ML-teamet ansvarar for utvarderingsset, model cards, prompttillgangar och releaseunderlag. Sakerhet satter regler for signering, importkontroller och godkannandekriterier. Verksamheten definierar vilka trosklar som faktiskt betyder nagot i drift, till exempel tolererad eskaleringsvolym, granskningstid eller antal missade extraktioner.

Ett bra forsta steg ar att standardisera nagra fa saker: ett releasepaketsformat, en promotionschecklista, en signeringsmetod, ett rollbackmonster och en mall for granskningsbevis. Nar det sitter kan ni bygga pa med mer avancerade formagor som offline-driftrapportering, periodisk recertifiering av basmodeller och isolerade retraningsfloden for klassificerad eller sarskilt kanslig data. Resultatet ar kanske inte glamorost, men det ar avgorande: en on-prem AI-miljo som kan utvecklas utan att varje modelluppdatering blir en specialoperation.

Det ar har verklig mognad visar sig inom on-prem AI. Det starkaste teamet ar inte det som springer snabbast i labbmiljo. Det ar det team som kan leverera sakert, upprepat och fullt spårbart nar verkliga sakerhetskrav gor miljoen begransad.

Featured image by Tyler on Unsplash.