Učenie zosilňovaním pre pristátie na pohybujúce sa platformy
Pristátie bezpilotných lietadiel
Pristátie bezpilotných lietadiel (UAV) na pohybujúce sa platformy – od autodopravníkov cez paluby lodí až po mobilné roboty – predstavuje komplexnú úlohu s priesečníkom percepcie, predikcie a riadenia. Učenie zosilňovaním (Reinforcement Learning, RL) ponúka sľubnú alternatívu k explicitnému návrhu regulátorov, pretože dokáže optimalizovať rozhodovanie v prostredí s neúplnou informáciou, stochastikou vetra a nelineárnymi obmedzeniami aktuátorov. Cieľom je spoľahlivé a energeticky efektívne dosadnutie pri minimalizácii preťažení, času manévru a rizika odtrhnutia kontaktu po dotyku (touchdown & securing).
Formálne vymedzenie úlohy a model prostredia
Úlohu modelujeme ako (čiastočne) pozorovateľný Markovov rozhodovací proces (POMDP) s komponentmi (S, A, T, R, O, \u03B3):
- Stavy S: poloha a rýchlosť UAV v súradnicovom systéme platformy, orientácia (Euler/kvaterniony), stav vetra, odhad polohy a rýchlosti platformy, stav batérie a teplôt, indikátory saturácie aktuátorov.
- Akcie A: príkazy ťahov motorov, respektíve referencie thrust/roll/pitch/yaw-rate alebo $u=[T, \omega_x, \omega_y, \omega_z]$.
- Prechod T: nelineárna dynamika UAV + kontaktný model pri dosadnutí; platforma sa pohybuje podľa deterministického (napr. sinusoidy) alebo stochastického procesu (náhodná prechádzka, more).
- Odmeny R: kombinácia dosiahnutia cieľa (pristátie v tolerancii), penalizácie vzdialenosti a relatívnej rýchlosti, penalizácie ovládania a preťaženia, plus sparse terminálna odmena za stabilné ukotvenie.
- Pozorovania O: multi-senzorová fúzia: vizuálny marker/feature tracking, LiDAR výška, GNSS/INS, UWB; zahŕňa aj neistoty a výpadky.
- Diskont \u03B3: volený podľa kompromisu medzi rýchlosťou dosadnutia a bezpečnosťou.
Priestor stavov a akcií, bezpečnostné obmedzenia
Prirodzené je definovať stav v relatívnom rámci platformy: $x_r, y_r, z_r, v_r, \dot{\psi}_r$, šikmý vietor a odhad trenia pri kontakte. Akčný priestor je vhodné ohraničiť fyzikou: $T \in [T_{\min}, T_{\max}]$, rýchlosti náklonov s limitmi slew-rate. Bezpečnostné obmedzenia implementujeme ako tvrdé limity (výška < hmax, náklon < \u03B8max, vzdialenosť zóny ľudí > dsafe) a ako penalizácie v odmenách. Pre safe RL je užitočná formulácia CMDP s Lagrangeovým relaxačným členom pre porušenia.
Percepcia cieľa a odhad stavu
Kritická je robustná lokalizácia platformy v reálnom čase:
- Vizuálne metódy: ArUco/AprilTag markery pre prototypy; pre produkciu semantická detekcia hraníc plošiny, optický tok, stereo/monokulárne SLAM s adaptívnou expozíciou a HDR.
- Range senzory: LiDAR/ToF pre metricky spoľahlivé výšky a skosenie hrán; radar pre nepriaznivé počasie.
- Fúzia a predikcia: UKF/MHE s exteroceptívnymi odčítaniami a autoregresnými modelmi pohybu platformy (napr. constant acceleration + wave spectra).
- Latency compensation: časová synchronizácia a backward-forward predikcia na vyrovnanie oneskorení kamery a autopilota.
Konštrukcia odmeny a tvarovanie (reward shaping)
Odmena by mala viesť k bezpečnému a hladkému pristátiu bez lokálnych optimum:
- Blízkosť cieľa: $r_d = -\alpha \|p_r\|_2 – \beta \|v_r\|_2$ s Huber stratou pre robustnosť.
- Orientácia/vertikalita: penalizácia veľkých náklonov a yaw chyby vzhľadom na smer pohybu plošiny.
- Energia a hladkosť: $r_u = -\lambda \| \Delta u \|_2$ na redukciu oscilácií.
- Kontakt a stabilizácia: terminálna odmena za dotyk v tolerancii + bonusy za udržanie > thold bez prekročenia limitov.
- Bezpečnostné sankcie: tvrdé tresty za porušenie no-go zón, prevrátenie, saturáciu dlhšie než tsat.
Algoritmy RL: výber a porovnanie
Kontinuálny akčný priestor favorizuje off-policy metódy so stabilnou konvergenciou:
- DDPG/TD3: dobré pre jemné riadenie; TD3 zmierňuje chyby hodnotenia dvojitým kritikom a target policy smoothing.
- SAC: maximalizácia entropie zlepšuje prieskum a robustnosť, často dosahuje rýchlejšiu a stabilnejšiu konvergenciu.
- PPO: silná on-policy voľba, najmä s rekurenčnými sieťami (LSTM/GRU) pre POMDP; potrebuje viac vzoriek.
- Model-based RL (MBPO/MPC-RL): učený dynamický model + krátky plánovač (NMPC) na priamu penalizáciu porušení a lepšie sim2real.
- Hierarchické RL: vysoká vrstva pre approach & align, nízka pre final descent & contact.
Kurikulárny tréning a doménová randomizácia
Prislabý prieskum v zložitom priestore rieši postupné zvyšovanie náročnosti:
- Curriculum: začať stacionárnou plošinou, následne nízke rýchlosti a periodické pohyby, pridať náhodné bočné zrýchlenia, vlny, výpadky senzorov.
- Domain Randomization: variácia hmotnosti, koeficientov ťahu, oneskorení, šumu; textúry, osvetlenie a poveternostné efekty pre vizuálne siete.
- Automatic Domain Progression: adaptívne zvyšovanie variance parametrov podľa výkonnosti agenta.
Učenie z demonštrácií a offline RL
Preklenutie sparse reward a urýchlenie tréningu:
- Behavior Cloning (BC): inicializácia politiky z expertnej teleoperácie alebo z MPC trajektórií.
- DAgger: iteratívne dopĺňanie dát z experta tam, kde politika zlyháva.
- Offline RL (CQL/IQL): využitie veľkých záznamov reálnych pokusov bez rizikového online exploration; dôležité je pokrytie stavov blízkych kritickým zónam.
Simulátor, kontaktná fyzika a validácia
Verizmus kontaktu je kľúčový pre bezpečný prenos do reality:
- Kontaktné modely: pružno-plastické modely s Coulombovým trením pre nožičky/pristávací hák, model odskoku a tlmenia.
- Fluidné poruchy: stochastické spektrá vetra, rotor downwash interakcia s platformou a zemou (ground effect).
- Validácia simulátora: porovnanie s meraniami zo skúšobných dosadnutí (zrýchlenia, kontaktová sila, sklz po dotyku).
Sim2Real: prenos politiky do praxe
Stratégie znižovania medzery medzi simuláciou a realitou:
- Randomizácia + system identification: pre-flight identifikácia parametrov a residual learning na doladenie politiky.
- Sensor & actuator modeling: kvantizácia PWM, saturácie prúdov ESC, latencie kamery a IMU.
- Shielding a supervisors: formálne overený bezpečnostný filtr (control barrier functions, reachability) bráni zakázaným stavom.
- Hybridné riadenie: RL politika generuje referencie, nízkoúrovňový INDI/NMPC stabilizuje a zabezpečuje dodržanie limitov.
Bezpečnosť a formálne garancie
RL politika musí byť obalená mechanizmami s preukázateľným správaním:
- Constrained RL: CMDP s Lagrange multiplikátormi, alternatívne Lyapunov-based odmeny.
- Barrier Functions: on-line riešenie QP, ktoré minimálne upraví akcie RL, aby sa zachovali bezpečnostné invarianty.
- Reachability Analysis: pre-check manévru v krátkom horizonte; pri riziku porušenia sa politika núdzovo preemptuje.
- Fail-safe režimy: odskok a druhý pokus, go-around, alebo návrat do loiter s rekalibráciou odhadu platformy.
Multiagentné scenáre a roje
Pri flotile UAV alebo viacerých mobilných cieľoch je potrebná koordinácia:
- Decentralizované MARL: centralized training, decentralized execution (CTDE) s kritikmi využívajúcimi globálne informácie.
- Konfliktné obmedzenia: vyhýbanie sa kolíziám nad platformou, rozdelenie časových slotov, komunikačné obmedzenia a výpadky.
- Zdieľanie učenia: federované RL medzi stavbami/plavidlami s rozdielnymi podmienkami, ochrana citlivých dát.
Integrácia s autopilotom a architektúra softvéru
Praktická integrácia vyžaduje jasné rozhrania:
- Vrstva vkladu politiky: ROS 2 uzol publikujúci na témach setpoint_raw s garantovanou frekvenciou a watchdog mechanizmom.
- Prioritizácia riadenia: počas finálnej fázy pristátia sa potláča autonómna navigácia a aktivuje sa landing mode s vyššími váhami pre z-vis.
- Telemetria a záznam: vysokofrekvenčný log (IMU, vizuálne feature count, latency, rozhodnutia politiky) pre následnú diagnostiku a zlepšovanie.
Metodika hodnotenia a metriky
Objektívne porovnanie politík je zásadné:
- Miera úspešnosti: podiel bezpečných pristátí v rámci tolerancií polohy & orientácie.
- Presnosť a komfort: RMS laterálnej chyby pri dotyku, maximálne preťaženie, var spúšťania anti-bounce kontrol.
- Čas a energia: trvanie manévru, spotreba energie, počet korekčných manévrov.
- Robustnosť: degradácia výkonu pri výpadkoch senzorov, náhlych poryvoch a zmenách povrchu plošiny.
- Ablácie: vplyv jednotlivých zložiek odmeny, randomizácií a architektúr percepcie.
Prípadová štúdia: pristátie na palube plavidla
Scenár: kvadrokoptéra pristáva na 1.5×1.5 m plošine plavidla s bočným zrýchlením do 0.3 g a náhodným kývaním (roll/pitch ±6°). Politika SAC je trénovaná s curriculum od stacionárnej paluby po plné spektrum vĺn, s doménovou randomizáciou hmotnosti ±15 % a odhadovaného oneskorenia kamery 60–120 ms. Bezpečnostný shield s CBF garantuje výšku > 0.5 m pri laterálnej chybe > 0.8 m a limituje náklon na 20°. V terénnych skúškach je dosiahnutá 92 % miera úspešných pristátí, medián laterálnej chyby 12 cm a maximálne vertikálne preťaženie 1.8 g, pričom pri sea state > 3 politika automaticky volí go-around.
Hardvérové aspekty: podvozok a zabezpečenie kontaktu
Úspešné pristátie nekončí dotykom. Mechanické riešenia (magnetické/aktívne uchytenie, hák s vodiacimi hranami, pasívne tlmenie) výrazne rozširujú pracovnú obálku. RL politika môže ako súčasť akcií ovládať stav zámku (lock/unlock) a výšku dotyku s ohľadom na citlivosť spúšťača.
Prevádzkové a regulačné hľadiská
Pristátia na pohybujúce sa platformy často prebiehajú v zložitých priestoroch a v blízkosti osôb. Nevyhnutné sú SOP, geofencing, detekcia osôb v bezpečnostnom perimetri, lost-link postupy a logovanie pre audit. Pre kritické misie je vhodné formálne posúdiť riziko (FMEA/FTA) a zaviesť dvojkanálové dohliadanie politiky (runtime assurance).
Best practices pre implementáciu
- Začnite s hierarchiou: plánovanie priblíženia (MPC) + RL pre finálne dosadnutie.
- Investujte do dát: kvalitná anotácia kontaktov a zlyhaní, vyvážené scenáre, hard negative mining.
- Stavajte na robustnej percepcii: redundantné senzory, vizuálne aj range kanály.
- Trénujte s sim2real v hlave: randomizácie, verifikácia fyziky, residual adapters v teréne.
- Bezpečnostný obal je povinný: CBF/Reachability + watchdog, jasný go-around protokol.
- Merajte a publikujte: jednotné metriky, ablačné štúdie, porovnanie s baseline (napr. ručne ladený NMPC).
Učenie zosilňovaním posúva hranice autonómneho pristávania na pohybujúce sa platformy tým, že priamo optimalizuje správanie v komplexných a neistých podmienkach. Kľúčom k nasadeniu je kombinácia: silná percepcia a odhad, starostlivo navrhnutá odmena, curriculum a doménová randomizácia, bezpečnostné shieldy a hybridné riadenie s tradičnými regulátormi. S rastúcou zrelosťou model-based RL, offline RL a multiagentných techník možno očakávať širšie nasadenie v logistike, námornej prevádzke i v rojných scenároch, kde sa autonómne systémy budú spoľahlivo pripájať k mobilným infraštruktúram v reálnom svete.