
Επισκόπηση της εφαρμογής RL: Στο βήμα επανάληψης n + 1, η πολιτική NN προτείνει μια δράση ελέγχου υπό τη μορφή του συστήματος Hamiltonian , το περιβάλλον κατάρτισης την προτεινόμενη ενέργεια και αξιολογεί η εξίσωση Schrödinger κάτω από μια θορυβώδη υλοποίηση για την χρονική διάρκεια για να αποκτήσει μια νέα μοναδιαία πύλη και υπολογίζει τη συναφή συνάρτηση κόστους, και οι δύο τροφοδοτούνται σε έναν παράγοντα RL. Οι πολιτικές NN και η τιμή NN του πράκτορα RL ενημερώνονται από κοινού με βάση την τροχιά της προσομοιωμένης μοναδιαίας πύλης, ελέγχου και συναφούς κόστους ελέγχου𝐻̂ 𝑛 + 1𝐻̂ 𝑛 + 1+ Δ 𝐻̂ 𝑛 + 1△ 𝑡𝑈𝑛 + 1
No comments:
Post a Comment