Điều khiển tối ưu trực tuyến cho các hệ phi tuyến liên tục
Bài báo này trình bày vấn đề của luật điều khiển tối ưu thích nghi cho các hệ phi tuyến với
nhiễu đầu vào và các tham số chưa biết. Mục tiêu chính là tìm ra luật điều khiển tối ưu thích
nghi dựa trên phương pháp quy hoạch động thích nghi (Adaptive Dynamic Programming
(ADP)), trong đó qui hoạch động thích nghi online (Online Adaptive Dynamic Programming
(OADP)) là giải thuật được phân tích và thiết kế và nó có thể ổn định hệ thống vòng kín. Bên
cạnh đó, các đặc tính hội tụ của thuật toán đề xuất được chỉ ra. Các phân tích lý thuyết và kết
quả mô phỏng chứng minh sự hiệu quả của thuật toán đề xuất.
Bạn đang xem tài liệu "Điều khiển tối ưu trực tuyến cho các hệ phi tuyến liên tục", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Điều khiển tối ưu trực tuyến cho các hệ phi tuyến liên tục
77TẠP CHÍ KHOA HỌC, Số 34, tháng 05 năm 2019 ĐIỀU KHIỂN TỐI ƯU TRỰC TUYẾN CHO CÁC HỆ PHI TUYẾN LIÊN TỤC Vũ Văn Tú Khoa Điện - Cơ Email: tuvv@dhhp.edu.vn Nguyễn Thị Thu Hiền Khoa Điện-Cơ Email: hienntt85@dhhp.edu.vn Ngày nhận bài: 18/3/2019 Ngày PB đánh giá: 27/4/2019 Ngày duyệt đăng: 29/4/2019 TÓM TẮT Bài báo này trình bày vấn đề của luật điều khiển tối ưu thích nghi cho các hệ phi tuyến với nhiễu đầu vào và các tham số chưa biết. Mục tiêu chính là tìm ra luật điều khiển tối ưu thích nghi dựa trên phương pháp quy hoạch động thích nghi (Adaptive Dynamic Programming (ADP)), trong đó qui hoạch động thích nghi online (Online Adaptive Dynamic Programming (OADP)) là giải thuật được phân tích và thiết kế và nó có thể ổn định hệ thống vòng kín. Bên cạnh đó, các đặc tính hội tụ của thuật toán đề xuất được chỉ ra. Các phân tích lý thuyết và kết quả mô phỏng chứng minh sự hiệu quả của thuật toán đề xuất. Từ khóa: Xấp xỉ quy hoạch động, điều khiển tối ưu thích nghi, qui hoạch động thích nghi online. ONLINE OPTIMAL CONTROL OF CONTINUOUS-TIME AFFINE NONLINEAR SYSTEMS ABTRACT This paper presents the problem of adaptive optimal control law for nonlinear systems with input disturbance and unknown parameters. The main objective is to find an adaptive optimal control law based on the adaptive dynamic programming (ADP) method, in which Online Adaptive Dynamic Programming (OADP) is an analyzed and designed algorithm and it is able to stabilize the closed-loop system. Besides, the convergence properties of proposed algorithm is pointed out. The theoretical analysis and simulation results demonstrate the performance of the proposed algorithm. Keywords: Adaptive dynamic programming (ADP), adaptive optimal control law, Online Adaptive Dynamic Programming (OADP). 78 TRƯỜNG ĐẠI HỌC HẢI PHÒNG 1. ĐẶT VẤN ĐỀ Vấn đề của điều khiển tối ưu cho những hệ phi tuyến động liên tục được nghiên cứu sâu trong vài thập kỷ. Một thách thức cốt lõi của vấn đề điều khiển tối ưu phi tuyến là nó thường rơi vào giải quyết phương trình toán HJB. Người ta biết rằng phương trình HJB thực ra là một phương trình vi phân từng phần, rất khó khăn hoặc không thể nào giải quyết được bởi phương pháp phân tích. Để giải quyết vấn đề này, chúng ta pháp triển một chương trình xấp xỉ điều khiển tối ưu cho những hệ phi tuyến liên tục affine sử dụng phương pháp thích nghi quy hoạch động. 2. NỘI DUNG NGHIÊN CỨU 2.1. Hệ chuyển mạch phi tuyến có nhiễu đầu vào Xét hệ chuyển mạch có nhiễu đầu vào được xác định bởi phương trình sau: ( ) ( ) ( )( ),i ix f x g x u x t= + + ∆ (1) Trong đó ( ) nxx t R∈Ω ∈ là vector trạng thái và đo được, ( ) muu t R∈Ω ∈ là tín hiệu điều khiển. Hàm ) { }: 0, Ù 1,2,...,Mσ +∞ → = là hàm chọn chế độ của hệ, đã biết theo thời gian, liên tục trên từng khoảng, và M là số lượng hệ con. ( )if x là các vector hàm chưa biết và thỏa mãn ( )0 0if = . ( )ig x là các vector hàm đã biết và thỏa mãn: ( )min maxG ig x G≤ ≤ . ( ),x t∆ là nhiễu, bất định hệ thống không xác định được. Giả sử 1: Tồn tại hàm đã biết thỏa mãn: Với hệ (1), ta xét hàm mục tiêu sau: ( ) ( )( ) ( ) ( )( ), , t J x t u t r x u dτ τ τ ∞ = ∫ (2) Trong đó ( ) ( )( ), T Tr x u x Qx u Ruτ τ = + và các ma trận 0;TQ Q= > 0TR R= > Mục tiêu là tìm ra bộ điều khiển u và xác định được hàm chặn trên ( )K u thỏa mãn ( )K u M≤ , để hệ (1) là ổn định bền và hàm mục tiêu (2) phải thỏa mãn: ( ) ( ),J x u K u≤ Định nghĩa: Hàm ( )K u là chặn trên của hàm mục tiêu (1) nên nó có tên là hàm đảm bảo chi phí. Hơn thế nữa, tín hiệu điều khiển *u với ( )* arg min uu u K u ∈Ω = sẽ được gọi là luật điều khiển tối ưu chi phí. (Theo nguyên lý tối ưu Bellman) Xét hệ không nhiễu sau: ( ) ( )i ix f x g x u= + (3) Và xét hàm mục tiêu của ( )3 được định nghĩa như sau [1]: ( ) ( )( ) ( ) ( )( ) ( )( )21 , , t J x t u t r x u x dτ τ λ ρ τ ∞ = + ∫ (4) 79TẠP CHÍ KHOA HỌC, Số 34, tháng 05 năm 2019 Theo vamvoudakis, K.G and Lewis, F.L (2010), hàm mục tiêu của hệ thống khác mô hình toán của hệ phi tuyến. Ở phần dưới tác giả chứng minh ( ) ( )( )1 ,J x t u t là hàm mục tiêu của hệ phi tuyến có nhiễu (1) và từ đó chứng minh *u là tín hiệu điều khiển của hệ phi tuyến có nhiễu (1). Ta chứng minh rằng ( ) ( )( )1 ,J x t u t với Rλ ≥ sẽ là một trong những hàm đảm bảo chi phí của hệ (1). Từ việc định nghĩa ( ) ( )( ),J x t u t trong (2) và ( ) ( )( )1 ,J x t u t trong (4), ta có thể dễ dàng thấy ngay: ( ) ( )( ) ( ) ( )( )1, ,J x t u t J x t u t≤ (5) Ta thấy rằng trong biểu thức của 1(x(t),u(t))J có thêm thành phần ( )( ) 2 xλ ρ là một hàm dương ( 20 ( ( )) 0R xλ λ ρ≥ > ⇒ > ) do đó ( ) ( )( ) ( ) ( )( )( ) ( ) ( )( ) ( ) ( )( ) ( )( ) 1 2 , , , , t t J x t u t r x u d J x t u t r x u x d τ τ τ τ τ λ ρ τ ∞ ∞ = ≤ = + ∫ ∫ Đặt ( ) ( ) ( )( )* 1min , uu V t J x t u t ∈Ω = , ta có: ( ) ( ) ( )( ) ( )( )2* min , uu t V t r x u x dτ τ λ ρ τ ∞ ∈Ω = + ∫ (6) ( ) ( ) ( )( ) ( )( ) ( ) ( )( ) ( )( ) 2* 2 min , min , u u t t u t u t t V t r x u x d r x u x d τ τ λ ρ τ τ τ λ ρ τ +∆ ∈Ω ∞ ∈Ω +∆ = + + + ∫ ∫ (7) (8) ( ) ( )( ) ( )( ) ( ) ( )* *21 min , 0 u t t u t V t t V t r x u x d t t τ τ λ ρ τ +∆ ∈Ω + ∆ − + + = ∆ ∆ ∫ (9) Theo định nghĩa của đạo hàm của hàm số và theo nguyên lý Bellman thì hàm mục tiêu là giá trị nhỏ nhất của hàm chi phí và để tối ưu thì giá trị nhỏ nhất của hàm mục tiêu phải bằng không. Cho 0t +∆ → ta có: ( ) ( )( ) ( )( ) ( ) ( )* *21 min , 0 u t t u t V t t V t r x u x d t t τ τ λ ρ τ +∆ ∈Ω + ∆ − + + = ∆ ∆ ∫ (10) ( ) ( )( ) ( ) ( ) ( ) ( )( )2 *min , 0 u T i iu r x t u t x V f x g x uλρ ∈Ω + + ∇ + = (11) Kí hiệu: x ∂ ∇ = ∂ là đúng cho mọi hàm trong bài báo này. Đặt: ( ) ( ) ( )( ) ( ) ( ) ( ) ( )( )* 2 *, , , T i iH x u V r x t u t x V f x g x uλρ= + + ∇ + (12) ( ) ( ) ( )( ) ( )( ) ( )2* *min , u t t u t V t r x u x d V t tτ τ λ ρ τ +∆ ∈Ω = + + + ∆ ∫ 80 TRƯỜNG ĐẠI HỌC HẢI PHÒNG Ta có thể thấy ngay: ( ) ( )* * *, , min , , 0 uu H x u V H x u V ∈Ω = = (13) ( ) ( )( ) * * * 1 * , , 1 0 2 T i u u H x u V u R g x V u − = ∂ = ⇒ = − ∇ ∂ (14) Theo lý thuyết quy hoạch động lúc này *u là tín hiệu điều khiển của hệ phi tuyến có nhiễu đầu vào. Định lý 1 [1],[2]: Bằng việc sử dụng tín hiệu điều khiển ( ) ( )( )11 2 T iu x R g x V −= − ∇ và chọn ( ) ( ) ( )( ) ( )( )2, t V t r x u x dτ τ λ ρ τ ∞ = + ∫ là hàm Lyapunov, trong đó Rλ ≥ sẽ đảm bảo hệ (1) ổn định. Chứng minh: Đạo hàm của V được xác định theo công thức: ( ) ( ) ( ) ( ) ( )( )( ),T i iV t V f x g x u x t= ∇ + + ∆ Bằng việc sử dụng ( ) ( )( )1 *1 2 T iu x R g x V −= − ∇ , ta có thể suy ra: ( ) ( ) ( )( ) ( ) ( )( ) ( )2 *, ,TiV t r x t u t x g x V x tλρ= − − + ∇ ∆ ( ) ( )2 2 ,T T Tx Qx u Ru x u R x tλρ= − − − − ∆ (15) ( ) ( )( ) ( )( ) ( ) ( )2 , , , ,T TT Tx Qx x u x t R u x t x t R x tλρ= − − − + ∆ + ∆ + ∆ ∆ (16) ( ) ( ) ( )( ) ( )( ) ( )( )2 , , , ,TTTx Qx x x t R x t u x t R u x tλρ= − − − ∆ ∆ − + ∆ + ∆ (17) Với giả sử 1 và Rλ ≥ ta có: ( ) ( ) ( )( ) ( ) ( )22 2,T TV t x Qx x R x t x Qx R xλρ λ ρ≤ − − − ∆ ≤ − − − ( ) TV t x Qx≤ − (18) Do đó, hệ (1) là ổn định bền. Rất khó để giải trực tiếp phương trình HJB (13), do đó, hàm mục tiêu *V của hệ (3) có thể được xấp xỉ bằng mạng RBF trên tập xΩ : ( ) ( ) * TV w x xσ ε= + (19) Theo lý thuyết toán học Xét hàm khả vi liên tục ( )f x được xấp xỉ hàm bằng vector hàm nơron (NN) truyền thẳng một lớp theo công thức: 81TẠP CHÍ KHOA HỌC, Số 34, tháng 05 năm 2019 ( ) ( ) ( ) Tf x W x xϕ ε= + Trong đó W là trọng số NN lý tưởng, ( ) : n nx R Rϕ → ; ( ) xϕ là vector hàm tác động, hn là số lượng nút ở lớp ẩn và ( ) xε là sai số xấp xỉ NN. Khi đó, nếu hệ ( ) ( ){ }: 1,i x iϕ = ∞ là vector cơ sở độc lập hoàn toàn thì ( )f x và đạo hàm của nó: ( ) ( ) ( )T W f x x x x x x ϕ ε∂ ∂ ∂ = + ∂ ∂ ∂ sẽ được xấp xỉ đều. Ngoài ra, sai số ε và đạo hàm của nó sẽ hội tụ đều về 0 khi hn →∞ . Hơn nữa, nếu hn hữu hạn thì ε và x ε∂ ∂ sẽ bị chặn bởi các hằng số dương trong tập đóng. Còn việc luyện mạng nơ ron và tìm ra thông số tác giả lập trình trên phần mềm Matlab. Trong đó ( ) ( ): ; 0 0n Nxσ σ→ = là (NN), N là số neural ẩn, và ( )xε là sai số xấp xỉ do NN, Nw∈ là vector hàm trọng lượng. ( )xσ có thể được chọn sao cho với N →∞ , ta có: ( ) 0xε → và ( ) 0xε∇ → , do đó việc lựa chọn N hữu hạn, ta có thể giả sử: Giả sử 2: ( ) ( ) ( )max max min max max; ; ;x x x w wε ε ε ε σ σ σ≤ ∇ ≤ ∇ ∇ ≤ ∇ ≤ ∇ ≤ Bằng việc kết hợp (13), (14) ta có thể suy ra: ( ) ( ) ( )( ) ( ) ( ) ( ) ( )( )* * * 2 * *, , , 0T i iH x u V r x t u t x V f x g x uλρ= + + ∇ + = (20) ( ) ( ) ( ) ( ) ( ) ( ) ( )2 * * 1 *1 0 4 T T TT i i ix Qx x V f x V g x R g x Vλρ −= + + ∇ − ∇ ∇ = (21) Phương trình (19) có thể dẫn tới: ( )( ) ( )* TV x w xσ ε∇ = ∇ +∇ (22) Sử dụng mạng NN vào phương trình HJB trên ta có: ( ) ( )( ) ( ) ( )( ) ( ) ( ) ( )( ) 2 11 4 TTT NN i TT T T i i e x Qx x x w f x x w g x R g x x w λρ σ σ σ− = + + ∇ − ∇ ∇ (23) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 11 4 T T NN i T TT i i e x Qx x w x f x w x g x R g x x w λρ σ σ σ− = + + ∇ − ∇ ∇ (24) Sai số của hệ NN gây ra có thể được viết lại: ( ) ( ) ( )( ) ( ) ( ) ( ) ( )* 11 4 T T T NN i i i ie x f x g x u x g x R g x xε ε ε −= −∇ + + ∇ ∇ (25) Với N →∞ , NNe có thể hội tụ về không. Nên với số N hữu hạn, NNe sẽ nằm trong một tập compact, do đó ta có thể giả sử maxNNe e≤ . Sử dụng mạng NN để có những xấp xỉ sau: ( ) ( ) ( )( )11ˆ ˆˆ ˆ ˆ; 2 TTT iV w x x w u R g x Vσ σ −= = = − ∇ (26) 82 TRƯỜNG ĐẠI HỌC HẢI PHÒNG Khi đó, sai số xấp xỉ sẽ được sinh ra [3], [4]: ( ) ( )( ) ( ) ( )( ) ( ) ( )( )2ˆ ˆ ˆ, TTHJB i ie r x t u t x x w f x g x uλρ σ= + + ∇ + (27) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 1 ˆ 1 ˆ ˆ 4 T T HJB i T TT i i e x Qx x w x f x w x g x R g x x w λρ σ σ σ− = + + ∇ − ∇ ∇ (28) Vector trọng lượng được cập nhật: ˆ ˆ E w w α ∂= − ∂ (29) với 1 2 T HJB HJBE e e= Định lý 2 [4]: Bằng cách sử dụng luật điều khiển (26) và vector trọng lượng được học theo mạng NN và cập nhật theo luật (29), thì sai lệch vector trọng lượng ˆw w w= − và trạng thái ( )x t của hệ kín sẽ là ổn định UUB. Chứng minh: Đặt: ˆ ˆw w w w w= − ⇒ = − Xét hàm Lyapunov sau: ( ) ( ) ( ) ( ) ( ) ( ) ( ) *1 2 1 2 1 ; ; 2 T V t V t V t V t w t w t V t V α = + = = Tác giả chọn theo bài báo đã ghi trong danh mục tài liệu tham khảo. Đạo hàm hàm ( )1V t , ta thu được: ( ) ( ) ( ) ( ) ( ) ( )1 1 1 ˆ ˆ T T T E V t w t w t w t w t w t wα α ∂ = = − = ∂ ( ) ( ) ( )( )1 ˆT HJB i iV w e x f x g x uσ= ∇ + Kết hợp (14) và (26) ta có: ( )( ) ( )* 1 *1 ˆˆ 2 T iu u R g x V V −− = − ∇ −∇ ( )( ) ( ) ( )( ) ( )( )11 ˆ2 T TT iR g x x w x w xσ σ ε −= − ∇ − ∇ −∇ ( )( ) ( )( ) ( )( )112 T T iR g x x w xσ ε −= ∇ +∇ Mặt khác ta có: ( ) ( ) ( )( ) ( ) ( ) ( )( ) ( ) ( )( )* *ˆ ˆi i i i ix f x g x u x f x g x u x g x u uσ σ σ∇ + = ∇ + +∇ − ( ) ( ) ( ) ( ) ( ) ( ) ( )( )* 11 2 T T i i i ix f x g x u g x R g x x w xσ σ ε − = ∇ + + ∇ +∇ 83TẠP CHÍ KHOA HỌC, Số 34, tháng 05 năm 2019 Từ (24) và (28) suy ra: ( )( ) ( ) ( )( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )( ) ( ) ( )( ) ( )( ) ( )( ) 1 1 1 ˆ 1 4 ˆ ˆ 1 ˆ 2 T TT T HJB NN i i T TT i i T TT i i T T TT i i e e x w f x x w f x w x g x R g x x w w x g x R g x x w x w g x R g x x w x σ σ σ σ σ σ σ σ ε − − − − = ∇ − ∇ ∇ ∇ + − ∇ ∇ + ∇ ∇ +∇ (29)( )( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 1 1 ˆ1 4 ˆ ˆ TT HJB NN i T TT T i i T TT i i e e x w f x w w x g x R g x x w w x g x R g x x w w σ σ σ σ σ − − − = − ∇ − ∇ ∇ + + ∇ ∇ − (30) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 1 1 1 4 ˆ T HJB NN i T TT i i T TT i i e e w x f x w x g x R g x x w w x g x R g x x w σ σ σ σ σ − − − = − ∇ ∇ ∇ + + ∇ ∇ (31) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 1 1 1 2 1 4 T HJB NN i T TT i i T TT i i e e w x f x w x g x R g x x w w x g x R g x x w σ σ σ σ σ − − − = − ∇ + ∇ ∇ − ∇ ∇ (32) Vì ( )( ) ( )( ) ( )( )* 112 T T iu R g x x w xσ ε −= − ∇ +∇ nên ta có: ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) * 1 1 1 2 1 4 TT T HJB NN i i i T TT i i e e w x f x w x g x u R g x x w x g x R g x x w σ σ ε σ σ − − − = − ∇ + ∇ − − ∇ − ∇ ∇ (33) ( ) ( )( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) * 1 1 1 2 1 4 TT T HJB NN i i i i T TT i i e e w x f x g u w x g x R g x x w x g x R g x x w σ σ ε σ σ − − = − ∇ + − ∇ ∇ − ∇ ∇ (34) Giả sử 3: ( ) ( ) * maxi if x g x u µ+ ≤ Kí hiệu: ( ) ( ) ( ) ( ) ( ) ( )* 1; ; ;Ti i i i i if x g x u G g x R g x x xµ σ σ ε ε−= + = ∇ = ∇ ∇ = ∇ Từ phương trình (34) ta có: 84 TRƯỜNG ĐẠI HỌC HẢI PHÒNG ( ) ( ) ( )1 1 1 2 21 4 T NN i i T T i T i T T i e w V t w w G x G w w G w σµ µ σ ε σ σ ε σ σ − + ∇ + = − + ∇ ∇ ∇ ∇ +∇ + ∇ ∇ (35) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 1 2 1 8 1 1 1 1 2 4 4 2 1 2 T T i T T T T T i i i NN i T T T i NN i i V t w G w w w G w e w G w w e w G w σ σ σµ σ ε σµ σ σ σµ σ ε σµ = − ∇ ∇ − ∇ + ∇ ∇ + ∇ + ∇ ∇ − ∇ + − ∇ ∇ ∇ (36) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 2 1 2 3 1 4 1 18 4 2 1 2 T i T T T T i i T i NN T T T i NN i i w V t w G w w G w w G e w e w G w σµ σ σ σ σ σ ε σµ σ ε σµ ∇ = − ∇ ∇ − ∇ ∇ + ∇ ∇ + − ∇ + − ∇ ∇ ∇ (37) Đặt: ( ) ( ) ( ) 3 1 1 ; ; 4 4 2 1 ; 2 T T T T i i i NN T T i NN i A w G w B w w G e C w D e w G σ σ σµ σ ε σµ σ ε = ∇ ∇ = ∇ + ∇ ∇ + = ∇ = − ∇ ∇ Dễ dàng nhận thấy: ( ) ( ) ( ) ( ) ( ) 2 2 22 2 2 1 2 2 2 1 1 1 4 2 8 8 2 4 1 4 16 2 8 D D V t A BA C DC A B B C V t A B B D = − − − − = − + + − + + ≤ − + − + (38)( ) ( )( ) ( ) ( )( ) 2 2 21 min min min 2 1 max max max max max max max 4 G 3 G 2 A B w R w R e λ σ σ µ σ λ ε − − + ≥ ∇ − ∇ +∇ ∇ − (39) ( ) ( )( )( ) ( ) ( ) 2 22 2 1 max max max max max max max 2 2 1 max max max max max max 16 2 3 G 2 1 2 G 2 B D w R e e w R σ µ σ λ ε σ σ λ ε − − + ≤ ∇ +∇ ∇ + + + ∇ ∇ ∇ (40) Từ (39), (40), ta có bất đẳng thức ( ) ( )2 2 2 14 16 2A B B D π+ − + ≥ Với 1 0π > có thể được suy ra khi w đủ lớn, bởi vì hệ số bậc cao nhất là 85TẠP CHÍ KHOA HỌC, Số 34, tháng 05 năm 2019 ( ) ( )( )( )22 21min min minG 0Rλ σ− ∇ > . Do đó, ta hoàn toàn có thể tìm được số thực 1ϑ sao cho 1w ϑ∀ > ta có: ( ) ( )2 2 2 14 16 2A B B D π+ − + ≥ , từ (40) ta có: ( )1 1V t π≤ − . Tương tự với ( )2V t , từ (21) ta tính đạo hàm của nó: ( ) ( )( )*2 ˆ T i iV V f g u= ∇ + + ∆ ( )( ) ( ) ( ) ( ) ( ) ( ) ( )( ) ( ) 2 * 1 * * 1 1 4 1 ˆ 2 T TT i i T T T i i x Qx x V g x R g x V V g R g x x w λρ σ − − = − + + ∇ ∇ + ∇ − ∇ + ∆ (41) ( )( ) ( ) ( ) ( ) ( ) ( )( ) ( ) 2 * 1 * * 1 * 1 4 1 2 TT T i i T TTT i i i x Qx x V g R g V V g R g x w x V g λρ σ ε − − = − + − ∇ ∇ + ∇ ∇ +∇ + ∇ ∆ (42) Để thuận tiện ta giả sử ( )x xρ ϖ= . Từ (46) ta có: ( )( ) 2 2 2 minV Q xλ λϖ θ≤ − + + (43) 2.2. Mô phỏng hệ chuyển mạch phi tuyến có nhiễu đầu vào Tác giả lấy hệ dưới theo ví dụ của một bài báo đã xây dựng không phải đối tượng thực nên về quá trình vật lý hệ thống là chưa thể hiện hết. Phần lớn những bài báo trên tạp chí lớn của nhiều Nhà nghiên cứu về thuật toán ADP (Adaptive Dynamis Programming) và để chứng minh thuật toán thì chỉ cần chọn lựa ví dụ một hệ tuân theo mô hình chung của hệ phi tuyến với nhiễu đầu vào như ở dưới tác giả chọn, như tài liệu tham khảo [1]. Ở đây tác giả giả định nhiễu đầu vào bị chặn. Sau khi mô phỏng sự đáp ứng của tín hiệu là chính xác khi tham chiếu với thuật toán. Do đó kết luận của bài báo tác giả kết luận hoàn toàn chính xác. Với kết quả thuật toán này tác giả đã áp dụng cho mô hình con lắc ngược và đã được đăng trong một hội thảo chuyên ngành. Xét hệ chuyển mạch sau: ( ) ( ) ( ) 1 2 2 1 3 1 2 3 2 1 2 3 2 1 3 2 3 1 0.2 sin cos 1 , 2sin 1 sin cos 1 , 2sin 1 2 x x x x x x u x t x x x x x x x x x x u x t x x − + = − − + − + ∆ −− − + = − − + − + ∆ −− 86 TRƯỜNG ĐẠI HỌC HẢI PHÒNG Trong đó, [ ] ( ) 1 1 0 2 2 3 3 1 1 5; 3;2 ; , ; 10 10 T i i d x x x t d x x d x = − ∆ = ∆ ≤ Với, 1 2 3; ;d d d được chọn là rand() trong matlab. Ta chọn các tham số của bộ điều khiển: 1 0 01 0 ; 0.01; 0 2 0 ; 5 0 1 0 0 3 R Qα λ = = = = . Khi đó ta có kết quả mô phỏng sau: Hình 1. Sơ đồ cấu trúc điều khiển của hệ thống Hình 2. Tín hiệu điều khiển của hệ thống Hình 3. Trạng thái của hệ thống 87TẠP CHÍ KHOA HỌC, Số 34, tháng 05 năm 2019 Hình 4. Nhiễu của hệ thống Hình 5. Sự hội tụ của ma trận trọng lượng 3. KẾT LUẬN Bài báo đã trình bày về lý thuyết và ứng dụng của thuật toán ADP trong điều khiển hệ phi tuyến. Tác giả đã thiết kế thuật toán và mô phỏng ví dụ đơn giản trên phần mềm Matlab. Để áp dụng vào một đối tượng có mô hình phức tạp nhiễu bất định cần thêm những nghiên cứu nữa từ tác giả. Đối tượng điều khiển ở đây có thể phát triển với hệ phức tạp, quy mô lớn, đặc biệt đã có những nghiên cứu bước đầu đối với hệ multi agency. TÀI LIỆU THAM KHẢO 1. Vamvoudakis, K.G. and Lewis, F.L. (2010), “Online actor-critic algorithm to solve the continuous-time infinite horizon optimal control problem,” Automatica, 46, pp.878-888. 2. Vamvoudakis, K.G. (2011), Online learning algorithms for differential dynamic games and optimal control, Ph.D. Thesis, Univ. Texas at Arlington. 3. Frank Lewis, Derong Liu (2012) Reinforcement learning and approximate dynamic programming for feedback control, IEEE Press, Wiley, 4. Derong Liu, Qinglai Wei, Ding Wang, Xiong Yang (2016), Adaptive dynamic programming with applications in optimal control, Springer, 5. Nguyễn Doãn Phước (2001) Lý thuyết điều khiển tuyến tính, NXB KH& KT. 6. Nguyễn Phùng Quang (2006), MATLAB và Simulink dành cho kỹ sư điều khiển tự động, Nhà xuất bản Khoa học và Kỹ thuật.
File đính kèm:
- dieu_khien_toi_uu_truc_tuyen_cho_cac_he_phi_tuyen_lien_tuc.pdf