Điều khiển tối ưu trực tuyến cho các hệ phi tuyến liên tục

Bài báo này trình bày vấn đề của luật điều khiển tối ưu thích nghi cho các hệ phi tuyến với
nhiễu đầu vào và các tham số chưa biết. Mục tiêu chính là tìm ra luật điều khiển tối ưu thích
nghi dựa trên phương pháp quy hoạch động thích nghi (Adaptive Dynamic Programming
(ADP)), trong đó qui hoạch động thích nghi online (Online Adaptive Dynamic Programming
(OADP)) là giải thuật được phân tích và thiết kế và nó có thể ổn định hệ thống vòng kín. Bên
cạnh đó, các đặc tính hội tụ của thuật toán đề xuất được chỉ ra. Các phân tích lý thuyết và kết
quả mô phỏng chứng minh sự hiệu quả của thuật toán đề xuất.
11 trang dienloan 11441
Download
Bạn đang xem tài liệu "Điều khiển tối ưu trực tuyến cho các hệ phi tuyến liên tục", để tải tài liệu gốc về máy hãy click vào nút Download ở trên
Tóm tắt nội dung tài liệu: Điều khiển tối ưu trực tuyến cho các hệ phi tuyến liên tục

77TẠP CHÍ KHOA HỌC, Số 34, tháng 05 năm 2019
ĐIỀU KHIỂN TỐI ƯU TRỰC TUYẾN 
CHO CÁC HỆ PHI TUYẾN LIÊN TỤC
Vũ Văn Tú
Khoa Điện - Cơ
Email: tuvv@dhhp.edu.vn
Nguyễn Thị Thu Hiền
Khoa Điện-Cơ
Email: hienntt85@dhhp.edu.vn
Ngày nhận bài: 18/3/2019
Ngày PB đánh giá: 27/4/2019
Ngày duyệt đăng: 29/4/2019
TÓM TẮT
Bài báo này trình bày vấn đề của luật điều khiển tối ưu thích nghi cho các hệ phi tuyến với 
nhiễu đầu vào và các tham số chưa biết. Mục tiêu chính là tìm ra luật điều khiển tối ưu thích 
nghi dựa trên phương pháp quy hoạch động thích nghi (Adaptive Dynamic Programming 
(ADP)), trong đó qui hoạch động thích nghi online (Online Adaptive Dynamic Programming 
(OADP)) là giải thuật được phân tích và thiết kế và nó có thể ổn định hệ thống vòng kín. Bên 
cạnh đó, các đặc tính hội tụ của thuật toán đề xuất được chỉ ra. Các phân tích lý thuyết và kết 
quả mô phỏng chứng minh sự hiệu quả của thuật toán đề xuất.
Từ khóa: Xấp xỉ quy hoạch động, điều khiển tối ưu thích nghi, qui hoạch động thích 
nghi online. 
ONLINE OPTIMAL CONTROL OF CONTINUOUS-TIME 
AFFINE NONLINEAR SYSTEMS
ABTRACT 
This paper presents the problem of adaptive optimal control law for nonlinear systems 
with input disturbance and unknown parameters. The main objective is to find an adaptive 
optimal control law based on the adaptive dynamic programming (ADP) method, in 
which Online Adaptive Dynamic Programming (OADP) is an analyzed and designed 
algorithm and it is able to stabilize the closed-loop system. Besides, the convergence 
properties of proposed algorithm is pointed out. The theoretical analysis and simulation 
results demonstrate the performance of the proposed algorithm. 
Keywords: Adaptive dynamic programming (ADP), adaptive optimal control law, Online 
Adaptive Dynamic Programming (OADP).
78 TRƯỜNG ĐẠI HỌC HẢI PHÒNG
 1. ĐẶT VẤN ĐỀ 
Vấn đề của điều khiển tối ưu cho những hệ phi tuyến động liên tục được nghiên cứu sâu 
trong vài thập kỷ. Một thách thức cốt lõi của vấn đề điều khiển tối ưu phi tuyến là nó thường 
rơi vào giải quyết phương trình toán HJB. Người ta biết rằng phương trình HJB thực ra là một 
phương trình vi phân từng phần, rất khó khăn hoặc không thể nào giải quyết được bởi phương 
pháp phân tích. Để giải quyết vấn đề này, chúng ta pháp triển một chương trình xấp xỉ điều khiển 
tối ưu cho những hệ phi tuyến liên tục affine sử dụng phương pháp thích nghi quy hoạch động. 
2. NỘI DUNG NGHIÊN CỨU
 2.1. Hệ chuyển mạch phi tuyến có nhiễu đầu vào
Xét hệ chuyển mạch có nhiễu đầu vào được xác định bởi phương trình sau:
 ( ) ( ) ( )( ),i ix f x g x u x t= + + ∆ (1)
Trong đó ( ) nxx t R∈Ω ∈ là vector trạng thái và đo được, ( ) muu t R∈Ω ∈ là tín 
hiệu điều khiển. Hàm ) { }: 0, Ù 1,2,...,Mσ  +∞ → = là hàm chọn chế độ của hệ, đã biết 
theo thời gian, liên tục trên từng khoảng, và M là số lượng hệ con. ( )if x là các vector 
hàm chưa biết và thỏa mãn ( )0 0if = . ( )ig x là các vector hàm đã biết và thỏa mãn: 
( )min maxG ig x G≤ ≤ . ( ),x t∆ là nhiễu, bất định hệ thống không xác định được.
Giả sử 1: Tồn tại hàm đã biết thỏa mãn:
Với hệ (1), ta xét hàm mục tiêu sau:
( ) ( )( ) ( ) ( )( ), ,
t
J x t u t r x u dτ τ τ
∞
= ∫ (2) 
Trong đó ( ) ( )( ), T Tr x u x Qx u Ruτ τ = + và các ma trận 0;TQ Q= > 0TR R= >
Mục tiêu là tìm ra bộ điều khiển u và xác định được hàm chặn trên ( )K u thỏa mãn 
( )K u M≤ , để hệ (1) là ổn định bền và hàm mục tiêu (2) phải thỏa mãn:
( ) ( ),J x u K u≤
Định nghĩa: Hàm ( )K u là chặn trên của hàm mục tiêu (1) nên nó có tên là hàm đảm 
bảo chi phí. Hơn thế nữa, tín hiệu điều khiển *u với ( )* arg min
uu
u K u
∈Ω
= sẽ được gọi là luật 
điều khiển tối ưu chi phí. (Theo nguyên lý tối ưu Bellman)
Xét hệ không nhiễu sau:
( ) ( )i ix f x g x u= + (3)
Và xét hàm mục tiêu của ( )3 được định nghĩa như sau [1]:
( ) ( )( ) ( ) ( )( ) ( )( )21 , ,
t
J x t u t r x u x dτ τ λ ρ τ
∞
 = +
 ∫
(4)
79TẠP CHÍ KHOA HỌC, Số 34, tháng 05 năm 2019
Theo vamvoudakis, K.G and Lewis, F.L (2010), hàm mục tiêu của hệ thống khác mô hình 
toán của hệ phi tuyến. Ở phần dưới tác giả chứng minh ( ) ( )( )1 ,J x t u t là hàm mục tiêu của hệ 
phi tuyến có nhiễu (1) và từ đó chứng minh *u là tín hiệu điều khiển của hệ phi tuyến có nhiễu (1).
Ta chứng minh rằng ( ) ( )( )1 ,J x t u t với Rλ ≥ sẽ là một trong những hàm đảm bảo 
chi phí của hệ (1).
Từ việc định nghĩa ( ) ( )( ),J x t u t trong (2) và ( ) ( )( )1 ,J x t u t trong (4), ta có thể dễ 
dàng thấy ngay:
 ( ) ( )( ) ( ) ( )( )1, ,J x t u t J x t u t≤ (5) 
Ta thấy rằng trong biểu thức của 
1(x(t),u(t))J có thêm thành phần ( )( )
2
xλ ρ là một hàm 
dương ( 20 ( ( )) 0R xλ λ ρ≥ > ⇒ > ) do đó 
( ) ( )( ) ( ) ( )( )( ) ( ) ( )( )
( ) ( )( ) ( )( )
1
2
, , ,
,
t
t
J x t u t r x u d J x t u t
r x u x d
τ τ τ
τ τ λ ρ τ
∞
∞
= ≤ =
 +
 
∫
∫
Đặt ( ) ( ) ( )( )* 1min ,
uu
V t J x t u t
∈Ω
= , ta có:
 ( ) ( ) ( )( ) ( )( )2* min ,
uu
t
V t r x u x dτ τ λ ρ τ
∞
∈Ω
 = +
 ∫
 (6) 
( ) ( ) ( )( ) ( )( )
( ) ( )( ) ( )( )
2*
2
min ,
min ,
u
u
t t
u
t
u
t t
V t r x u x d
r x u x d
τ τ λ ρ τ
τ τ λ ρ τ
+∆
∈Ω
∞
∈Ω
+∆
 = +
 
 + +
 
∫
∫
 (7)
 (8)
 ( ) ( )( ) ( )( )
( ) ( )* *21
min , 0
u
t t
u
t
V t t V t
r x u x d
t t
τ τ λ ρ τ
+∆
∈Ω
 + ∆ −  + + =  ∆ ∆  
∫ (9) 
Theo định nghĩa của đạo hàm của hàm số và theo nguyên lý Bellman thì hàm mục tiêu 
là giá trị nhỏ nhất của hàm chi phí và để tối ưu thì giá trị nhỏ nhất của hàm mục tiêu phải 
bằng không.
Cho 0t +∆ → ta có:
 ( ) ( )( ) ( )( )
( ) ( )* *21
min , 0
u
t t
u
t
V t t V t
r x u x d
t t
τ τ λ ρ τ
+∆
∈Ω
 + ∆ −  + + =  ∆ ∆  
∫ (10)
( ) ( )( ) ( ) ( ) ( ) ( )( )2 *min , 0
u
T
i iu
r x t u t x V f x g x uλρ
∈Ω
 + + ∇ + =   (11)
Kí hiệu: 
x
∂
∇ =
∂

 là đúng cho mọi hàm  trong bài báo này.
Đặt: ( ) ( ) ( )( ) ( ) ( ) ( ) ( )( )* 2 *, , , T i iH x u V r x t u t x V f x g x uλρ= + + ∇ + (12) 
( ) ( ) ( )( ) ( )( ) ( )2* *min ,
u
t t
u
t
V t r x u x d V t tτ τ λ ρ τ
+∆
∈Ω
 = + + + ∆
 ∫
80 TRƯỜNG ĐẠI HỌC HẢI PHÒNG
Ta có thể thấy ngay: ( ) ( )* * *, , min , , 0
uu
H x u V H x u V
∈Ω
= = (13)
( ) ( )( )
*
*
* 1 *
, , 1
0
2
T
i
u u
H x u V
u R g x V
u
−
=
∂
= ⇒ = − ∇
∂
(14)
Theo lý thuyết quy hoạch động lúc này *u là tín hiệu điều khiển của hệ phi tuyến có 
nhiễu đầu vào.
Định lý 1 [1],[2]: Bằng việc sử dụng tín hiệu điều khiển ( ) ( )( )11
2
T
iu x R g x V
−= − ∇ và chọn
 ( ) ( ) ( )( ) ( )( )2,
t
V t r x u x dτ τ λ ρ τ
∞
 = +
 ∫
 là hàm Lyapunov, trong đó Rλ ≥ sẽ đảm bảo hệ (1) ổn định.
Chứng minh:
Đạo hàm của V được xác định theo công thức:
( ) ( ) ( ) ( ) ( )( )( ),T i iV t V f x g x u x t= ∇ + + ∆
Bằng việc sử dụng ( ) ( )( )1 *1
2
T
iu x R g x V
−= − ∇ , ta có thể suy ra:
( ) ( ) ( )( ) ( ) ( )( ) ( )2 *, ,TiV t r x t u t x g x V x tλρ= − − + ∇ ∆
( ) ( )2 2 ,T T Tx Qx u Ru x u R x tλρ= − − − − ∆ (15)
( ) ( )( ) ( )( ) ( ) ( )2 , , , ,T TT Tx Qx x u x t R u x t x t R x tλρ= − − − + ∆ + ∆ + ∆ ∆ (16)
( ) ( ) ( )( ) ( )( ) ( )( )2 , , , ,TTTx Qx x x t R x t u x t R u x tλρ= − − − ∆ ∆ − + ∆ + ∆ (17)
Với giả sử 1 và Rλ ≥ ta có:
( ) ( ) ( )( ) ( ) ( )22 2,T TV t x Qx x R x t x Qx R xλρ λ ρ≤ − − − ∆ ≤ − − −
( ) TV t x Qx≤ −
 (18)
Do đó, hệ (1) là ổn định bền.
Rất khó để giải trực tiếp phương trình HJB (13), do đó, hàm mục tiêu *V của hệ (3) có thể được 
xấp xỉ bằng mạng RBF trên tập xΩ :
 ( ) ( )
* TV w x xσ ε= + (19)
Theo lý thuyết toán học 
Xét hàm khả vi liên tục ( )f x được xấp xỉ hàm bằng vector hàm nơron (NN) truyền thẳng 
một lớp theo công thức:
81TẠP CHÍ KHOA HỌC, Số 34, tháng 05 năm 2019
 ( ) ( ) ( )
Tf x W x xϕ ε= +
Trong đó W là trọng số NN lý tưởng, ( ) : n nx R Rϕ → ; ( ) xϕ là vector hàm tác động, hn là số 
lượng nút ở lớp ẩn và ( ) xε là sai số xấp xỉ NN. Khi đó, nếu hệ ( ) ( ){ }: 1,i x iϕ = ∞ là vector cơ sở 
độc lập hoàn toàn thì ( )f x và đạo hàm của nó:
( ) ( ) ( )T
W
f x x x
x x x
ϕ ε∂  ∂  ∂
= + ∂ ∂ ∂  sẽ được xấp xỉ đều. Ngoài ra, sai số ε và đạo hàm của nó sẽ hội tụ đều 
về 0 khi hn →∞ . Hơn nữa, nếu hn hữu hạn thì ε và 
x
ε∂
∂
 sẽ bị chặn bởi các hằng số dương 
trong tập đóng.
Còn việc luyện mạng nơ ron và tìm ra thông số tác giả lập trình trên phần mềm Matlab.
Trong đó ( ) ( ): ; 0 0n Nxσ σ→ = là (NN), N là số neural ẩn, và ( )xε là sai số xấp xỉ do 
NN, Nw∈ là vector hàm trọng lượng. ( )xσ có thể được chọn sao cho với N →∞ , ta 
có: ( ) 0xε → và ( ) 0xε∇ → , do đó việc lựa chọn N hữu hạn, ta có thể giả sử:
Giả sử 2: ( ) ( ) ( )max max min max max; ; ;x x x w wε ε ε ε σ σ σ≤ ∇ ≤ ∇ ∇ ≤ ∇ ≤ ∇ ≤
Bằng việc kết hợp (13), (14) ta có thể suy ra:
( ) ( ) ( )( ) ( ) ( ) ( ) ( )( )* * * 2 * *, , , 0T i iH x u V r x t u t x V f x g x uλρ= + + ∇ + = (20)
( ) ( ) ( ) ( ) ( ) ( ) ( )2 * * 1 *1 0
4
T T TT
i i ix Qx x V f x V g x R g x Vλρ
−= + + ∇ − ∇ ∇ = (21)
Phương trình (19) có thể dẫn tới: ( )( ) ( )* TV x w xσ ε∇ = ∇ +∇ (22)
Sử dụng mạng NN vào phương trình HJB trên ta có:
( ) ( )( ) ( )
( )( ) ( ) ( ) ( )( )
2
11
4
TTT
NN i
TT T T
i i
e x Qx x x w f x
x w g x R g x x w
λρ σ
σ σ−
= + + ∇
− ∇ ∇
 (23)
( ) ( ) ( )
( ) ( ) ( ) ( )
2
11
4
T T
NN i
T TT
i i
e x Qx x w x f x
w x g x R g x x w
λρ σ
σ σ−
= + + ∇
− ∇ ∇
 (24)
Sai số của hệ NN gây ra có thể được viết lại: 
( ) ( ) ( )( ) ( ) ( ) ( ) ( )* 11
4
T T T
NN i i i ie x f x g x u x g x R g x xε ε ε
−= −∇ + + ∇ ∇ (25)
Với N →∞ , NNe có thể hội tụ về không. Nên với số N hữu hạn, NNe sẽ nằm trong một tập 
compact, do đó ta có thể giả sử maxNNe e≤ .
Sử dụng mạng NN để có những xấp xỉ sau: 
 ( ) ( ) ( )( )11ˆ ˆˆ ˆ ˆ;
2
TTT
iV w x x w u R g x Vσ σ
−= = = − ∇ (26)
82 TRƯỜNG ĐẠI HỌC HẢI PHÒNG
Khi đó, sai số xấp xỉ sẽ được sinh ra [3], [4]:
( ) ( )( ) ( ) ( )( ) ( ) ( )( )2ˆ ˆ ˆ, TTHJB i ie r x t u t x x w f x g x uλρ σ= + + ∇ + (27) 
( ) ( ) ( )
( ) ( ) ( ) ( )
2
1
ˆ
1 ˆ ˆ
4
T T
HJB i
T TT
i i
e x Qx x w x f x
w x g x R g x x w
λρ σ
σ σ−
= + + ∇
− ∇ ∇
 (28)
Vector trọng lượng được cập nhật: ˆ
ˆ
E
w
w
α ∂= −
∂

 (29)
 với 
1
2
T
HJB HJBE e e=
Định lý 2 [4]: Bằng cách sử dụng luật điều khiển (26) và vector trọng lượng được học theo 
mạng NN và cập nhật theo luật (29), thì sai lệch vector trọng lượng ˆw w w= − và trạng thái 
( )x t của hệ kín sẽ là ổn định UUB.
Chứng minh:
Đặt: ˆ ˆw w w w w= − ⇒ = −   
Xét hàm Lyapunov sau:
( ) ( ) ( ) ( ) ( ) ( ) ( ) *1 2 1 2
1
; ;
2
T
V t V t V t V t w t w t V t V
α
= + = = 
Tác giả chọn theo bài báo đã ghi trong danh mục tài liệu tham khảo.
Đạo hàm hàm ( )1V t , ta thu được:
( ) ( ) ( ) ( ) ( ) ( )1
1 1 ˆ
ˆ
T T T E
V t w t w t w t w t w t
wα α
∂
= = − =
∂


   
( ) ( ) ( )( )1 ˆT HJB i iV w e x f x g x uσ= ∇ + 
Kết hợp (14) và (26) ta có:
( )( ) ( )* 1 *1 ˆˆ
2
T
iu u R g x V V
−− = − ∇ −∇ 
( )( ) ( ) ( )( ) ( )( )11 ˆ2
T TT
iR g x x w x w xσ σ ε
−= − ∇ − ∇ −∇
( )( ) ( )( ) ( )( )112
T T
iR g x x w xσ ε
−= ∇ +∇ 
Mặt khác ta có: 
( ) ( ) ( )( ) ( ) ( ) ( )( ) ( ) ( )( )* *ˆ ˆi i i i ix f x g x u x f x g x u x g x u uσ σ σ∇ + = ∇ + +∇ −
( ) ( ) ( ) ( ) ( ) ( ) ( )( )* 11
2
T T
i i i ix f x g x u g x R g x x w xσ σ ε
− = ∇ + + ∇ +∇ 
 
 
83TẠP CHÍ KHOA HỌC, Số 34, tháng 05 năm 2019
Từ (24) và (28) suy ra:
( )( ) ( ) ( )( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
( )( ) ( ) ( )( ) ( )( ) ( )( )
1
1
1
ˆ
1
4 ˆ ˆ
1 ˆ
2
T TT T
HJB NN i i
T TT
i i
T TT
i i
T T TT
i i
e e x w f x x w f x
w x g x R g x x w
w x g x R g x x w
x w g x R g x x w x
σ σ
σ σ
σ σ
σ σ ε
−
−
−
 − = ∇ − ∇ 
 
 ∇ ∇
 +
 − ∇ ∇ 
+ ∇ ∇ +∇
 (29)( )( ) ( )
( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( ) ( )
1
1
ˆ1
4 ˆ ˆ
TT
HJB NN i
T TT T
i i
T TT
i i
e e x w f x
w w x g x R g x x w
w x g x R g x x w w
σ
σ σ
σ σ
−
−
− = − ∇
 − ∇ ∇
 +
 + ∇ ∇ − 

 (30)
( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
1
1
1
4 ˆ
T
HJB NN i
T TT
i i
T TT
i i
e e w x f x
w x g x R g x x w
w x g x R g x x w
σ
σ σ
σ σ
−
−
− = − ∇
 ∇ ∇
 +
 + ∇ ∇ 



 (31)
( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
1
1
1
2
1
4
T
HJB NN i
T TT
i i
T TT
i i
e e w x f x
w x g x R g x x w
w x g x R g x x w
σ
σ σ
σ σ
−
−
− = − ∇
+ ∇ ∇
− ∇ ∇


 
 (32)
Vì ( )( ) ( )( ) ( )( )* 112
T T
iu R g x x w xσ ε
−= − ∇ +∇ nên ta có:
( ) ( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
* 1
1
1
2
1
4
TT T
HJB NN i i i
T TT
i i
e e w x f x w x g x u R g x x
w x g x R g x x w
σ σ ε
σ σ
−
−
 − = − ∇ + ∇ − − ∇ 
 
− ∇ ∇
 
 
 (33)
( ) ( )( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
* 1
1
1
2
1
4
TT T
HJB NN i i i i
T TT
i i
e e w x f x g u w x g x R g x x
w x g x R g x x w
σ σ ε
σ σ
−
−
= − ∇ + − ∇ ∇
− ∇ ∇
 
 
 (34)
Giả sử 3: ( ) ( ) * maxi if x g x u µ+ ≤
Kí hiệu: ( ) ( ) ( ) ( ) ( ) ( )* 1; ; ;Ti i i i i if x g x u G g x R g x x xµ σ σ ε ε−= + = ∇ = ∇ ∇ = ∇
Từ phương trình (34) ta có:
84 TRƯỜNG ĐẠI HỌC HẢI PHÒNG
( ) ( ) ( )1
1
1
2
21
4
T
NN i
i
T T
i T
i
T T
i
e w
V t w w G x
G w
w G w
σµ
µ
σ ε σ
σ ε
σ σ
 
 − + ∇
+  
  = − + ∇ ∇ ∇
   ∇ +∇ 
  
 + ∇ ∇
 


 

 
 (35)
 ( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( )
2
1
2
1
8
1 1 1 1
2 4 4 2
1
2
T T
i
T T T T T
i i i NN i
T T T
i NN i i
V t w G w
w w G w e w G w
w e w G w
σ σ
σµ σ ε σµ σ σ
σµ σ ε σµ
= − ∇ ∇
 − ∇ + ∇ ∇ + ∇ + ∇ ∇  
 − ∇ + − ∇ ∇ ∇  

 
    
  
 (36)
( ) ( )
( )
( )
( )
( ) ( ) ( )
2
1
2
3
1 4
1 18
4 2
1
2
T
i
T T T T
i i
T
i NN
T T T
i NN i i
w
V t w G w w G w
w G e
w e w G w
σµ
σ σ σ σ
σ ε
σµ σ ε σµ
 ∇ 
= − ∇ ∇ − ∇ ∇ 
 + ∇ ∇ +
  
 − ∇ + − ∇ ∇ ∇  


   

  
 (37)
Đặt:
( ) ( )
( )
3 1 1
; ;
4 4 2
1
;
2
T T T T
i i i NN
T T
i NN i
A w G w B w w G e
C w D e w G
σ σ σµ σ ε
σµ σ ε
= ∇ ∇ = ∇ + ∇ ∇ +
= ∇ = − ∇ ∇
   
 
Dễ dàng nhận thấy:
( ) ( )
( ) ( ) ( )
2 2
22 2 2
1
2 2 2
1
1 1
4 2
8 8 2 4
1
4 16 2
8
D D
V t A BA C DC A B B C
V t A B B D
 = − − − − = − + + − + + 
 
 ≤ − + − + 


 (38)( ) ( )( )
( ) ( )( )
2 2 21
min min min
2 1
max max max max max max max
4 G
3 G 2
A B w R
w R e
λ σ
σ µ σ λ ε
−
−
+ ≥ ∇
− ∇ +∇ ∇ −

 (39)
( ) ( )( )( )
( ) ( )
2
22 2 1
max max max max max max max
2
2 1
max max max max max max
16 2 3 G 2
1
2 G
2
B D w R e
e w R
σ µ σ λ ε
σ σ λ ε
−
−
+ ≤ ∇ +∇ ∇ +
 + + ∇ ∇ ∇ 
 


 (40)
Từ (39), (40), ta có bất đẳng thức ( ) ( )2 2 2 14 16 2A B B D π+ − + ≥
Với 1 0π > có thể được suy ra khi w đủ lớn, bởi vì hệ số bậc cao nhất là 
85TẠP CHÍ KHOA HỌC, Số 34, tháng 05 năm 2019
( ) ( )( )( )22 21min min minG 0Rλ σ− ∇ > . Do đó, ta hoàn toàn có thể tìm được số thực 1ϑ sao cho 
1w ϑ∀ > ta có: ( ) ( )2 2 2 14 16 2A B B D π+ − + ≥ , từ (40) ta có: ( )1 1V t π≤ − . Tương tự với 
( )2V t , từ (21) ta tính đạo hàm của nó:
 ( ) ( )( )*2 ˆ
T
i iV V f g u= ∇ + + ∆
( )( ) ( ) ( ) ( ) ( )
( ) ( )( ) ( )
2 * 1 *
* 1
1
4
1 ˆ
2
T TT
i i
T T T
i i
x Qx x V g x R g x V
V g R g x x w
λρ
σ
−
−
= − + + ∇ ∇
 + ∇ − ∇ + ∆ 
 
 (41)
 ( )( ) ( ) ( )
( ) ( ) ( )( ) ( )
2 * 1 *
* 1 *
1
4
1
2
TT T
i i
T TTT
i i i
x Qx x V g R g V
V g R g x w x V g
λρ
σ ε
−
−
= − + − ∇ ∇
+ ∇ ∇ +∇ + ∇ ∆
 (42)
Để thuận tiện ta giả sử ( )x xρ ϖ= . Từ (46) ta có:
 ( )( )
2 2
2 minV Q xλ λϖ θ≤ − + + (43)
2.2. Mô phỏng hệ chuyển mạch phi tuyến có nhiễu đầu vào
Tác giả lấy hệ dưới theo ví dụ của một bài báo đã xây dựng không phải đối tượng thực 
nên về quá trình vật lý hệ thống là chưa thể hiện hết. 
Phần lớn những bài báo trên tạp chí lớn của nhiều Nhà nghiên cứu về thuật toán ADP 
(Adaptive Dynamis Programming) và để chứng minh thuật toán thì chỉ cần chọn lựa ví dụ 
một hệ tuân theo mô hình chung của hệ phi tuyến với nhiễu đầu vào như ở dưới tác giả chọn, 
như tài liệu tham khảo [1]. Ở đây tác giả giả định nhiễu đầu vào bị chặn. Sau khi mô phỏng 
sự đáp ứng của tín hiệu là chính xác khi tham chiếu với thuật toán. Do đó kết luận của bài báo 
tác giả kết luận hoàn toàn chính xác. Với kết quả thuật toán này tác giả đã áp dụng cho mô 
hình con lắc ngược và đã được đăng trong một hội thảo chuyên ngành.
Xét hệ chuyển mạch sau:
( )
( ) ( )
1 2
2 1 3
1 2 3
2
1 2 3
2 1 3
2 3
1
0.2 sin cos 1 ,
2sin
1
sin cos 1 ,
2sin
1
2
x x
x x x x u x t
x x x
x x x
x x x x u x t
x x
 − +   
    = − − + − + ∆    
    −−   
  − +       = − − + − + ∆       −−   


86 TRƯỜNG ĐẠI HỌC HẢI PHÒNG
Trong đó,
 [ ] ( )
1 1
0 2 2
3 3
1 1
5; 3;2 ; , ;
10 10
T
i i
d x
x x t d x x
d x
 
 = − ∆ = ∆ ≤ 
  
Với, 1 2 3; ;d d d được chọn là rand() trong matlab.
Ta chọn các tham số của bộ điều khiển:
 1 0 01 0
; 0.01; 0 2 0 ; 5
0 1
0 0 3
R Qα λ
 
   = = = =       
. 
Khi đó ta có kết quả mô phỏng sau:
Hình 1. Sơ đồ cấu trúc điều khiển của hệ thống
Hình 2. Tín hiệu điều khiển của hệ thống
Hình 3. Trạng thái của hệ thống
87TẠP CHÍ KHOA HỌC, Số 34, tháng 05 năm 2019
Hình 4. Nhiễu của hệ thống
Hình 5. Sự hội tụ của ma trận trọng lượng
3. KẾT LUẬN
Bài báo đã trình bày về lý thuyết và ứng dụng của thuật toán ADP trong điều khiển hệ 
phi tuyến. Tác giả đã thiết kế thuật toán và mô phỏng ví dụ đơn giản trên phần mềm Matlab. 
Để áp dụng vào một đối tượng có mô hình phức tạp nhiễu bất định cần thêm những nghiên 
cứu nữa từ tác giả. Đối tượng điều khiển ở đây có thể phát triển với hệ phức tạp, quy mô lớn, 
đặc biệt đã có những nghiên cứu bước đầu đối với hệ multi agency.
TÀI LIỆU THAM KHẢO
1. Vamvoudakis, K.G. and Lewis, F.L. (2010), “Online actor-critic algorithm to solve the 
continuous-time infinite horizon optimal control problem,” Automatica, 46, pp.878-888.
2. Vamvoudakis, K.G. (2011), Online learning algorithms for differential dynamic games 
and optimal control, Ph.D. Thesis, Univ. Texas at Arlington.
3. Frank Lewis, Derong Liu (2012) Reinforcement learning and approximate dynamic 
programming for feedback control, IEEE Press, Wiley, 
4. Derong Liu, Qinglai Wei, Ding Wang, Xiong Yang (2016), Adaptive dynamic 
programming with applications in optimal control, Springer, 
5. Nguyễn Doãn Phước (2001) Lý thuyết điều khiển tuyến tính, NXB KH& KT. 
6. Nguyễn Phùng Quang (2006), MATLAB và Simulink dành cho kỹ sư điều khiển tự động, 
Nhà xuất bản Khoa học và Kỹ thuật.
File đính kèm:
dieu_khien_toi_uu_truc_tuyen_cho_cac_he_phi_tuyen_lien_tuc.pdf