Mô hình hồi quy bootstrap với cỡ mẫu ngẫu nhiên

Nhiều phương pháp thống kê cổ điển khi tìm khoảng tin cậy cho các hệ số hồi quy cần

giả thiết về phân bố tiên nghiệm của các sai số. Với một số giả thuyết nhất định, không cần

giả thiết về phân phối của sai số, thủ tục bootstrap có cỡ mẫu lấy lại cố định hoặc ngẫu nhiên

có thể thực hiện xấp xỉ bootstrap của phân phối ước lượng bình phương tối thiểu các hệ số

hồi quy. Trong bài báo này, tác giả trình bày thuật toán xác định hệ số hồi quy của mô hình

hồi quy bootstrap với cỡ mẫu lấy lại là biến ngẫu nhiên 𝑁𝑛. 𝑁𝑛 nhận giá trị là các số nguyên

dương trên [𝑚, 𝑛] với khả năng là như nhau tại mọi giá trị, trong đó 𝑚 là số nguyên dương

nhỏ nhất lớn hơn hoặc bằng 𝑛/4. Sử dụng phần mềm Matlab xác định hệ số hồi quy

bootstrap thực nghiệm và đưa ra nhận xét.

pdf 8 trang dienloan 20740
Bạn đang xem tài liệu "Mô hình hồi quy bootstrap với cỡ mẫu ngẫu nhiên", để tải tài liệu gốc về máy hãy click vào nút Download ở trên

Tóm tắt nội dung tài liệu: Mô hình hồi quy bootstrap với cỡ mẫu ngẫu nhiên

Mô hình hồi quy bootstrap với cỡ mẫu ngẫu nhiên
52 
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 44B(10/2017) 
Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 
MÔ HÌNH HỒI QUY BOOTSTRAP VỚI CỠ MẪU NGẪU NHIÊN 
ON BOOTSTRAPPING REGRESSION MODEL 
WITH RANDOM RESAMPLE SIZE 
Nguyễn Hồng Nhung 
Trường Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh, Việt Nam 
Ngày toà soạn nhận bài 9/11/2016, ngày phản biện đánh giá 7/12/2016, ngày chấp nhận đăng 6/3/2017 
TÓM TẮT 
Nhiều phương pháp thống kê cổ điển khi tìm khoảng tin cậy cho các hệ số hồi quy cần 
giả thiết về phân bố tiên nghiệm của các sai số. Với một số giả thuyết nhất định, không cần 
giả thiết về phân phối của sai số, thủ tục bootstrap có cỡ mẫu lấy lại cố định hoặc ngẫu nhiên 
có thể thực hiện xấp xỉ bootstrap của phân phối ước lượng bình phương tối thiểu các hệ số 
hồi quy. Trong bài báo này, tác giả trình bày thuật toán xác định hệ số hồi quy của mô hình 
hồi quy bootstrap với cỡ mẫu lấy lại là biến ngẫu nhiên 𝑁𝑛. 𝑁𝑛 nhận giá trị là các số nguyên 
dương trên [𝑚, 𝑛] với khả năng là như nhau tại mọi giá trị, trong đó 𝑚 là số nguyên dương 
nhỏ nhất lớn hơn hoặc bằng 𝑛/4 . Sử dụng phần mềm Matlab xác định hệ số hồi quy 
bootstrap thực nghiệm và đưa ra nhận xét. 
Từ khóa: Phương pháp bootstrap; hồi quy; lấy lại mẫu; cỡ mẫu ngẫu nhiên; phân phối đều. 
ABSTRACT 
To find confidence interval for regression coefficients, classical methods require the 
distribution of errors. Under mild conditions, without knowing the distribution of errors, the 
bootstrap approximation with fixed or random resample sizeto estimate the distribution of 
the least squares is valid. In this paper, the author presents algorithms to determine 
regression coefficients of the bootstrap regression model with random resample size 𝑁𝑛. 𝑁𝑛 is 
a positive integer-valued in [𝑚, 𝑛] with the ability to be the same at all values, where m is the 
smallest positive integer greater than or equal to 𝑛/4. Matlab software is used to seek the 
empirical bootstrap regression coefficients and create analysis comments. 
Key words: bootstrap; regression; resampling; random resample size; uniform distribution. 
1. GIỚI THIỆU 
Năm 1979 Efron [1] đưa ra một quá 
trình tổng quát lấy lại mẫu từ mẫu gốc ban 
đầu gọi là bootstrap. Coi mẫu gốc 𝑆𝑛 =
(𝑋1, 𝑋2,  , 𝑋𝑛)đóng vai trò là tổng thể mà từ 
đó nó được rút ra. Từ mẫu ban đầu lấy lại 
mẫu ngẫu nhiên bằng phương pháp lấy mẫu 
có hoàn lại. Mẫu lấy lại gọi là mẫu bootstrap 
ngẫu nhiên 𝑆𝑛
∗ = (𝑋𝑛1
∗ , 𝑋𝑛2
∗ ,  , 𝑋𝑛𝑛
∗ ) có cỡ 
mẫu 𝑛 .Giả sử 𝑋1, 𝑋2,  , 𝑋𝑛 độc lập cùng 
phân phối𝐹và𝜃(𝐹) là tham số cần quan tâm. 
Gọi𝐹𝑛 là hàm phân phối thực nghiệm của 
mẫu 𝑆𝑛, 𝜃(𝐹𝑛) là một ước lượng của 
𝜃(𝐹).Ứng với mỗi mẫu bootstrap, thống kê 
của tham số cần quan tâm 𝜃(𝐹𝑛
∗) được gọi là 
thống kê bootstrap. Phân phối thực 
nghiệm𝐹𝑛
∗của thống kê bootstrap được gọi là 
phân phối bootstrap. Phân phối bootstrap là 
ước lượng của phân phối thống kê ta đang 
quan tâm. Phương pháp bootstrap của Efron 
xấp xỉ phân phối mẫu của √𝑛(𝜃(𝐹𝑛) −
𝜃(𝐹)) bởi phân phối mẫu lặp lại 
√𝑛(𝜃(𝐹𝑛
∗) − 𝜃(𝐹𝑛)) dựa trên mẫu bootstrap 
𝑆𝑛
∗ mà trong đó phân phối ban đầu 𝐹 được 
thay thế bởi phân phối thực nghiệm 𝐹𝑛 dựa 
trên mẫu gốc 𝑆𝑛và𝐹𝑛 được thay thế bởi phân 
phối thực nghiệm bootstrap 𝐹𝑛
∗ dựa trên mẫu 
bootstrap 𝑆𝑛
∗ . Enno Mammen [2] giới thiệu 
quá trình lấy mẫu bootstrap với cỡ mẫu là 
biến ngẫu nhiên có phân phối Poisson. 
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 44B(10/2017) 
Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 
53 
Trong [3] Rao, Pathak và Kolt trình bày 
quá trình lấy mẫu bootstrap là quá trình lấy 
ngẫu nhiên lần lượt có hoàn lại các phần tử 
từ 𝑆𝑛 cho đến khi có 𝑚 = [𝑛(1 − 𝑒
−1)] + 1 
phần tử phân biệt trong mẫu gốc. Như vậy, ta 
thu được mẫu bootstrap 
𝑆𝑁𝑛
∗ = (𝑋𝑛1
∗ , 𝑋𝑛2
∗ ,  , 𝑋𝑛𝑁𝑛
∗ ) có cỡ mẫu 𝑁𝑛 là 
ngẫu nhiên, miễn là trong 
𝑋𝑛1
∗ , 𝑋𝑛2
∗ ,  , 𝑋𝑛𝑁𝑛
∗ có 𝑚 ≈ 𝑛(1 − 𝑒−1) phần 
tử phân biệt trong mẫu gốc. Cỡ mẫu 𝑁𝑛 có 
thể phân tích thành tổng các biến ngẫu nhiên 
độc lập như sau: 
𝑁𝑛 = 𝑁𝑛1 + 𝑁𝑛2 + ⋯ + 𝑁𝑛𝑚 (1) 
trong đó 𝑚 = [𝑛(1 − 𝑒−1)] + 1; 𝑁1 = 1 và 
với mỗi 𝑘, 2 ≤ 𝑘 ≤ 𝑚, 
𝑃∗(𝑁𝑛𝑘 = 𝑖) = (1 −
𝑘−1
𝑛
) (
𝑘−1
𝑛
)
𝑖−1
, (2) 
với 𝑃∗ là ký hiệu xác suất có điều kiện 
𝑃( |𝑋1,  , 𝑋𝑛). 
Kỳ vọng của cỡ mẫu lấy lại 𝑁𝑛của thủ 
tục bootstrap này là 𝐸(𝑁𝑛) = 𝑛 [
1
𝑛
+
1
𝑛−1
+
⋯ +
1
𝑛−𝑚+1
].Với𝑚 = 𝑛(1 − 𝑒−1) suy ra 
𝐸(𝑁𝑛) = 𝑛 + 𝑂(1). (3) 
Rao, Pathak và Kolt đã thiết lập tính 
vững của lược đồ lấy mẫu này trong [3]. 
 Trong [4] N.V. Toản đã nghiên cứu quá 
trình bootstrap với cỡ mẫu lấy lại 𝑁𝑛không 
độc lập với mẫu gốc và thỏa mãn điều kiện: 
có một dãy các số nguyên dương (𝑘𝑛)1≤𝑛<∞ 
tiến ra ∞ khi 𝑛 tiến đến ∞ sao cho dãy 
(
𝑁𝑛
𝑘𝑛
)
1≤𝑛<∞
 hội tụ theo xác suất có điều kiện 
đến một biến ngẫu nhiên dương 𝜐 với xác 
suất 1. Kết quả đạt được cho thấy có thể sử 
dụng ước lượng bootstrap với cỡ mẫu ngẫu 
nhiên thay cho ước lượng bootstrap với cỡ 
mẫu 𝑛 (?). 
Trong trường hợp cỡ mẫu lặp lại là biến 
ngẫu nhiên nhận giá trị nguyên dương 𝑁𝑛độc 
lập với dãy 𝑋1, 𝑋2,  ;và thỏa điều kiện 
𝑁𝑛 →𝑃 ∞khi𝑛 → ∞, (4) 
thì với hầu hết mọi dãy mẫu 𝑋1, 𝑋2, , 
‖𝐹𝑁𝑛
∗ − 𝐹‖ →𝑃 0 khi 𝑛 → ∞. (5) 
Ở đây, 
‖𝐹𝑁𝑛
∗ − 𝐹‖ = 𝑠𝑢𝑝−∞<𝑡<∞|𝐹𝑁𝑛
∗ (𝑡) − 𝐹(𝑡)|, 
với 𝐹𝑁𝑛
∗ là phân phối thực nghiệm dựa trên 
mẫu bootstrap 𝑆𝑁𝑛
∗ có cỡ mẫu ngẫu nhiên 
là𝑁𝑛. Kết quả này N.V. Toản đã chứng minh 
trong [5] cho thấy quá trình bootstrap thực 
nghiệm có hiệu lực khi 𝑁𝑛 thỏa mãn (4). 
Trong [6] N.V. Toản đã đưa ra điều kiện 
tổng quát cho cỡ mẫu ngẫu nhiên để quá 
trình bootstrap thực nghiệm tổng quát với cỡ 
mẫu ngẫu nhiên được đánh dấu bởi một lớp 
các hàm ℱ và dựa trên độ đo xác suất 𝑃 thỏa 
mãn định lý giới hạn trung tâm. 
Mục tiếp theo trình bày thủ tục bootstrap 
đối với mô hình hồi quy trong trường hợp cỡ 
mẫu lấy lại là biến ngẫu nhiên nhận giá trị 
nguyên dương và độc lập với mẫu gốc. Đồng 
thời trình bày các điều kiện có thể sử dụng 
ước lượng bootstrap với cỡ mẫu ngẫu nhiên 
đối với phân phối của ước lượng bình 
phương bé nhất. Các kết quả này được chứng 
minh trong các tài liệu [7] và [8].Phần cuối 
mục, tác giả minh họa ứng dụng của các kết 
luận lý thuyết bởi quá trình xác định khoảng 
tin cậy cho hệ số hồi quy thực nghiệm cho 
mô hình hồi quy bootstrap với cỡ mẫu ngẫu 
nhiên. Cụ thể, cỡ mẫu lấy lại 𝑁𝑛là biến ngẫu 
nhiên nhận giá trị là các số nguyên dương 
trên [𝑚, 𝑛] với khả năng như nhau tại mọi giá 
trị, 𝑚 là số nguyên dương nhỏ nhất lớn hơn 
hoặc bằng 𝑛/4. Khi đó, 
𝑃(𝑁𝑛 = 𝑖) =
1
𝑛−𝑚+1
, 𝑖 ∈ {𝑚,  , 𝑛} (6) 
𝑃(𝑁𝑛 ≥ 𝑘) → 1khi 𝑛 → ∞, với mọi k. (7) 
Như vậy 𝑁𝑛 là biến ngẫu nhiên nhận giá 
trị nguyên dương thỏa mãn (4). 
2. MÔ HÌNH HỒI QUY BOOTSTRAP 
VỚI CỠ MẪU NGẪU NHIÊN 
2.1 Mô hình hồi quy 
Xét mô hình tuyến tính bội 
𝑌(𝑛) = 𝑋(𝑛)𝛽 + 𝜀(𝑛). (8) 
Trong phương trình này 𝛽 là một 𝑝 × 1 
vectơ của các tham số chưa biết được ước 
lượng từ dữ liệu. 𝑌(𝑛) là một 𝑛 × 1 vectơ dữ 
liệu, 𝑌(𝑛) là vectơ ngẫu nhiên hay biến đáp 
54 
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 44B(10/2017) 
Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 
ứng. 𝑋(𝑛) là một 𝑛 × 𝑝 ma trận dữ liệu có 
hạng là 𝑝 ≤ 𝑛, 𝑋(𝑛) còn được gọi là ma trận 
thiết kế.𝜀(𝑛)là một 𝑛 × 1 vectơ không quan 
sát được, 𝜀(𝑛) được gọi là sai số ngẫu nhiên, 
phần dư hay nhiễu. Dữ liệu quan sát có dạng 
(𝑋(𝑛), 𝑌(𝑛)) và ta gọi 𝑋(𝑛) là tập hợp các 
điểm thiết kế của mô hình.(𝑋𝑖 , 𝑌𝑖) là hàng thứ 
𝑖, 1 ≤ 𝑖 ≤ 𝑛, của (𝑋(𝑛), 𝑌(𝑛)). Ta gọi (8) là 
mô hình hồi quy nếu các phân tích được đưa 
ra dựa trên các điểm thiết kế 𝑋(𝑛). 
Giả thiết (8) thỏa mãn các điều kiện: 
(A1)𝑋(𝑛) là không ngẫu nhiên. 
(A2) Trong mô hình (8) các thành phần 
𝜀1, 𝜀2,  , 𝜀𝑛 của 𝜀(𝑛) là độc lập có cùng phân 
phối 𝐹 với trung bình bằng 0 và phương sai 
𝜎2. Cả 𝐹 và 𝜎2 đều chưa biết. 
Ước lượng bình phương bé nhất cho 𝛽 là 
�̂�(𝑛) = (𝑋(𝑛)𝑇𝑋(𝑛))−1𝑋(𝑛)𝑇𝑌(𝑛). (9) 
Vectơ 𝑌 được khảo sát là giá trị quan sát 
của vectơ ngẫu nhiên 𝑋(𝑛)𝛽 + 𝜀(𝑛). Khi đó 
�̂�(𝑛) có trung bình 𝛽 và ma trận hiệp phương 
sai 𝜎2{𝑋(𝑛)𝑇𝑋(𝑛)}−1. Giả sử 
(A3)
1
𝑛
{𝑋(𝑛)𝑇𝑋(𝑛)} → 𝑉 xác định dương. 
Đồng thời giả sử rằng các phần tử của 
𝑋(𝑛) đều bé so với √𝑛. Khi đó √𝑛(�̂�(𝑛) −
𝛽) tiệm cận chuẩn với trung bình 0 và ma 
trận hiệp phương sai 𝜎2𝑉−1. Đặc biệt, phân 
phối của {𝑋(𝑛)𝑇𝑋(𝑛)}−1/2{�̂�(𝑛) − 𝛽}/𝜎 
tiệm cận chuẩn với trung bình 0 và ma trận 
hiệp phương sai là ma trận đơn vị cấp 𝑝. 
Nếu ta thêm giả thiết, các phần dư 𝜀𝑖có 
cùng phân phối chuẩn 𝑁(0, 𝜎2) , tức là 
𝜀 = (𝜀1,  , 𝜀𝑛)
𝑇 có phân phối chuẩn 
𝑁(0, 𝜎2𝐼𝑛).Khi đó ta có thể xác định khoảng 
tin cậy cho các hệ số hồi quy 𝛽𝑖 và thực hiện 
các kiểm định về hệ số hồi quy. Trong [9] 
N.H. Dư đã chỉ ra khi 𝜀 có phân phối chuẩn 
𝑁(0, 𝜎2𝐼𝑛) thì 𝑈 = (𝑋
𝑇𝑋)1/2(�̂� − 𝛽) có 
phân phối chuẩn (0, 𝜎2𝐼𝑝); (�̂� − 𝛽)có phân 
phối chuẩn 𝑁(0, 𝜎2(𝑋𝑇𝑋)−1).Nếu như điều 
kiện về phân phối chuẩn của mô hình không 
chỉ ra được thì quá trình lấy mẫu bootstrap sẽ 
là một lựa chọn để giải quyết các bài toán 
thuộc dạng này. 
2.2 Mô hình hồi quy bootstrap 
Giả thiết rằng mô hình hồi quy (8) thỏa 
mãn các điều kiện A(1-3). Ta xem 𝑋(𝑛) là 𝑛 
hàng đầu tiên của một dãy vô hạn các hàng. 
Tương tự, xem 𝜀1, 𝜀2,  , 𝜀𝑛 là 𝑛 phần tử đầu 
tiên của dãy vô hạn các biến ngẫu nhiên độc 
lập cùng phân phối 𝐹 . Từ mẫu gốc 
(𝑋(𝑛), 𝑌(𝑛)) ta tính được ước lượng bình 
phương bé nhất của 𝛽 là �̂�(𝑛). Từ đó, ta xác 
định được vectơ phần dư𝜀̂(𝑛) xác định bởi 
𝜀̂(𝑛) = 𝑌(𝑛) − 𝑋(𝑛)�̂� (10) 
Gọi �̂�𝑛 là phân phối thực nghiệm của 
𝜀̂(𝑛), có trung tâm tại kỳ vọng, nên �̂�𝑛 đặt 
trọng lượng 1/𝑛 tại 𝜀�̂�(𝑛) − �̂�𝑛 và ∫ 𝑥 𝑑�̂�𝑛
𝑥 =
0. Theo E. Mammen [10], thực hiện quá trình 
lấy mẫu bootstrap từ tập các phần dư trung 
tâm {𝜀1̂ − 𝜀̂. } , trong đó 𝜀̂. =
1
𝑛
∑ 𝜀�̂�
𝑛
𝑖=1 ta 
được các bootstrap sai số 𝜀̂∗(𝑛) là 𝑛 vectơ 
mà thành phần thứ 𝑖 là 𝜀�̂�
∗ ; giả sử 𝜀1̂
∗,  , 𝜀�̂�
∗ 
độc lập có điều kiện cùng phân phối �̂�𝑛. Đặt 
𝑌∗(𝑛) = 𝑋(𝑛)�̂�(𝑛) + 𝜀̂∗(𝑛). (11) 
Bây giờ ta có bộ số liệu đánh dấu sao để 
ước lượng tham số. Ước lượng bootstrap của 
�̂�(𝑛) là 
�̂�∗(𝑛) = (𝑋(𝑛)𝑇𝑋(𝑛))
−1
𝑋(𝑛)𝑇𝑌∗(𝑛) (12) 
Nguyên lý bootstrap cho rằng phân phối 
của √𝑛(�̂�∗ − �̂�), mà ta có thể tính trực tiếp từ 
dữ liệu, xấp xỉ phân phối của √𝑛(�̂� − 𝛽) . 
Freedman [7] đã chứng minh rằng xấp xỉ này là 
rất tốt khi 𝑛 lớn và 𝜎2𝑝. 𝑡𝑟𝑎𝑐𝑒(𝑋𝑇𝑋)−1 nhỏ. 
Trong [7] Freedman đã phát triển một số 
định lý xấp xỉ ứng dụng trong mô hình hồi 
quy bootstrap của Efron với cỡ mẫu lấy lại là 
𝑚 khác với 𝑛 là cỡ mẫu ban đầu. Dữ liệu 
đánh dấu sao sinh bởi 
𝑌∗(𝑚) = 𝑋(𝑚)�̂�(𝑛) + 𝜀∗(𝑚) (13) 
𝑚 × 1 𝑚 × 𝑝 𝑝 × 1 𝑚 × 1 
với 𝜀1̂
∗,  , 𝜀�̂�
∗ độc lập có điều kiện cùng phân 
phối �̂�𝑛. Bây giờ �̂�
∗(𝑚) là tham số ước lượng 
dựa trên dữ liệu đánh dấu sao: 
�̂�∗(𝑚) = (𝑋(𝑚)𝑇𝑋(𝑚))
−1
𝑋(𝑚)𝑇𝑌∗(𝑚)(14) 
𝑝 × 1 𝑝 × 𝑝 𝑝 × 𝑚 𝑚 × 1 
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 44B(10/2017) 
Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 
55 
√𝑚(�̂�∗(𝑚) − 𝛽 ̂(𝑛)) là xấp xỉ phân phối 
rất tốt của √𝑛(�̂� − 𝛽) khi 𝑚 lớn và 
𝜎2𝑝. 𝑡𝑟𝑎𝑐𝑒(𝑋𝑇𝑋)−1 nhỏ. Trong [7] 
Freedman đã khẳng định hầu chắc chắn của 
tiệm cận khi 𝑚 và 𝑛 tiến tới ∞ . Trong [8] 
N.V. Toản đã chứng minh quá trình bootstrap 
có hiệu lực với mô hình hồi quy nếu cỡ mẫu 
bootstrap 𝑁𝑛 là biến ngẫu nhiên nhận giá trị 
nguyên dương, độc lập với 𝑌1, 𝑌2,  , 𝑌𝑛 và 
thỏa mãn (4). 
2.3 Mô hình hồi quy bootstrap với cỡ mẫu 
ngẫu nhiên 
Giả sử mô hình hồi quy (8) thỏa mãn 
A(1-3). Theo hầu hết các dãy mẫu, cho 
𝑌1, 𝑌2,  , 𝑌𝑛, N. V. Toản trong [8] đã chứng 
minh được khi 𝑛 tiến tới ∞: 
(B1) Phân phối có điều kiện của 
√𝑁𝑛{�̂�
∗(𝑁𝑛) − �̂�(𝑛)} hội tụ yếu đến phân 
phối chuẩn với trung bình 0 và ma trận hiệp 
phương sai 𝜎2𝑉−1. 
(B2) Phân phối có điều kiện của �̂�𝑁𝑛
∗ hội 
tụ đến điểm có khối lượng tại 𝜎. 
(B3) Phân phối có điều kiện của 
{𝑋(𝑁𝑛)
𝑇𝑋(𝑁𝑛)}
−1/2{�̂�∗(𝑁𝑛) − �̂�(𝑛)}/�̂�𝑁𝑛
∗ 
hội tụ đến phân phối chuẩn trong ℝ𝑝. 
Để minh họa cho các kết quả đã được 
chứng minh trong lý thuyết, tác giả xây dựng 
quá trình xác định hệ số hồi quy bootstrap 
thực nghiệm với cỡ mẫu thực nghiệm là một 
biến ngẫu nhiên. Các bước thực hiện quá 
trình lấy lại mẫu bootstrap từ mẫu gốc ban 
đầu và xác định hệ số hồi quy của mô hình 
hồi quy bootstrap với cỡ mẫu ngẫu nhiên 
được trình bày như sau: 
Bước 1: Từ số liệu gốc ban đầu (𝑋𝑖 , 𝑌𝑖) 
trong đó 1 ≤ 𝑖 ≤ 𝑛 ta tính được ước lượng 
bình phương bé nhất �̂�(𝑛) của 𝛽 trong mô 
hình hồi quy (8) theo công thức (9). 
Bước 2: Xác định các thành phần của vectơ 
phần dư 𝜀̂(𝑛)là 𝜀�̂� = 𝑌𝑖 − 𝑋𝑖�̂�,1 ≤ 𝑖 ≤ 𝑛. 
Bước 3: Xác định một giá trị ngẫu nhiên 
của biến ngẫu nhiên 𝑁𝑛.Lấy ngẫu nhiên lần 
lượt có hoàn lại từ tập các phần dư trung tâm 
{𝜀1̂ − 𝜀̂. } , trong đó 𝜀̂. =
1
𝑛
∑ 𝜀�̂�
𝑛
𝑖=1 , ta được 
các bootstrap sai số 𝜀̂∗(𝑁𝑛) là 𝑁𝑛 vectơ mà 
thành phần thứ 𝑖 là 𝜀�̂�
∗. 
Bước 4: Đặt 𝑌∗(𝑁𝑛) = 𝑋(𝑁𝑛)�̂�(𝑛) +
 𝜀̂∗(𝑁𝑛) với thành phần thứ 𝑖, 1 ≤ 𝑖 ≤ 𝑁𝑛 là 
𝑌𝑖
∗ = 𝑋𝑖�̂� + 𝜀�̂�
∗. 
Bước 5: Với mỗi dữ liệu sao 
(𝑋(𝑁𝑛), 𝑌
∗(𝑁𝑛)) ta tính được ước lượng 
bootstrap của �̂�(𝑛) là 
�̂�∗(𝑁𝑛) =
 (𝑋(𝑁𝑛)
𝑇𝑋(𝑁𝑛))
−1
𝑋(𝑁𝑛)
𝑇𝑌∗(𝑁𝑛) (15) 
là một vectơ 𝑝 × 1. 
Ta xét một ví dụ minh họa về mô hình 
𝑌 = 𝑋𝛽 + 𝜀 có vectơ tham số 
𝛽 = (𝛽1, 𝛽2, 𝛽3)
𝑇 chưa biết đang cần ước 
lượng; vectơ dữ liệu 𝑌 cấp 150 × 1; ma trận 
thiết kế 𝑋 cấp 150 × 3 và vectơ sai số 
𝜀 = (𝜀1,  , 𝜀150)
𝑇 không quan sát được. 
Đầu tiên ta khảo sát đồ thị của các dữ liệu. 
Hình 1. Đồ thị phân tán biểu diễn mối quan 
hệ giữa 𝑋 và 𝑌 
Theo hình 1, các điểm tập trung gần một 
mặt phẳng nên ta dự đoán có thể sử dụng mô 
hình hồi quy tuyến tính để biểu diễn mối 
quan hệ giữa 𝑋 và 𝑌. 
Từ các sai số𝜀�̂� tính được ta vẽ đồ thị 
phân tán của𝜀�̂� theo giá trị dự đoán 𝑦𝑖, được 
hình 2. Xu thế trong đồ thị sẽ chứng tỏ các 
sai số 𝜀�̂�có độc lập hay phụ thuộc với 𝑦𝑖. 
5
10
15
10
15
20
25
40
60
80
100
120
140
X the second columnX the third column
Y
56 
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 44B(10/2017) 
Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 
Hình 2. Đồ thị phân tán của các sai số𝜀�̂� và 
giá trị dự đoán 𝑦𝑖 
Trong hình 2 ta thấy không có xu thế nào 
của chùm điểm thể hiện mối quan hệ giữa sai 
số 𝜀�̂� và giá trị dự đoán 𝑦𝑖 nên ta chấp nhận 
giả thuyết độc lập giữa sai số 𝜀 và biến dự 
đoán 𝑌. Mặt khác ta thấy khoảng rộng của độ 
lệch gần như là như nhau tại mọi phần của đồ 
thị nên ta chấp nhận giả thuyết phương sai 
của sai số 𝜀 là không đổi. Như vậy, bộ số liệu 
thỏa mãn A(1-3). 
Hình 3. Biểu đồ mô phỏng phân phối của 
các sai số 𝜀�̂� 
Hình 3 cho thấy sai số 𝜀 không có phân 
phối chuẩn và ta cũng chưa biết dạng phân 
phối của các sai số 𝜀. Như vậy với số liệu 
này ta không thể sử dụng các phương pháp 
xác định hệ số hồi quy truyền thống. 
Trong bài báo này tác giả sử dụng phần 
mềm Matlab để phân tích số liệu. Sau đây là 
thuật toán tìm khoảng tin cậy 95% của tham 
số hồi quy 𝛽 bằng cách sử dụng quá trình 
bootstrap với cỡ mẫu lấy lại là biến ngẫu 
nhiên có phân phối đều trên [𝑛/4; 𝑛]. 
>>[n p]=size(X); # Xác định cỡ ma trận X 
>>hatbeta=inv(X'*X)*X'*Y # Ước lượng 
hợp lý cực đại của 𝛽. 
hatbeta = [3.7457 4.0935 2.9579]
T 
>>hatepsilon=Y-X*hatbeta; # Vectơ 𝜀̂(𝑛) 
>>data=hatepsilon-
(sum(hatepsilon)/n)*ones(n,1);# Ma trận 
phần dư trung tâm đóng vai trò là mẫu gốc để 
lấy lại mẫu. 
>>betaB=zeros(p,10000); 
>> r=randi(n,1,10000); # Dãy 10000 số 
nguyên dương ngẫu nhiên có giá trị 1 đến n. 
>>forI =1:10000rs=r(1,i); 
Whilers<(n/4)rs=randi(n,1,1);end 
Es=zeros(rs,1); # Ma trận phần dư bootstrap 
Xs=zeros(rs,p);# Ma trận 𝑋 gồm các hàng 
tương ứng với các 𝜀�̂� lấy lại từ mẫu gốc. 
while det(Xs'*Xs)=0 rb=randi(n,1,rs); 
for j=1:rs 
k=rb(1,j);Es(j,1)=data(k,1);Xs(j,:)=X(k,:); 
end 
Ys=Xs*hatbeta+Es; 
betaB(:,i)=inv(Xs'*Xs)*Xs'*Ys; # Hệ số 𝛽 
bootstrap tương ứng mẫu lấy lại thứ i. 
end 
Hình 4. Đồ thị các hệ số 𝛽1 bootstrap với cỡ 
mẫu ngẫu nhiên có phân phối đều trên 
[𝑛/4; 𝑛]. 
50 60 70 80 90 100 110 120 130 140
-6
-4
-2
0
2
4
6
Y
h
a
te
p
s
ilo
n
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 44B(10/2017) 
Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 
57 
Hình 5. Biểu đồ mô phỏng phân phối của 
các hệ số 𝛽1 bootstrap với cỡ mẫu ngẫu 
nhiên có phân phối đều trên [𝑛/4; 𝑛]. 
Khoảng ước lượng bootstrap với cỡ mẫu 
ngẫu nhiên của hệ số 𝛽1với độ tin cậy 95% là 
(0.4768;6.9116). 
Hình 6. Đồ thị các hệ số 𝛽2 bootstrap với cỡ 
mẫu ngẫu nhiên có phân phối đều trên 
[𝑛/4; 𝑛]. 
Hình 7. Biểu đồ mô phỏng phân phối của 
các hệ số 𝛽2 bootstrap với cỡ mẫu ngẫu 
nhiên có phân phối đều trên [𝑛/4; 𝑛]. 
Khoảng ước lượng bootstrap với cỡ mẫu 
ngẫu nhiên của hệ số 𝛽2với độ tin cậy 95% là 
(3.8840; 4.3157). 
Hình 8. Đồ thị các hệ số 𝛽3 bootstrap với cỡ 
mẫu ngẫu nhiên có phân phối đều trên 
 [𝑛/4; 𝑛]. 
Hình 9. Biểu đồ mô phỏng phân phối của 
các hệ số 𝛽3 bootstrap với cỡ mẫu ngẫu 
nhiên có phân phối đều trên [𝑛/4; 𝑛]. 
Khoảng ước lượng bootstrap với cỡ mẫu 
ngẫu nhiên của hệ số 𝛽3với độ tin cậy 95% là 
(2.8223; 3.0974). 
Ta bác bỏ các giả thuyết 𝛽1 = 0; 𝛽2 =
0; 𝛽3 = 0 ; vì các khoảng ước lượng 
bootstrap với cỡ mẫu ngẫu nhiên của các hệ 
số này không chứa 0. 
Hình 10. Đồ thị phân tán của các hệ số 
𝛽𝑖 bootstrap với cỡ mẫu ngẫu nhiên có phân 
phối đều trên [𝑛/4; 𝑛]. 
58 
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 44B(10/2017) 
Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 
Để so sánh kết quả giữa các phương pháp 
bootstrap, ta xác định hệ số hồi quy bootstrap 
trong trường hợp cỡ mẫu lấy lại cố định bằng 
cỡ mẫu gốc 𝑛 ; hoặc bằng 𝑚 = [0.625𝑛] <
𝑛hay bằng𝑀 = 2𝑛 ; và trường hợp cỡ mẫu 
bootstrap ngẫu nhiên sao cho mẫu lấy lại có 
đúng 𝑚 ≈ 𝑛(1 − 𝑒−1) ≈ 0.632𝑛 phần tử 
phân biệt của mẫu gốc. Tổng hợp các kết quả 
từ quá trình phân tích số liệu ta có bảng 1, từ 
đó ta có cùng kết luận là các hệ số hồi quy 
bootstrap của mô hình này khác 0. 
Bảng 1. Khoảng tin cậy 95% của các hệ hồi 
quy bootstrap. 
 Khoảng ước lượng 
bootstrap với độ tin 
cậy 95% 
Cỡ mẫu lấy lại 
𝑁𝑛 là biến ngẫu 
nhiên có phân 
phối đều trên 
[𝑛/4; 𝑛]. 
𝛽1 (0.4768;6.9116) 
𝛽2 (3.8840; 4.3157) 
𝛽3 (2.8223; 3.0974) 
Cỡ mẫu lấy lại cố 
định bằng cỡ mẫu 
gốc 𝑛. 
𝛽1 (1.3645; 6.0832) 
𝛽2 (3.9397; 4.2466) 
𝛽3 (2.8591; 3.0600) 
Cỡ mẫu lấy lại cố 
định là 𝑚 nhỏ 
hơn cỡ mẫu gốc 
𝑛. 
𝛽1 (0.7706; 6.7809) 
𝛽2 (3.9035; 4.2915) 
𝛽3 (2.8316; 3.0852) 
Cỡ mẫu lấy lại cố 
định là 𝑀 = 2𝑛 
lớn hơn cỡ mẫu 
gốc 𝑛. 
𝛽1 (2.1015; 5.3848) 
𝛽2 (3.9857; 4.2048) 
𝛽3 (2.8890; 3.0285) 
Cỡ mẫu lấy lại là 
ngẫu nhiên sao 
cho có đúng 
𝑚 ≈ 𝑛(1 − 𝑒−1) 
phần tử phân biệt 
của mẫu gốc. 
𝛽1 (1.8359; 5.1854) 
𝛽2 (3.9903; 4.2081) 
𝛽3 (2.9003; 3.0438) 
3. KẾT LUẬN 
Quá trình phân tích thực nghiệm đã minh 
họa được cụ thể quá trình xác định khoảng 
tin cậy cho hệ số hồi quy cho mô hình hồi 
quy bootstrap với cỡ mẫu cố định và trường 
hợp cỡ mẫu lấy lại là ngẫu nhiên. Trong bài 
báo này, tác giả đã thực hiện được quá trình 
xác định hệ số hồi quy bootstrap thực nghiệm 
với cỡ mẫu lấy lại là biến ngẫu nhiên có phân 
phối đều [𝑛/4; 𝑛]. Qua đó làm phong phú 
thêm các phương pháp xác định các hệ số hồi 
quy bootstrap. 
Kết quả phân tích thực nghiệm cho thấy 
nếu cỡ mẫu lấy lại tăng thì độ dài của khoảng 
ước lượng giảm. Tuy nhiên, khi cỡ mẫu gốc 
ban đầu là 𝑛 lớn nếu ta lấy cỡ mẫu lấy lại là 
bằng cỡ mẫu gốc hoặc bằng𝑀 = 2𝑛 thì số 
lần lấy phần tử từ mẫu gốc khi lấy 𝑏 mẫu 
bootstrap là 𝑛𝑏 hay2𝑛𝑏 sẽ rất lớn, làm tốn 
thời gian cho quá trình phân tích số liệu. 
Trường hợp cỡ mẫu lấy lại là biến ngẫu 
nhiên mà cụ thể là biến ngẫu nhiên có phân 
phối đều trên trên [𝑛/4; 𝑛] thì số lần lấy 
phần tử trung bình là 𝐸(𝑁𝑛)𝑏 =
1
2
(
𝑛
4
+ 𝑛) 𝑏 = 0.625𝑛𝑏 sẽ tiết kiệm thời gian 
hơn cho quá trình phân tích số liệu. 
Trong [11] N.V. Toản đã chỉ ra tốc độ 
hội tụ của xấp xỉ bootstrap của phân phối 
trung bình mẫu với cỡ mẫu lấy lại là biến 
ngẫu nhiên 𝑁𝑛. Hướng nghiên cứu tiếp theo 
có thể thực hiện việc xác định tốc độ hội tụ 
của xấp xỉ bootstrap của phân phối ước lượng 
bình phương bé nhất trong mô hình hồi quy 
có cỡ mẫu bootstrap cố định hay là biến ngẫu 
nhiên 𝑁𝑛 . Biến ngẫu nhiên 𝑁𝑛 là số nguyên 
dương thuộc [𝑎, 𝑏] hoặc𝑁𝑛 là số lần lấy phần 
tử từ mẫu gốc cho đến khi xuất hiện 𝑚 ≈
𝑛(1 − 𝑒−1) ≈ 0.632𝑛 phần tử phân biệt 
trong mẫu gốc. 
TÀI LIỆU THAM KHẢO 
[1] Bradley Efron. Bootstrap method: Another look at the Jacknife. Ann. Statist. 7. (1979). 
[2] E. Mammen. Bootstrap, wild bootstrap, and asymptotic normality. Probab. Theory Relat. 
Fields 93, 439–455 (1992). 
Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 44B(10/2017) 
Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 
59 
[3] C. R. Rao, P.K. Pathak, and V. I. Koltchinskii. Bootstrap by sequential resampling. J. 
Statist. Plan. Inference 64.(1997). 
[4] Toan, N.V. On the asymptotic distribution of the bootstrap estimate with random 
resample size. Vietnam J. Math. 33:3, 261–270 (2005). 
[5] Toan, N.V. Rate of convergence in bootstrap approximations with random sample size. 
Acta Mathematica Vietnammica, 25. 161-179 (2000). 
[6] Toan, N.V. On Weak Convergence of the Bootstrap General Empirical Process with 
Random Resample Size. Vietnam J. Math, 42, 233–245 (2014). 
[7] D. A. Freedman. Bootstrap regression models. Ann. Statist. 9. (1981). 
[8] Toan, N.V. On bootstrapping regression and correlation models with random resample 
size. Vietnam J. Math, 37, 443–456 (2009). 
[9] Hữu, N.V and Dư, N.H. Phân tích thống kê và Dự báo. NXB ĐH Quốc Gia Hà Nội. (2003). 
[10] E. Mammen. When does bootstrap work. Springer-Verlag New York, Inc. (1992). 
[11] Toan, N.V. On weak convergence of the bootstrap empirical process with random 
resample size.Vietnam J. Math. 28:2, 153–158 (2000). 
Tác giả chịu trách nhiệm bài viết: 
Nguyễn Hồng Nhung 
Trường Đại học Sư phạm Kỹ thuật Tp. HCM 
Email: nhungnh@hcmute.edu.vn 

File đính kèm:

  • pdfmo_hinh_hoi_quy_bootstrap_voi_co_mau_ngau_nhien.pdf