Mô hình hồi quy bootstrap với cỡ mẫu ngẫu nhiên
Nhiều phương pháp thống kê cổ điển khi tìm khoảng tin cậy cho các hệ số hồi quy cần
giả thiết về phân bố tiên nghiệm của các sai số. Với một số giả thuyết nhất định, không cần
giả thiết về phân phối của sai số, thủ tục bootstrap có cỡ mẫu lấy lại cố định hoặc ngẫu nhiên
có thể thực hiện xấp xỉ bootstrap của phân phối ước lượng bình phương tối thiểu các hệ số
hồi quy. Trong bài báo này, tác giả trình bày thuật toán xác định hệ số hồi quy của mô hình
hồi quy bootstrap với cỡ mẫu lấy lại là biến ngẫu nhiên 𝑁𝑛. 𝑁𝑛 nhận giá trị là các số nguyên
dương trên [𝑚, 𝑛] với khả năng là như nhau tại mọi giá trị, trong đó 𝑚 là số nguyên dương
nhỏ nhất lớn hơn hoặc bằng 𝑛/4. Sử dụng phần mềm Matlab xác định hệ số hồi quy
bootstrap thực nghiệm và đưa ra nhận xét.
Tóm tắt nội dung tài liệu: Mô hình hồi quy bootstrap với cỡ mẫu ngẫu nhiên
52 Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 44B(10/2017) Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh MÔ HÌNH HỒI QUY BOOTSTRAP VỚI CỠ MẪU NGẪU NHIÊN ON BOOTSTRAPPING REGRESSION MODEL WITH RANDOM RESAMPLE SIZE Nguyễn Hồng Nhung Trường Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh, Việt Nam Ngày toà soạn nhận bài 9/11/2016, ngày phản biện đánh giá 7/12/2016, ngày chấp nhận đăng 6/3/2017 TÓM TẮT Nhiều phương pháp thống kê cổ điển khi tìm khoảng tin cậy cho các hệ số hồi quy cần giả thiết về phân bố tiên nghiệm của các sai số. Với một số giả thuyết nhất định, không cần giả thiết về phân phối của sai số, thủ tục bootstrap có cỡ mẫu lấy lại cố định hoặc ngẫu nhiên có thể thực hiện xấp xỉ bootstrap của phân phối ước lượng bình phương tối thiểu các hệ số hồi quy. Trong bài báo này, tác giả trình bày thuật toán xác định hệ số hồi quy của mô hình hồi quy bootstrap với cỡ mẫu lấy lại là biến ngẫu nhiên 𝑁𝑛. 𝑁𝑛 nhận giá trị là các số nguyên dương trên [𝑚, 𝑛] với khả năng là như nhau tại mọi giá trị, trong đó 𝑚 là số nguyên dương nhỏ nhất lớn hơn hoặc bằng 𝑛/4 . Sử dụng phần mềm Matlab xác định hệ số hồi quy bootstrap thực nghiệm và đưa ra nhận xét. Từ khóa: Phương pháp bootstrap; hồi quy; lấy lại mẫu; cỡ mẫu ngẫu nhiên; phân phối đều. ABSTRACT To find confidence interval for regression coefficients, classical methods require the distribution of errors. Under mild conditions, without knowing the distribution of errors, the bootstrap approximation with fixed or random resample sizeto estimate the distribution of the least squares is valid. In this paper, the author presents algorithms to determine regression coefficients of the bootstrap regression model with random resample size 𝑁𝑛. 𝑁𝑛 is a positive integer-valued in [𝑚, 𝑛] with the ability to be the same at all values, where m is the smallest positive integer greater than or equal to 𝑛/4. Matlab software is used to seek the empirical bootstrap regression coefficients and create analysis comments. Key words: bootstrap; regression; resampling; random resample size; uniform distribution. 1. GIỚI THIỆU Năm 1979 Efron [1] đưa ra một quá trình tổng quát lấy lại mẫu từ mẫu gốc ban đầu gọi là bootstrap. Coi mẫu gốc 𝑆𝑛 = (𝑋1, 𝑋2, , 𝑋𝑛)đóng vai trò là tổng thể mà từ đó nó được rút ra. Từ mẫu ban đầu lấy lại mẫu ngẫu nhiên bằng phương pháp lấy mẫu có hoàn lại. Mẫu lấy lại gọi là mẫu bootstrap ngẫu nhiên 𝑆𝑛 ∗ = (𝑋𝑛1 ∗ , 𝑋𝑛2 ∗ , , 𝑋𝑛𝑛 ∗ ) có cỡ mẫu 𝑛 .Giả sử 𝑋1, 𝑋2, , 𝑋𝑛 độc lập cùng phân phối𝐹và𝜃(𝐹) là tham số cần quan tâm. Gọi𝐹𝑛 là hàm phân phối thực nghiệm của mẫu 𝑆𝑛, 𝜃(𝐹𝑛) là một ước lượng của 𝜃(𝐹).Ứng với mỗi mẫu bootstrap, thống kê của tham số cần quan tâm 𝜃(𝐹𝑛 ∗) được gọi là thống kê bootstrap. Phân phối thực nghiệm𝐹𝑛 ∗của thống kê bootstrap được gọi là phân phối bootstrap. Phân phối bootstrap là ước lượng của phân phối thống kê ta đang quan tâm. Phương pháp bootstrap của Efron xấp xỉ phân phối mẫu của √𝑛(𝜃(𝐹𝑛) − 𝜃(𝐹)) bởi phân phối mẫu lặp lại √𝑛(𝜃(𝐹𝑛 ∗) − 𝜃(𝐹𝑛)) dựa trên mẫu bootstrap 𝑆𝑛 ∗ mà trong đó phân phối ban đầu 𝐹 được thay thế bởi phân phối thực nghiệm 𝐹𝑛 dựa trên mẫu gốc 𝑆𝑛và𝐹𝑛 được thay thế bởi phân phối thực nghiệm bootstrap 𝐹𝑛 ∗ dựa trên mẫu bootstrap 𝑆𝑛 ∗ . Enno Mammen [2] giới thiệu quá trình lấy mẫu bootstrap với cỡ mẫu là biến ngẫu nhiên có phân phối Poisson. Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 44B(10/2017) Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 53 Trong [3] Rao, Pathak và Kolt trình bày quá trình lấy mẫu bootstrap là quá trình lấy ngẫu nhiên lần lượt có hoàn lại các phần tử từ 𝑆𝑛 cho đến khi có 𝑚 = [𝑛(1 − 𝑒 −1)] + 1 phần tử phân biệt trong mẫu gốc. Như vậy, ta thu được mẫu bootstrap 𝑆𝑁𝑛 ∗ = (𝑋𝑛1 ∗ , 𝑋𝑛2 ∗ , , 𝑋𝑛𝑁𝑛 ∗ ) có cỡ mẫu 𝑁𝑛 là ngẫu nhiên, miễn là trong 𝑋𝑛1 ∗ , 𝑋𝑛2 ∗ , , 𝑋𝑛𝑁𝑛 ∗ có 𝑚 ≈ 𝑛(1 − 𝑒−1) phần tử phân biệt trong mẫu gốc. Cỡ mẫu 𝑁𝑛 có thể phân tích thành tổng các biến ngẫu nhiên độc lập như sau: 𝑁𝑛 = 𝑁𝑛1 + 𝑁𝑛2 + ⋯ + 𝑁𝑛𝑚 (1) trong đó 𝑚 = [𝑛(1 − 𝑒−1)] + 1; 𝑁1 = 1 và với mỗi 𝑘, 2 ≤ 𝑘 ≤ 𝑚, 𝑃∗(𝑁𝑛𝑘 = 𝑖) = (1 − 𝑘−1 𝑛 ) ( 𝑘−1 𝑛 ) 𝑖−1 , (2) với 𝑃∗ là ký hiệu xác suất có điều kiện 𝑃( |𝑋1, , 𝑋𝑛). Kỳ vọng của cỡ mẫu lấy lại 𝑁𝑛của thủ tục bootstrap này là 𝐸(𝑁𝑛) = 𝑛 [ 1 𝑛 + 1 𝑛−1 + ⋯ + 1 𝑛−𝑚+1 ].Với𝑚 = 𝑛(1 − 𝑒−1) suy ra 𝐸(𝑁𝑛) = 𝑛 + 𝑂(1). (3) Rao, Pathak và Kolt đã thiết lập tính vững của lược đồ lấy mẫu này trong [3]. Trong [4] N.V. Toản đã nghiên cứu quá trình bootstrap với cỡ mẫu lấy lại 𝑁𝑛không độc lập với mẫu gốc và thỏa mãn điều kiện: có một dãy các số nguyên dương (𝑘𝑛)1≤𝑛<∞ tiến ra ∞ khi 𝑛 tiến đến ∞ sao cho dãy ( 𝑁𝑛 𝑘𝑛 ) 1≤𝑛<∞ hội tụ theo xác suất có điều kiện đến một biến ngẫu nhiên dương 𝜐 với xác suất 1. Kết quả đạt được cho thấy có thể sử dụng ước lượng bootstrap với cỡ mẫu ngẫu nhiên thay cho ước lượng bootstrap với cỡ mẫu 𝑛 (?). Trong trường hợp cỡ mẫu lặp lại là biến ngẫu nhiên nhận giá trị nguyên dương 𝑁𝑛độc lập với dãy 𝑋1, 𝑋2, ;và thỏa điều kiện 𝑁𝑛 →𝑃 ∞khi𝑛 → ∞, (4) thì với hầu hết mọi dãy mẫu 𝑋1, 𝑋2, , ‖𝐹𝑁𝑛 ∗ − 𝐹‖ →𝑃 0 khi 𝑛 → ∞. (5) Ở đây, ‖𝐹𝑁𝑛 ∗ − 𝐹‖ = 𝑠𝑢𝑝−∞<𝑡<∞|𝐹𝑁𝑛 ∗ (𝑡) − 𝐹(𝑡)|, với 𝐹𝑁𝑛 ∗ là phân phối thực nghiệm dựa trên mẫu bootstrap 𝑆𝑁𝑛 ∗ có cỡ mẫu ngẫu nhiên là𝑁𝑛. Kết quả này N.V. Toản đã chứng minh trong [5] cho thấy quá trình bootstrap thực nghiệm có hiệu lực khi 𝑁𝑛 thỏa mãn (4). Trong [6] N.V. Toản đã đưa ra điều kiện tổng quát cho cỡ mẫu ngẫu nhiên để quá trình bootstrap thực nghiệm tổng quát với cỡ mẫu ngẫu nhiên được đánh dấu bởi một lớp các hàm ℱ và dựa trên độ đo xác suất 𝑃 thỏa mãn định lý giới hạn trung tâm. Mục tiếp theo trình bày thủ tục bootstrap đối với mô hình hồi quy trong trường hợp cỡ mẫu lấy lại là biến ngẫu nhiên nhận giá trị nguyên dương và độc lập với mẫu gốc. Đồng thời trình bày các điều kiện có thể sử dụng ước lượng bootstrap với cỡ mẫu ngẫu nhiên đối với phân phối của ước lượng bình phương bé nhất. Các kết quả này được chứng minh trong các tài liệu [7] và [8].Phần cuối mục, tác giả minh họa ứng dụng của các kết luận lý thuyết bởi quá trình xác định khoảng tin cậy cho hệ số hồi quy thực nghiệm cho mô hình hồi quy bootstrap với cỡ mẫu ngẫu nhiên. Cụ thể, cỡ mẫu lấy lại 𝑁𝑛là biến ngẫu nhiên nhận giá trị là các số nguyên dương trên [𝑚, 𝑛] với khả năng như nhau tại mọi giá trị, 𝑚 là số nguyên dương nhỏ nhất lớn hơn hoặc bằng 𝑛/4. Khi đó, 𝑃(𝑁𝑛 = 𝑖) = 1 𝑛−𝑚+1 , 𝑖 ∈ {𝑚, , 𝑛} (6) 𝑃(𝑁𝑛 ≥ 𝑘) → 1khi 𝑛 → ∞, với mọi k. (7) Như vậy 𝑁𝑛 là biến ngẫu nhiên nhận giá trị nguyên dương thỏa mãn (4). 2. MÔ HÌNH HỒI QUY BOOTSTRAP VỚI CỠ MẪU NGẪU NHIÊN 2.1 Mô hình hồi quy Xét mô hình tuyến tính bội 𝑌(𝑛) = 𝑋(𝑛)𝛽 + 𝜀(𝑛). (8) Trong phương trình này 𝛽 là một 𝑝 × 1 vectơ của các tham số chưa biết được ước lượng từ dữ liệu. 𝑌(𝑛) là một 𝑛 × 1 vectơ dữ liệu, 𝑌(𝑛) là vectơ ngẫu nhiên hay biến đáp 54 Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 44B(10/2017) Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh ứng. 𝑋(𝑛) là một 𝑛 × 𝑝 ma trận dữ liệu có hạng là 𝑝 ≤ 𝑛, 𝑋(𝑛) còn được gọi là ma trận thiết kế.𝜀(𝑛)là một 𝑛 × 1 vectơ không quan sát được, 𝜀(𝑛) được gọi là sai số ngẫu nhiên, phần dư hay nhiễu. Dữ liệu quan sát có dạng (𝑋(𝑛), 𝑌(𝑛)) và ta gọi 𝑋(𝑛) là tập hợp các điểm thiết kế của mô hình.(𝑋𝑖 , 𝑌𝑖) là hàng thứ 𝑖, 1 ≤ 𝑖 ≤ 𝑛, của (𝑋(𝑛), 𝑌(𝑛)). Ta gọi (8) là mô hình hồi quy nếu các phân tích được đưa ra dựa trên các điểm thiết kế 𝑋(𝑛). Giả thiết (8) thỏa mãn các điều kiện: (A1)𝑋(𝑛) là không ngẫu nhiên. (A2) Trong mô hình (8) các thành phần 𝜀1, 𝜀2, , 𝜀𝑛 của 𝜀(𝑛) là độc lập có cùng phân phối 𝐹 với trung bình bằng 0 và phương sai 𝜎2. Cả 𝐹 và 𝜎2 đều chưa biết. Ước lượng bình phương bé nhất cho 𝛽 là �̂�(𝑛) = (𝑋(𝑛)𝑇𝑋(𝑛))−1𝑋(𝑛)𝑇𝑌(𝑛). (9) Vectơ 𝑌 được khảo sát là giá trị quan sát của vectơ ngẫu nhiên 𝑋(𝑛)𝛽 + 𝜀(𝑛). Khi đó �̂�(𝑛) có trung bình 𝛽 và ma trận hiệp phương sai 𝜎2{𝑋(𝑛)𝑇𝑋(𝑛)}−1. Giả sử (A3) 1 𝑛 {𝑋(𝑛)𝑇𝑋(𝑛)} → 𝑉 xác định dương. Đồng thời giả sử rằng các phần tử của 𝑋(𝑛) đều bé so với √𝑛. Khi đó √𝑛(�̂�(𝑛) − 𝛽) tiệm cận chuẩn với trung bình 0 và ma trận hiệp phương sai 𝜎2𝑉−1. Đặc biệt, phân phối của {𝑋(𝑛)𝑇𝑋(𝑛)}−1/2{�̂�(𝑛) − 𝛽}/𝜎 tiệm cận chuẩn với trung bình 0 và ma trận hiệp phương sai là ma trận đơn vị cấp 𝑝. Nếu ta thêm giả thiết, các phần dư 𝜀𝑖có cùng phân phối chuẩn 𝑁(0, 𝜎2) , tức là 𝜀 = (𝜀1, , 𝜀𝑛) 𝑇 có phân phối chuẩn 𝑁(0, 𝜎2𝐼𝑛).Khi đó ta có thể xác định khoảng tin cậy cho các hệ số hồi quy 𝛽𝑖 và thực hiện các kiểm định về hệ số hồi quy. Trong [9] N.H. Dư đã chỉ ra khi 𝜀 có phân phối chuẩn 𝑁(0, 𝜎2𝐼𝑛) thì 𝑈 = (𝑋 𝑇𝑋)1/2(�̂� − 𝛽) có phân phối chuẩn (0, 𝜎2𝐼𝑝); (�̂� − 𝛽)có phân phối chuẩn 𝑁(0, 𝜎2(𝑋𝑇𝑋)−1).Nếu như điều kiện về phân phối chuẩn của mô hình không chỉ ra được thì quá trình lấy mẫu bootstrap sẽ là một lựa chọn để giải quyết các bài toán thuộc dạng này. 2.2 Mô hình hồi quy bootstrap Giả thiết rằng mô hình hồi quy (8) thỏa mãn các điều kiện A(1-3). Ta xem 𝑋(𝑛) là 𝑛 hàng đầu tiên của một dãy vô hạn các hàng. Tương tự, xem 𝜀1, 𝜀2, , 𝜀𝑛 là 𝑛 phần tử đầu tiên của dãy vô hạn các biến ngẫu nhiên độc lập cùng phân phối 𝐹 . Từ mẫu gốc (𝑋(𝑛), 𝑌(𝑛)) ta tính được ước lượng bình phương bé nhất của 𝛽 là �̂�(𝑛). Từ đó, ta xác định được vectơ phần dư𝜀̂(𝑛) xác định bởi 𝜀̂(𝑛) = 𝑌(𝑛) − 𝑋(𝑛)�̂� (10) Gọi �̂�𝑛 là phân phối thực nghiệm của 𝜀̂(𝑛), có trung tâm tại kỳ vọng, nên �̂�𝑛 đặt trọng lượng 1/𝑛 tại 𝜀�̂�(𝑛) − �̂�𝑛 và ∫ 𝑥 𝑑�̂�𝑛 𝑥 = 0. Theo E. Mammen [10], thực hiện quá trình lấy mẫu bootstrap từ tập các phần dư trung tâm {𝜀1̂ − 𝜀̂. } , trong đó 𝜀̂. = 1 𝑛 ∑ 𝜀�̂� 𝑛 𝑖=1 ta được các bootstrap sai số 𝜀̂∗(𝑛) là 𝑛 vectơ mà thành phần thứ 𝑖 là 𝜀�̂� ∗ ; giả sử 𝜀1̂ ∗, , 𝜀�̂� ∗ độc lập có điều kiện cùng phân phối �̂�𝑛. Đặt 𝑌∗(𝑛) = 𝑋(𝑛)�̂�(𝑛) + 𝜀̂∗(𝑛). (11) Bây giờ ta có bộ số liệu đánh dấu sao để ước lượng tham số. Ước lượng bootstrap của �̂�(𝑛) là �̂�∗(𝑛) = (𝑋(𝑛)𝑇𝑋(𝑛)) −1 𝑋(𝑛)𝑇𝑌∗(𝑛) (12) Nguyên lý bootstrap cho rằng phân phối của √𝑛(�̂�∗ − �̂�), mà ta có thể tính trực tiếp từ dữ liệu, xấp xỉ phân phối của √𝑛(�̂� − 𝛽) . Freedman [7] đã chứng minh rằng xấp xỉ này là rất tốt khi 𝑛 lớn và 𝜎2𝑝. 𝑡𝑟𝑎𝑐𝑒(𝑋𝑇𝑋)−1 nhỏ. Trong [7] Freedman đã phát triển một số định lý xấp xỉ ứng dụng trong mô hình hồi quy bootstrap của Efron với cỡ mẫu lấy lại là 𝑚 khác với 𝑛 là cỡ mẫu ban đầu. Dữ liệu đánh dấu sao sinh bởi 𝑌∗(𝑚) = 𝑋(𝑚)�̂�(𝑛) + 𝜀∗(𝑚) (13) 𝑚 × 1 𝑚 × 𝑝 𝑝 × 1 𝑚 × 1 với 𝜀1̂ ∗, , 𝜀�̂� ∗ độc lập có điều kiện cùng phân phối �̂�𝑛. Bây giờ �̂� ∗(𝑚) là tham số ước lượng dựa trên dữ liệu đánh dấu sao: �̂�∗(𝑚) = (𝑋(𝑚)𝑇𝑋(𝑚)) −1 𝑋(𝑚)𝑇𝑌∗(𝑚)(14) 𝑝 × 1 𝑝 × 𝑝 𝑝 × 𝑚 𝑚 × 1 Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 44B(10/2017) Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 55 √𝑚(�̂�∗(𝑚) − 𝛽 ̂(𝑛)) là xấp xỉ phân phối rất tốt của √𝑛(�̂� − 𝛽) khi 𝑚 lớn và 𝜎2𝑝. 𝑡𝑟𝑎𝑐𝑒(𝑋𝑇𝑋)−1 nhỏ. Trong [7] Freedman đã khẳng định hầu chắc chắn của tiệm cận khi 𝑚 và 𝑛 tiến tới ∞ . Trong [8] N.V. Toản đã chứng minh quá trình bootstrap có hiệu lực với mô hình hồi quy nếu cỡ mẫu bootstrap 𝑁𝑛 là biến ngẫu nhiên nhận giá trị nguyên dương, độc lập với 𝑌1, 𝑌2, , 𝑌𝑛 và thỏa mãn (4). 2.3 Mô hình hồi quy bootstrap với cỡ mẫu ngẫu nhiên Giả sử mô hình hồi quy (8) thỏa mãn A(1-3). Theo hầu hết các dãy mẫu, cho 𝑌1, 𝑌2, , 𝑌𝑛, N. V. Toản trong [8] đã chứng minh được khi 𝑛 tiến tới ∞: (B1) Phân phối có điều kiện của √𝑁𝑛{�̂� ∗(𝑁𝑛) − �̂�(𝑛)} hội tụ yếu đến phân phối chuẩn với trung bình 0 và ma trận hiệp phương sai 𝜎2𝑉−1. (B2) Phân phối có điều kiện của �̂�𝑁𝑛 ∗ hội tụ đến điểm có khối lượng tại 𝜎. (B3) Phân phối có điều kiện của {𝑋(𝑁𝑛) 𝑇𝑋(𝑁𝑛)} −1/2{�̂�∗(𝑁𝑛) − �̂�(𝑛)}/�̂�𝑁𝑛 ∗ hội tụ đến phân phối chuẩn trong ℝ𝑝. Để minh họa cho các kết quả đã được chứng minh trong lý thuyết, tác giả xây dựng quá trình xác định hệ số hồi quy bootstrap thực nghiệm với cỡ mẫu thực nghiệm là một biến ngẫu nhiên. Các bước thực hiện quá trình lấy lại mẫu bootstrap từ mẫu gốc ban đầu và xác định hệ số hồi quy của mô hình hồi quy bootstrap với cỡ mẫu ngẫu nhiên được trình bày như sau: Bước 1: Từ số liệu gốc ban đầu (𝑋𝑖 , 𝑌𝑖) trong đó 1 ≤ 𝑖 ≤ 𝑛 ta tính được ước lượng bình phương bé nhất �̂�(𝑛) của 𝛽 trong mô hình hồi quy (8) theo công thức (9). Bước 2: Xác định các thành phần của vectơ phần dư 𝜀̂(𝑛)là 𝜀�̂� = 𝑌𝑖 − 𝑋𝑖�̂�,1 ≤ 𝑖 ≤ 𝑛. Bước 3: Xác định một giá trị ngẫu nhiên của biến ngẫu nhiên 𝑁𝑛.Lấy ngẫu nhiên lần lượt có hoàn lại từ tập các phần dư trung tâm {𝜀1̂ − 𝜀̂. } , trong đó 𝜀̂. = 1 𝑛 ∑ 𝜀�̂� 𝑛 𝑖=1 , ta được các bootstrap sai số 𝜀̂∗(𝑁𝑛) là 𝑁𝑛 vectơ mà thành phần thứ 𝑖 là 𝜀�̂� ∗. Bước 4: Đặt 𝑌∗(𝑁𝑛) = 𝑋(𝑁𝑛)�̂�(𝑛) + 𝜀̂∗(𝑁𝑛) với thành phần thứ 𝑖, 1 ≤ 𝑖 ≤ 𝑁𝑛 là 𝑌𝑖 ∗ = 𝑋𝑖�̂� + 𝜀�̂� ∗. Bước 5: Với mỗi dữ liệu sao (𝑋(𝑁𝑛), 𝑌 ∗(𝑁𝑛)) ta tính được ước lượng bootstrap của �̂�(𝑛) là �̂�∗(𝑁𝑛) = (𝑋(𝑁𝑛) 𝑇𝑋(𝑁𝑛)) −1 𝑋(𝑁𝑛) 𝑇𝑌∗(𝑁𝑛) (15) là một vectơ 𝑝 × 1. Ta xét một ví dụ minh họa về mô hình 𝑌 = 𝑋𝛽 + 𝜀 có vectơ tham số 𝛽 = (𝛽1, 𝛽2, 𝛽3) 𝑇 chưa biết đang cần ước lượng; vectơ dữ liệu 𝑌 cấp 150 × 1; ma trận thiết kế 𝑋 cấp 150 × 3 và vectơ sai số 𝜀 = (𝜀1, , 𝜀150) 𝑇 không quan sát được. Đầu tiên ta khảo sát đồ thị của các dữ liệu. Hình 1. Đồ thị phân tán biểu diễn mối quan hệ giữa 𝑋 và 𝑌 Theo hình 1, các điểm tập trung gần một mặt phẳng nên ta dự đoán có thể sử dụng mô hình hồi quy tuyến tính để biểu diễn mối quan hệ giữa 𝑋 và 𝑌. Từ các sai số𝜀�̂� tính được ta vẽ đồ thị phân tán của𝜀�̂� theo giá trị dự đoán 𝑦𝑖, được hình 2. Xu thế trong đồ thị sẽ chứng tỏ các sai số 𝜀�̂�có độc lập hay phụ thuộc với 𝑦𝑖. 5 10 15 10 15 20 25 40 60 80 100 120 140 X the second columnX the third column Y 56 Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 44B(10/2017) Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh Hình 2. Đồ thị phân tán của các sai số𝜀�̂� và giá trị dự đoán 𝑦𝑖 Trong hình 2 ta thấy không có xu thế nào của chùm điểm thể hiện mối quan hệ giữa sai số 𝜀�̂� và giá trị dự đoán 𝑦𝑖 nên ta chấp nhận giả thuyết độc lập giữa sai số 𝜀 và biến dự đoán 𝑌. Mặt khác ta thấy khoảng rộng của độ lệch gần như là như nhau tại mọi phần của đồ thị nên ta chấp nhận giả thuyết phương sai của sai số 𝜀 là không đổi. Như vậy, bộ số liệu thỏa mãn A(1-3). Hình 3. Biểu đồ mô phỏng phân phối của các sai số 𝜀�̂� Hình 3 cho thấy sai số 𝜀 không có phân phối chuẩn và ta cũng chưa biết dạng phân phối của các sai số 𝜀. Như vậy với số liệu này ta không thể sử dụng các phương pháp xác định hệ số hồi quy truyền thống. Trong bài báo này tác giả sử dụng phần mềm Matlab để phân tích số liệu. Sau đây là thuật toán tìm khoảng tin cậy 95% của tham số hồi quy 𝛽 bằng cách sử dụng quá trình bootstrap với cỡ mẫu lấy lại là biến ngẫu nhiên có phân phối đều trên [𝑛/4; 𝑛]. >>[n p]=size(X); # Xác định cỡ ma trận X >>hatbeta=inv(X'*X)*X'*Y # Ước lượng hợp lý cực đại của 𝛽. hatbeta = [3.7457 4.0935 2.9579] T >>hatepsilon=Y-X*hatbeta; # Vectơ 𝜀̂(𝑛) >>data=hatepsilon- (sum(hatepsilon)/n)*ones(n,1);# Ma trận phần dư trung tâm đóng vai trò là mẫu gốc để lấy lại mẫu. >>betaB=zeros(p,10000); >> r=randi(n,1,10000); # Dãy 10000 số nguyên dương ngẫu nhiên có giá trị 1 đến n. >>forI =1:10000rs=r(1,i); Whilers<(n/4)rs=randi(n,1,1);end Es=zeros(rs,1); # Ma trận phần dư bootstrap Xs=zeros(rs,p);# Ma trận 𝑋 gồm các hàng tương ứng với các 𝜀�̂� lấy lại từ mẫu gốc. while det(Xs'*Xs)=0 rb=randi(n,1,rs); for j=1:rs k=rb(1,j);Es(j,1)=data(k,1);Xs(j,:)=X(k,:); end Ys=Xs*hatbeta+Es; betaB(:,i)=inv(Xs'*Xs)*Xs'*Ys; # Hệ số 𝛽 bootstrap tương ứng mẫu lấy lại thứ i. end Hình 4. Đồ thị các hệ số 𝛽1 bootstrap với cỡ mẫu ngẫu nhiên có phân phối đều trên [𝑛/4; 𝑛]. 50 60 70 80 90 100 110 120 130 140 -6 -4 -2 0 2 4 6 Y h a te p s ilo n Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 44B(10/2017) Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 57 Hình 5. Biểu đồ mô phỏng phân phối của các hệ số 𝛽1 bootstrap với cỡ mẫu ngẫu nhiên có phân phối đều trên [𝑛/4; 𝑛]. Khoảng ước lượng bootstrap với cỡ mẫu ngẫu nhiên của hệ số 𝛽1với độ tin cậy 95% là (0.4768;6.9116). Hình 6. Đồ thị các hệ số 𝛽2 bootstrap với cỡ mẫu ngẫu nhiên có phân phối đều trên [𝑛/4; 𝑛]. Hình 7. Biểu đồ mô phỏng phân phối của các hệ số 𝛽2 bootstrap với cỡ mẫu ngẫu nhiên có phân phối đều trên [𝑛/4; 𝑛]. Khoảng ước lượng bootstrap với cỡ mẫu ngẫu nhiên của hệ số 𝛽2với độ tin cậy 95% là (3.8840; 4.3157). Hình 8. Đồ thị các hệ số 𝛽3 bootstrap với cỡ mẫu ngẫu nhiên có phân phối đều trên [𝑛/4; 𝑛]. Hình 9. Biểu đồ mô phỏng phân phối của các hệ số 𝛽3 bootstrap với cỡ mẫu ngẫu nhiên có phân phối đều trên [𝑛/4; 𝑛]. Khoảng ước lượng bootstrap với cỡ mẫu ngẫu nhiên của hệ số 𝛽3với độ tin cậy 95% là (2.8223; 3.0974). Ta bác bỏ các giả thuyết 𝛽1 = 0; 𝛽2 = 0; 𝛽3 = 0 ; vì các khoảng ước lượng bootstrap với cỡ mẫu ngẫu nhiên của các hệ số này không chứa 0. Hình 10. Đồ thị phân tán của các hệ số 𝛽𝑖 bootstrap với cỡ mẫu ngẫu nhiên có phân phối đều trên [𝑛/4; 𝑛]. 58 Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 44B(10/2017) Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh Để so sánh kết quả giữa các phương pháp bootstrap, ta xác định hệ số hồi quy bootstrap trong trường hợp cỡ mẫu lấy lại cố định bằng cỡ mẫu gốc 𝑛 ; hoặc bằng 𝑚 = [0.625𝑛] < 𝑛hay bằng𝑀 = 2𝑛 ; và trường hợp cỡ mẫu bootstrap ngẫu nhiên sao cho mẫu lấy lại có đúng 𝑚 ≈ 𝑛(1 − 𝑒−1) ≈ 0.632𝑛 phần tử phân biệt của mẫu gốc. Tổng hợp các kết quả từ quá trình phân tích số liệu ta có bảng 1, từ đó ta có cùng kết luận là các hệ số hồi quy bootstrap của mô hình này khác 0. Bảng 1. Khoảng tin cậy 95% của các hệ hồi quy bootstrap. Khoảng ước lượng bootstrap với độ tin cậy 95% Cỡ mẫu lấy lại 𝑁𝑛 là biến ngẫu nhiên có phân phối đều trên [𝑛/4; 𝑛]. 𝛽1 (0.4768;6.9116) 𝛽2 (3.8840; 4.3157) 𝛽3 (2.8223; 3.0974) Cỡ mẫu lấy lại cố định bằng cỡ mẫu gốc 𝑛. 𝛽1 (1.3645; 6.0832) 𝛽2 (3.9397; 4.2466) 𝛽3 (2.8591; 3.0600) Cỡ mẫu lấy lại cố định là 𝑚 nhỏ hơn cỡ mẫu gốc 𝑛. 𝛽1 (0.7706; 6.7809) 𝛽2 (3.9035; 4.2915) 𝛽3 (2.8316; 3.0852) Cỡ mẫu lấy lại cố định là 𝑀 = 2𝑛 lớn hơn cỡ mẫu gốc 𝑛. 𝛽1 (2.1015; 5.3848) 𝛽2 (3.9857; 4.2048) 𝛽3 (2.8890; 3.0285) Cỡ mẫu lấy lại là ngẫu nhiên sao cho có đúng 𝑚 ≈ 𝑛(1 − 𝑒−1) phần tử phân biệt của mẫu gốc. 𝛽1 (1.8359; 5.1854) 𝛽2 (3.9903; 4.2081) 𝛽3 (2.9003; 3.0438) 3. KẾT LUẬN Quá trình phân tích thực nghiệm đã minh họa được cụ thể quá trình xác định khoảng tin cậy cho hệ số hồi quy cho mô hình hồi quy bootstrap với cỡ mẫu cố định và trường hợp cỡ mẫu lấy lại là ngẫu nhiên. Trong bài báo này, tác giả đã thực hiện được quá trình xác định hệ số hồi quy bootstrap thực nghiệm với cỡ mẫu lấy lại là biến ngẫu nhiên có phân phối đều [𝑛/4; 𝑛]. Qua đó làm phong phú thêm các phương pháp xác định các hệ số hồi quy bootstrap. Kết quả phân tích thực nghiệm cho thấy nếu cỡ mẫu lấy lại tăng thì độ dài của khoảng ước lượng giảm. Tuy nhiên, khi cỡ mẫu gốc ban đầu là 𝑛 lớn nếu ta lấy cỡ mẫu lấy lại là bằng cỡ mẫu gốc hoặc bằng𝑀 = 2𝑛 thì số lần lấy phần tử từ mẫu gốc khi lấy 𝑏 mẫu bootstrap là 𝑛𝑏 hay2𝑛𝑏 sẽ rất lớn, làm tốn thời gian cho quá trình phân tích số liệu. Trường hợp cỡ mẫu lấy lại là biến ngẫu nhiên mà cụ thể là biến ngẫu nhiên có phân phối đều trên trên [𝑛/4; 𝑛] thì số lần lấy phần tử trung bình là 𝐸(𝑁𝑛)𝑏 = 1 2 ( 𝑛 4 + 𝑛) 𝑏 = 0.625𝑛𝑏 sẽ tiết kiệm thời gian hơn cho quá trình phân tích số liệu. Trong [11] N.V. Toản đã chỉ ra tốc độ hội tụ của xấp xỉ bootstrap của phân phối trung bình mẫu với cỡ mẫu lấy lại là biến ngẫu nhiên 𝑁𝑛. Hướng nghiên cứu tiếp theo có thể thực hiện việc xác định tốc độ hội tụ của xấp xỉ bootstrap của phân phối ước lượng bình phương bé nhất trong mô hình hồi quy có cỡ mẫu bootstrap cố định hay là biến ngẫu nhiên 𝑁𝑛 . Biến ngẫu nhiên 𝑁𝑛 là số nguyên dương thuộc [𝑎, 𝑏] hoặc𝑁𝑛 là số lần lấy phần tử từ mẫu gốc cho đến khi xuất hiện 𝑚 ≈ 𝑛(1 − 𝑒−1) ≈ 0.632𝑛 phần tử phân biệt trong mẫu gốc. TÀI LIỆU THAM KHẢO [1] Bradley Efron. Bootstrap method: Another look at the Jacknife. Ann. Statist. 7. (1979). [2] E. Mammen. Bootstrap, wild bootstrap, and asymptotic normality. Probab. Theory Relat. Fields 93, 439–455 (1992). Tạp Chí Khoa Học Giáo Dục Kỹ Thuật Số 44B(10/2017) Trường Đại Học Sư Phạm Kỹ Thuật TP. Hồ Chí Minh 59 [3] C. R. Rao, P.K. Pathak, and V. I. Koltchinskii. Bootstrap by sequential resampling. J. Statist. Plan. Inference 64.(1997). [4] Toan, N.V. On the asymptotic distribution of the bootstrap estimate with random resample size. Vietnam J. Math. 33:3, 261–270 (2005). [5] Toan, N.V. Rate of convergence in bootstrap approximations with random sample size. Acta Mathematica Vietnammica, 25. 161-179 (2000). [6] Toan, N.V. On Weak Convergence of the Bootstrap General Empirical Process with Random Resample Size. Vietnam J. Math, 42, 233–245 (2014). [7] D. A. Freedman. Bootstrap regression models. Ann. Statist. 9. (1981). [8] Toan, N.V. On bootstrapping regression and correlation models with random resample size. Vietnam J. Math, 37, 443–456 (2009). [9] Hữu, N.V and Dư, N.H. Phân tích thống kê và Dự báo. NXB ĐH Quốc Gia Hà Nội. (2003). [10] E. Mammen. When does bootstrap work. Springer-Verlag New York, Inc. (1992). [11] Toan, N.V. On weak convergence of the bootstrap empirical process with random resample size.Vietnam J. Math. 28:2, 153–158 (2000). Tác giả chịu trách nhiệm bài viết: Nguyễn Hồng Nhung Trường Đại học Sư phạm Kỹ thuật Tp. HCM Email: nhungnh@hcmute.edu.vn
File đính kèm:
- mo_hinh_hoi_quy_bootstrap_voi_co_mau_ngau_nhien.pdf