Giáo trình Kinh tế lượng (Phần 3) - Ebook.pdf (Sách)

Khoa Kinh tế ĐHQG TP.HCM Kinh tế lượng ©2007 CHƯƠNG 3: HỒI QUI ĐƠN BIẾN 3.1 Bản chất thống kê của mô hình hồi quy đơn biến Phương pháp ước lượng LS, về thực chất, chỉ là vẽ một đường hồi quy đi xuyên qua “đám bụi” dữ liệu, sao cho tổng bình phương các phần dư [hay sai số] ESS là nhỏ nhất. Nhưng việc đo lường mang tính thuần túy đại số đó chưa có gì bảo đảm chắc chắn rằng nó sẽ cho ^ ^ ra những ước lượng α , β tốt nhất của các tham số tổng thể α , β theo những tiêu chuẩn xác định về mặt thống kê. Để có thể những đánh giá cụ thể hơn về độ tốt của ước lượng, chúng ta cần xem xét sâu hơn bản chất thống kê của mô hình hồi quy. Để dễ hình dung, chúng ta bắt đầu bằng sự giả định phi thực rằng, quan hệ giữa biến X và Y [chẳng hạn như giữa thu nhập và tiêu dùng] chỉ tuân theo quy luật xác định, và hoàn toàn không bị chi phối bởi các yếu tố ngẫu nhiên. Khi đó, các quan sát {x n , y n }nN=1 sẽ nằm gọn trên một đường thẳng mô tả xu thế thực của tổng thể: Y =α +β ⋅X x x x x x x yn x βˆ ≡ β Không có yếu tố ngẫu nhiên tác động R2 = 1 x 0 xn Đồ thị 3.1a: quy luật xác định giữa X và Y. ^ ^ Khi đó, việc ước lượng trở nên tầm thường, vì ta luôn có α = α , β = β , và R 2 = 1 . Lê Hồng Nhật Trần Thiện Trúc Phượng 1 Khoa Kinh tế ĐHQG TP.HCM Kinh tế lượng ©2007 Bây giờ, chúng ta cho phép các yếu tố ngẫu nhiên tác động lên quan hệ giữa X , Y . Như đã nêu, các nhân tố này khiến cho các quan sát {x n , y n }nN=1 bị lệch một cách ngẫu nhiên khỏi đường xu thế tổng thể. Vì vậy, thay vì nhìn thấy một đường xu thẳng tuyến tính như trên hình 3.1a, ta chỉ nhìn thấy một đám bụi dữ liệu bám xung quanh một xu thế nào đó mà ta muốn ước lượng. x x x x x x x x 0 Đồ thị 3.1b: Quan hệ giữa X và Y bị nhiễu bởi các yếu tố ngẫu nhiên Trên Đồ thị 3.1b, ta thấy các điểm quan sát {x n , y n }nN=1 , trước đây nằm trên cùng một đường thẳng trên hình 3.1a, nay bị “thổi bay” lên thành một “đám bụi” dữ liệu, mà việc “chụp ảnh” chúng [tức là đi thu thập dữ liệu], rồi vẽ một đường hồi quy chạy xuyên qua chúng sẽ không nhất thiết là trùng với quy luật tổng thể (mô tả bởi gạch chấm). Điều này ^ gợi ý rằng mỗi ước lượng β chịu sự quy định bởi tham số tổng thể β , nhưng bị lái đi bởi ^ ^ các biến ngẫu nhiên. [Tương tự, ta có thể nói như vậy về α ]. Vì vậy, β cũng là một biến ngẫu nhiên. Vấn đề đặt ra là, về trung bình mà nói [tức là sau rất nhiều lần chụp ảnh các ^ đám bụi dữ liệu], liệu ước lượng β có thể hiện đúng β hay không? Và liệu phương pháp ước lượng bình phương cực tiểu có là hiệu quả nhất hay không? Về mặt toán học, phương pháp bình phương cực tiểu cho ta ước lượng sau: Lê Hồng Nhật Trần Thiện Trúc Phượng 2 Khoa Kinh tế ĐHQG TP.HCM Kinh tế lượng βˆ = S XY = S XX ∑ (x n ©2007 − x )( y n − y ) (3.1) S XX Hay cũng vậy, βˆ = [điều này là do ∑ ∑ (x n − x )yn (3.2) S XX − ( xn − x ) y = 0 , như đã chỉ ra ở chương 1, phần ôn tập]. n − ( x − x) Trong (3.2), ta đặt c n = n , và nhận xét rằng, tham số đó chỉ phụ thuộc vào các quan S XX sát {x n }nN=1 . Do vậy, nó không chịu ảnh hưởng bởi các yếu tố ngẫu nhiên. Khi đó, công thức (3.2) có thể viết lại như sau: ^ β = ∑n c n y n = ∑n c n [α + β x n + ε n ] = α ∑ cn + β ∑ cn xn + ∑ cnε n Chúng ta có thể dễ dàng chỉ ra rằng, ∑c n n = 0 và β̂ = β + ∑ cnε n ∑c n n x n = 1. Và do vậy: (3.3) Phương trình (3.3) khẳng định nhận định trước đây về β̂ là đúng: Ước lượng β̂ bị ảnh hưởng bởi các yếu tố ngẫu nhiên ε n , làm giá trị của nó không trùng khít với β tổng thể. Và vì vậy, β̂ cũng là một biến ngẫu nhiên. Chúng ta gọi β̂ là ước lượng không chệch, nếu Eβˆ = β . Và gọi nó là ước lượng hiệu ^ quả nhất, nếu sai số ước lượng Varβˆ = E ( β − β ) 2 là nhỏ nhất trong lớp tất cả các ước lượng tuyến tính, không chệch. Lê Hồng Nhật Trần Thiện Trúc Phượng 3 Khoa Kinh tế ĐHQG TP.HCM Kinh tế lượng ©2007 Để trả lời xem β̂ có phải là ước lượng không chệch và hiệu quả hay không, ta phải xét đến bản chất thống kê của các quá trình ngẫu nhiên {ε n }nN=1 [mà ta đã ví chúng như những “cơn gió”, ngẫu nhiên “thổi bay” các quan sát khỏi đường xu thế xác định của tổng thể]. 3.2 Các yếu tố ngẫu nhiên Chúng ta hãy nêu lên giả định về các quá trình ngẫu nhiên. Hãy nhìn vào đồ thị sau: Đồ thị 3.2: Quy luật phân phối xác suất của các nhiễu {ε n }nN=1 Như đã nhận xét từ các Đồ thị 3.1a và 3.1b, khi không có các tác động ngẫu nhiên, hay ε n = 0 , các quan sát {x n , y n }nN=1 nằm ngay trên đường xu thế của tổng thể. Dưới tác động của yếu tố ngẫu nhiên, các quan sát {x n , y n }nN=1 nằm rải ra, nhưng “bám” xung quanh đường xu thế. Rất hiếm khi có quan sát bị “thổi” mạnh tới nỗi “bay” quá xa so với đường xu thế. Điều đó dẫn đến hai giả thiết sau: Lê Hồng Nhật Trần Thiện Trúc Phượng 4 Khoa Kinh tế ĐHQG TP.HCM Kinh tế lượng ©2007 A1 Eε n = 0, với mọi n. [Bụi giữ liệu không thể bay quá xa, mà bám xung quanh đường tổng thể] A2 Varε n = σ 2 , với mọi n. [Độ tán xạ của đám bụi dữ liệu được thể hiện bởi độ lớn của σ 2 ]. Chúng ta cũng coi rằng quy luật tác động của “cơn gió”, tức là phân bố xác suất của yếu tố ngẫu nhiên ε n là như nhau (identical), và theo phân bố chuẩn. Hơn nữa, các yếu tố ngẫu nhiên đó là độc lập (independent). Vì vậy, kết hợp với các giả thiết A1 và A2, ta có: iid A3 ε n ~ N (0, σ 2 ) với mọi n. Cuối cùng, ta coi ta coi x n là xác định trước. Từ giả thiết A1 và dạng mô hình y n = α + βx n + ε n , điều đó bao hàm rằng: A4 E ( y n | x n ) = α + βx n , với mọi n. Hai giả thiết cuối là quan trọng nhất. A3 tóm tắt mọi đặc trưng thống kê của nhiễu ngẫu nhiên, và A4 mô tả xu thế của tổng thể, mà ta ước lượng nó theo phương pháp bình phương cực tiểu. 3.3 Những đặc trưng thống kê của ước lượng bình phương cực tiểu Bây giờ ta có thể nói đến tính tốt của các ước lượng theo các tiêu chuẩn thống kê . Từ phương trình (3.3), ta đã có: βˆ = β + ∑ cnε n . Bây giờ, hãy áp dụng toán tử kỳ vọng vào hai vế của (3.3): Eβˆ = E ( β + ∑ c n ε n ) = β + ∑ c n Eε n =β [ở đây, ta sử dụng giả thiết A1: Eε n = 0 ].Ta đi đến kết luận rằng, ước lượng βˆ là không chệch: Lê Hồng Nhật Trần Thiện Trúc Phượng 5 Khoa Kinh tế ĐHQG TP.HCM Kinh tế lượng Eβˆ = β ©2007 (3.4) Tiếp theo, sử dụng công thức: Var ( x) = Var ( x − Ex) [xem chương 1, phần ôn tập], và lưu ý (3.3), (3.4), ta có: ^ Varβ̂ = Var ( β − β ) = Var (∑ c n ε n ) Sử dụng giả thiết A3 về tính độc lập của các yếu tố ngẫu nhiên, cuối cùng ta nhận được: Varβˆ = ∑ c n2Varε n = σ 2 ∑ c n2 , hay ^ Var β = σ2 (3.5) S XX 2 − ⎡ ⎤ − ( x x )⎥ S 1 2 n (ở đây, ta sử dụng cái điều là ∑ c n = ∑ ⎢ = XX = ) 2 ⎢ S XX ⎥ S XX S XX ⎣ ⎦ Định Lý Gauss - Markov: Phương pháp bình phương cực tiểu có sai số ước lượng, đo ^ lường bởi Var β , là nhỏ nhất trong lớp tất cả các ước lượng tuyến tính và không chệch. Định lý Gauss-Markov là hết sức quan trọng. Nó nêu lên rằng, chúng ta có được những tính chất rất tốt cho ước lượng theo phương pháp bình phương cực tiểu, mà chỉ đòi hỏi có trung bình bằng zero, tính độc lập, và phương sai giống nhau của các yếu tố ngẫu nhiên – tức là giả thiết A3. Chúng ta cũng nên nói thêm là, phương trình (3.5) có một ý nghĩa thực tiễn đáng lưu ý. Nó ^ nói rằng sai số của ước lượng Var β sẽ nhỏ đi, hay hiệu quả ước lượng sẽ tăng lên, nếu độ đa dạng của thông tin quan sát, đo bởi S XX , tăng lên. Điều đó bao hàm rằng, khi làm nghiên cứu, ta không cứ nhất thiết phải tăng rất lớn số quan sát (sample size) N. Nếu giả thiết về tính tuyến tính của đường hồi quy là đúng, thì việc tăng độ đa dạng của thông tin quan sát, 6 Lê Hồng Nhật Trần Thiện Trúc Phượng Khoa Kinh tế ĐHQG TP.HCM Kinh tế lượng ©2007 − hay biên độ giao động của biến giải thích, S XX = ∑n ( x n − x) 2 , sẽ làm cho ước lượng có độ chính xác cao hơn. Hãy xét các ví dụ sau: A x x x x x x x 0 Đồ thị 3.3a: Ước lượng có độ chính xác thấp, do S XX nhỏ. Trên Đồ thị 3.3a, giả sử ta có số quan sát N rất lớn, nhưng với biên độ giao động S XX nhỏ. Khi đó, chỉ cần bỏ đi một quan sát như ứng với điểm A thôi, thì cũng đủ làm các hệ số ước ^ ^ lượng {α , β } thay đổi rất mạnh [từ đường mầu đỏ chuyển sang đường tô mầu da cam]. ^ Điều đó chứng tỏ sai số ước lượng, đo bởi Var β , là lớn. Ta sẽ xét kỹ hơn vấn đề này trong chương 7 về đa cộng tuyến (multicollinearity). A x x x x x x x x x x 0 x Đồ thị 3.3b: Ước lượng có độ chính xác cao hơn, ứng với S XX lớn hơn. Lê Hồng Nhật Trần Thiện Trúc Phượng 7 Khoa Kinh tế ĐHQG TP.HCM Kinh tế lượng ©2007 Trên Đồ thị 3.3b, việc loại bỏ đi một vài quan sát, như điểm A, sẽ ít làm thay đổi các hệ số ước lượng. Kết quả ước lượng có độ ổn định cao hơn và chính xác hơn. Tuy nhiên, những nhận xét trên chỉ đúng, khi giả thuyết tuyến tính của đường hồi quy là đúng. Đôi khi, giá trị rất lớn của S XX lại hàm ý rằng giả thuyết tuyến tính là đáng nghi vấn: x x x x x x x x x x x 0 Đồ thị 3.3c: Quy luật tổng thể không phải là tuyến tính (gây nên S XX lớn) Đồ thị 3.3c thể hiện rằng, việc hiểu sai về bản chất kinh tế đã gây nên việc áp dụng sai mô hình hồi quy tuyến tính. Những sai lầm kiểu như vậy dẫn đến yêu cầu phải kiểm định giả thuyết thống kê về tính có ý nghĩa của các tham số của mô hình. Đó là chủ đề của phần 3.4.2 của chương này. Việc sử dụng các dạng hàm khác nhau (functional forms) để mô tả quy luật chi phối các dữ liệu quan sát {x n , y n }nN=1 là một chủ đề khác nữa, mà nó cũng sẽ được đề cập trong chương 6. 3.4 Kiểm định giả thuyết thống kê Để có màu sắc kinh tế, ta hãy xét vấn đề kiểm định thông qua một ví dụ cụ thể. Ví dụ 3.5: Một công ty bảo hiểm ở Mỹ muốn kinh doanh bảo hiểm nhân thọ. Họ tiến hành nghiên cứu tiềm năng của thị trường sở tại. Lý luận kinh tế đã chỉ ra rằng, yêu cầu về mua bảo hiểm tăng lên cùng với khả năng xẩy ra rủi ro, với quy mô về tổn thất tài chính khi rủi ro xẩy ra, và với tâm lý ngại rủi ro của cá nhân. Họ nhận định rằng, gia đình càng giầu có nhờ kinh doanh, thì người chủ gia đình càng chịu nhiều stress. Tức là, những người lệ thuộc càng ngại rủi ro gây nên bởi stress cho người chủ gia đình, hơn là tại những gia đình có thu Lê Hồng Nhật Trần Thiện Trúc Phượng 8 Khoa Kinh tế ĐHQG TP.HCM Kinh tế lượng ©2007 nhập thấp, ít tham dự vào kinh doanh. Vì vậy, ban nghiên cứu thị trường của công ty bảo hiểm này đề xuất mô hình sau: INS = α + βINC Trong đó, INS là giá trị hợp đồng bảo hiểm, được trả cho bên mua bảo hiểm, nếu xẩy ra rủi ro. Và INC là thu nhập. Cả hai biến lượng đều tính bằng nghìn dollars. Dữ liệu điều tra và kết quả ước lượng được ghi lại trong các bảng dưới đây obs 1 2 3 4 5 6 7 8 9 10 INSUR 90 165 220 145 114 175 145 192 395 339 INC 25 40 60 30 29 41 37 46 105 81 obs 11 12 13 14 15 16 17 18 19 20 INSUR 230 262 570 100 210 243 335 299 305 205 INC 57 72 140 23 55 58 87 72 80 48 Bảng 3.1: Số liệu điều tra về nhu cầu mua bảo hiểm Lê Hồng Nhật Trần Thiện Trúc Phượng 9 Khoa Kinh tế ĐHQG TP.HCM Kinh tế lượng ©2007 INSUR vs. INC 600 500 INSUR 400 300 200 100 0 20 40 60 80 100 120 140 160 INC Đồ thị 3.4: Nhu cầu mua bảo hiểm Sử dụng eviews, chúng ta nhận được kết quả hồi quy dưới đây: Dependent Variable: INSUR Method: Least Squares Date: 04/21/07 Time: 21:41 Sample: 1 20 Included observations: 20 Variable Coefficient Std. Error t-Statistic Prob. C INC 6.854991 3.880186 7.383473 0.112125 0.928424 34.60601 0.3655 0.0000 R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat Lê Hồng Nhật Trần Thiện Trúc Phượng 0.985192 0.984370 14.35730 3710.375 -80.61033 3.175965 Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion F-statistic Prob(F-statistic) 236.9500 114.8383 8.261033 8.360606 1197.576 0.000000 10

Giáo trình Kinh tế lượng (Phần 3) - Ebook

Nội dung