PreviousIndexNextHome


CHƯƠNG 5:            

PHÂN TÍCH PHƯƠNG SAI

(Analysis of Variance)  

  1. PHÂN TÍCH PHƯƠNG SAI MỘT CHIỀU

    1. Trường hợp k tổng thể được giả định có phân phối chuẩn và có phương sai bằng nhau

    2. Trường hợp các tổng thể được giả định có phân phối bất kỳ

  2. PHÂN TÍCH PHƯƠNG SAI HAI CHIỀU

    1. Trường hợp có một quan sát mẫu trong một ô

    2. Trường hợp có hơn một quan sát trong một ô

  3. PHÂN TÍCH SÂU ANOVA

  4. THỰC HIỆN ANOVA TRÊN PHẦN MỀM EXCEL

    BÀI TẬP


 

            Mục tiêu của phân tích phương sai là so sánh trung bình của nhiều tổng thể dựa trên các trung bình mẫu và thông qua kiểm định giả thuyết để kết luận. Trong chương này chúng ta đề cập đến hai mô hình phân tích phương sai: phân tích phương sai một chiều và phân tích phương sai hai chiều.

I.    PN TÍCH PHƯƠNG SAI MỘT CHIỀU (One-Way Analysis of Variance)

Top

            Phân tích phương sai một chiều là phân tích dựa trên ảnh hưởng của một nhân tố (Single factor).

     1. Trường hợp k tổng thể được giả định có phân phối chuẩn và có phương sai bằng nhau:

Top

Giả sử rằng chúng ta muốn so sánh trung bình của k tổng thể có phương sai bằng nhau dựa trên những mẫu ngẫu nhiên độc lập gồm n1, n2 , ... , nk quan sát từ k tổng thể khác nhau có phân phối chuẩn. Nếu trung bình của các tổng thể được kí hiệu là (1 , (2 , . , (k thì mô hình phân tích phương sai một chiều được mô tả dưới dạng kiểm định giả thuyết như sau: 

                        H0: m1 = m2 = ... = mk  

Nghĩa là giả thuyết H0 cho rằng trung bình của k tổng thể khác nhau thì bằng nhau. Ðể kiểm định giả thuyết này cần thực hiện các bước sau:

Bước 1:

            Trước tiên, tính các trung bình mẫu từ những quan sát của các mẫu ngẫu nhiên độc lập Ĩ) và trung bình chung của tổng thể Ĩ) từ trường hợp tổng quát như sau:

          Bảng 5.1: Bảng số liệu tổng quát      

Tổng thể

1

2         

...

k

x11

x21     

...

xk1

x12

x22      

...

xk2

.....

.....     

...

.....

x1n1

x2n2    

...

xknk

·        Tính trung bình mẫuĠ:

                                        (i=1,2,....,k)

·        Và trung bình chung của k tổng thểĠ:

                                                                       

  Bước 2:

            Tính trung bình bình phương giữa các nhóm trong tổng thể (MSG) từ tổng bình phương giữa các nhóm (SSG), trung bình bình phương trong từng nhóm riêng biệt (MSW) từ tổng bình phương trong từng nhóm (SSW), và tính tổng bình phương của toàn mẫu quan sát (SST). 

Tính tổng bình phương trong từng nhóm riêng biệt.- SSW (Sum of  Squares within-groups):  

·        Tính cho nhóm thứ nhất:      ĉ

·        Tính cho nhóm thứ hai:

                                                           

Tương tự như vậy ta có thể tính cho nhóm thứ k. Vậy tổng bình phương trong từng nhóm được tính như sau:   

SSW = SS1 + SS2 + ... + SSk

Tương tự như vậy ta có thể tính cho nhóm thứ k. Vậy tổng bình phương trong từng nhóm được tính như sau:

 

SSW = SS1 + SS2 + ... + SSk

Hoặc         ĉ

Suy ra trung bình bình phương của mỗi nhóm:ĉ

Tính tổng bình phương giữa các nhóm - SSG (Sum of  Squares between-groups):

                                       

Suy ra trung bình bình phương giữa các nhóm:ĉ            

Tính tổng bình phương của toàn mẫu quan sát - SST (Total Sum of  Squares):

                            SST = SSW + SSG 

    Hoặc:   ĉ 

Bước 3:

            Cuối cùng kiểm định giả thuyết được quyết định dựa trên tỉ số F - là thương số giữa trung bình bình phương giữa các nhóm (MSG) và trung bình bình phương trong từng nhóm (MSW).                   

                                         

Bác bỏ giả thuyết H0 cho rằng trung bình của k tổng thể đều bằng nhau khi:                    F > F k-1 , n-k ,a 

 Biến ngẫu nhiên F k-1 , n-k  theo một phân phối F được kí hiệu F v1 , v2  khi tra bảng. Sau đây là biểu bảng tổng quát của ANOVA.

Bảng 5.2: bảng tổng quát của ANOVA

Source of Variation

Sum of Squares (SS)

Degree of  Freedom (D.f)

Mean Squares (MS)

F 

ratio

Between-Groups

SSG

k - 1

Within-Groups

SSW

n - k

 

Total

SST

n - 1

 

 

 Ví dụ: Một quản trị Marketing muốn xem xét chi phí bán hàng trung bình trên tháng (1000đồng) của một sản phẩm điện tử ở ba cửa hàng khác nhau: A, B và C. Số liệu của chỉ tiêu trên được thu thập trong 7 tháng cho cửa hàng A, 7 tháng cho cửa hàng B và 6 tháng cho cửa hàng C như trong bảng sau:   

Ðặt giả thuyết H0: Chi phí bán hàng trung bình/sản phẩm của ba cửa hàng A, B và C đều bằng nhau:    

 H0 : (1=(2 =(3                                                       

1. Tính trung bình mỗi nhóm (mỗi cửa hàng):

            * Chi phí bán hàng trung bình/sản phẩm của cửa hàng A:                                   

                                   

            * Chi phí bán hàng trung bình/sản phẩm của cửa hàng B:

                                     

            * Chi phí bán hàng trung bình/sản phẩm của cửa hàng C:                          

                                   

            * Chi phí bán hàng trung bình/sản phẩm tính chung cho ba cửa hàng:

                                   

 2. Tính tổng bình phương của cả 3 nhóm: SSW = SS1 + SS2 + SS3

           

Tương tự:

            SS2 =  (24,6 - 23,2)2 + (23,1- 23,2 )2 + ... + (23,5- 23,2)2  = 4,96

            SS3 =  (22,7 - 22,9)2 + (21,9 - 22,9)2 + ... + (23,4 - 22,9)2 = 3,46

    Þ  SSW = 3,76 + 4,96 + 3,46 = 12,18 

Suy ra, trung bình phương trong từng nhóm:

                       

3. Tổng bình phương giữa các nhóm: SSG

 

Suy ra, trung bình bình phương giữa các nhóm:

                       

4. Tính tổng bình phương chung :   SST  

                        SST = SSW + SSG = 12,18 + 21,55 = 33,73   

5. Tính tỉ số F:ĉ 

Tra bảng phân phối F với mức ý nghĩa ( =1%, ta có:

                           

Vì F = 15,04  >  6,11 cho nên nguồn số liệu cho phép bác bỏ giả thuyết H0 rằng chi phí bán hàng trung bình ở ba cửa hàng thì bằng nhau ở mức ý nghĩa 1%. Nghĩa là ở mức ý nghĩa 1% thì chi phí bán hàng trung bình/ sản phẩm ở ba cửa hàng thì khác nhau. Sau đây là bảng kết quả phân tích phương sai một chiều từ ví dụ trên. 

Bảng 5.3: Bảng kết quả ANOVA một chiều  

 

     2. Trường hợp các tổng thể được giả định có phân phối bất kỳ (phương pháp phi tham số)

Top

            Giả sử rằng chúng ta có các mẫu ngẫu nhiên độc lập gồm n1, n2, ..., nk quan sát từ k tổng thể có phân phối bất kỳ. Ta sử dụng kiểm định KRUSKAL- WALLIS bằng  cách xếp hạng các quan sát mẫu. Mặc dù số quan sát của nk mẫu là khác nhau nhưng khi xếp hạng thì được sắp xếp một cách liên tục từ nhỏ đến lớn, nếu giá trị quan sát trùng nhau thì hạng xếp giống nhau bằng cách dùng số trung bình cộng các hạng của chúng để chia đều. 

            Ðặt  n = n1 + n2 + ... + nk là tổng các quan sát thuộc các mẫu, và R1 , R2, ... , Rk là tổng của các hạng được xếp theo thứ tự của k mẫu. Kiểm định giả thuyết ở mức ý nghĩa ( cho trường hợp này là:    

 H0 :  (1 = (2 = ... = (k  : Trung bình của k tổng thể đều bằng nhau. Ở đây ta sử dụng biến W thay cho tỉ số F trong phần tính toán giá trị kiểm định.

                       

Tra bảng phân phối (2 (Chi-Square) để so sánh, và giả thuyết H0 bị bác bỏ khi:

                                    W  >  c2k-1, a

    Trở lại ví dụ chi phí bán hàng trung bình/sản phẩm ở ba cửa hàng ta có kết quả xếp hạng như trong bảng 10.4. Trong cách xếp hạng này, chi phí nhỏ nhất trong ba cửa hàng là 19,9 (ngàn đồng) được xếp hạng 1, tương tự hạng được xếp cho đến chi phí lớn nhất là 24,6 (ngàn đồng) được xếp hạng 20. Những chi phí trùng nhau sẽ có hạng bằng nhau, chẳng hạn như có hai chi phí là 20,3 (ngàn đồng) trong cửa hàng A, hạng thứ tự của chúng là 2 và 3. Vì vậy, hai giá trị 20,3 có hạng bằng nhau và bằng (2+3)/2 = 2,5.   

Bảng 5.4: Xếp hạng liên tục các dữ liệu ở ba cửa hàng.  Ðvt: 1000 đồng   

 

Suy ra:

                 

                =  11,10

Ở đây chúng ta có bậc tự do (k -1) = 2 và nếu kiểm định ở mức ý nghĩa 0,5%, khi tra bảng phân phối (2 ta tìm được:  (22;0,5% = 10,6

Bởi vì  W = 11,10 > (22;0,5%  = 10,6 nên giả thuyết H0 bị bác bỏ ở mức ý nghĩa 0,5%,  nghĩa là chi phí bán hàng trung bình / sản phẩm ở ba cửa hàng không bằng nhau.

II.    PN TÍCH PHƯƠNG SAI HAI CHIỀU (Two -Way Analysis of Variance)

Top

            Phân tích phương sai hai chiều là xét đến hai yếu tố (hai nguyên nhân) ảnh hưởng đến hiện tượng nghiên cứu. Ví dụ như trong phân tích phương sai một chiều cho ta biết kết quả chi phí bán hàng trung bình/sản phẩm ở ba cửa hàng là khác nhau mà ở đây ta chưa nghiên cứu đến trình độ tiếp cận của người bán hàng đến khách hàng hoặc kỹ năng đặc biệt của từng nhân viên khi bán hàng.... Phân tích phương sai hai chiều sẽ có ý nghĩa trong trường hợp này. 

     1. Trường hợp có một quan sát mẫu trong một ô: (One observation per cell)

Top

             Giả sử xij là một quan sát thấy được ở cột thứ i và hàng thứ j trong một mẫu, như vậy nếu có k cột và h hàng thì ta kí hiệu tổng số quan sát là n = k.h 

Dạng tổng quát của quan sát mẫu trên k cột và h hàng như sau: 

Bảng 5.5: Quan sát mẫu của phương sai hai chiều  

Ðể phát triển một kiểm định giả thuyết cho rằng trung bình của các tổng thể thì bằng nhau cho k cột . Ta thực hiện theo các bước sau: 

Bước 1: Tính trung bình của riêng từng cột (từng tổng thể): group

                (i=1, 2,..., k)              

Bước 2: Tính trung bình riêng cho từng hàng: block

                (j = 1, 2,..., h)  

Bước 3: Tính trung bình chung của toàn mẫu quan sát :

Bước 4 : Tính

1. Tổng bình phương chung: SST = SSG + SSB + SSE

 

2. Tổng bình phương giữa các cột: between-groups

                           

3. Tổng bình phương giữa các hàng: between-blocks

 

4. Tổng bình phương sai số: error

        

Bước 5:  Tính các trung bình bình phương: 

1. Trung bình bình phương giữa các cột:ĉ 

2. Trung bình bình phương giữa các hàng:ĉ 

3. Trung bình bình phương sai số:          ĉ

Bước 6 : Tính giá trị kiểm định từ hai tỉ số  F tương ứng cho hai cặp giả thuyết H0:

                                ĉ          và ĉ

Bước 7 : Có 2 trường hợp trong quyết định bác bỏ giả thuyết H0 của ANOVA hai chiều một quan sát trong một ô: 

1. Ðối với F1, ở mức ý nghĩa (, giả thuyết H0 cho rằng trung bình của tổng thể theo chỉ tiêu cột thì bằng nhau (nếu F1 trong bảng kết quả là chỉ tiêu theo cột) có thể bị bác bỏ khi:

                                   F1 > F k -1,(k-1)(h-1), a

2. Ðối với F2, ở  mức ý nghĩa  (, giả thuyết H0 cho rằng trung bình của tổng thể theo chỉ tiêu hàng thì bằng nhau (nếu F1 trong bảng kết quả là chỉ tiêu theo hàng) có thể bị bác bỏ khi:

                                F2 > F h -1,(k-1)(h-1), a

Chú ý: F k -1,(k-1)(h-1), (  hay F h -1,(k-1)(h-1), ( là giá trị trong bảng phân phối F (phân phối Fisher ở sau sách) có dạng F v1, v2, ( .

Bảng kết quả phân tích phương sai hai chiều được xử lý từ phần mềm Excel. hoặc SPSS, Kết quả được in ra có dạng tổng quát như sau:

Bảng 5.6: Bảng kết quả tổng quát ANOVA hai chiều   

 Ví dụ: Trở lại ví dụ về chi phí bán hàng trung bình/sản phẩm nhưng có một số nội dung thay đổi. Trước tiên, người bán hàng được xếp theo 6 nhóm tuổi:

                                      

                                      Nhóm 1:         ( 25      tuổi

                                                 2:        26 - 35

                                                 3:        36 - 45

                                                 4:        46 - 55

                                                 5:        56 - 65

                                                 6:        >  65

Chi phí bán hàng trung bình/sản phẩm được thực hiện bởi các nhân viên có tuổi khác nhau ở 3 của hàng được thu thập trong bảng sau: 

Bảng 5.7: Chi phí bán hàng trung bình/sản phẩm theo nhóm tuổi

                                           

 Ðặt giả thuyết  H0:

1. Chi phí bán hàng trung bình/sản phẩm ở các cửa hàng khác nhau đều bằng nhau (giả thuyết H0 theo chỉ tiêu cột).

2. Chi phí bán hàng trung bình/sản phẩm được thực hiện bởi các nhân viên có độ tuổi khác nhau thì bằng nhau (giả thuyết H0 theo chỉ tiêu hàng). 

Bước 1 : Tính chi phí bán hàng trung bình/sản phẩm của 3 cửa hàng: 

    ·        Cửa hàng A:ĉ =Ġ = 24,7 

    ·        Cửa hàng B:             Ġ2 = Ġ = 23,9 

    ·        Cửa hàng C:             Ġ3 =Ġ  = 25,2

Bước 2 : Tính chi phí bán hàng trung bình /sản phẩm cho từng loại tuổi nhân viên:

Nhóm 1:      Ġ=Ġ  =  25 

Nhóm 2:      Ġ2 =Ġ = 24,Ķ 

Nhóm 3:     Ġ3 =Ġ = 25,4 

Nhóm 4:    Ġ4 =Ġ = 24 

Nhóm 5:     Ġ5 =Ġ = 23,9 

            Nhóm 6:     Ġ6 =Ġ =  24,7

Bước 3 : Tính chi phí bán hàng trung bình/sản phẩm chung của 18 mẫu quan sát. Ta có:

                            n = k x h = 3 x 6 = 18 

              Và                           Ġ =Ġ =  24,6                  

Bước 4 :Tính các tổng bình phương:    

            SST = (25,1-24,6)2 + (24,7-24,6) 2 + ... + (25,4-24,6) 2 = 11,88

            SSG = 6 [(24,7-24,6) 2 + (23,9-24,6) 2 + (25,2-24,6) 2] = 5,16

            SSB = 3[ (25-24,6) 2 + ...+ (24,7-24,6) 2 ] = 4,98

            SSE =  SST - SSG - SSB = 11,88 - 5,16 - 4,98 = 1,74

Bước 5 : Tính trung bình bình phương:

           

Bước 6 : Tính các tỉ số F và kết luận

·        Tương ứng với giả thuyết H0 thứ nhất (trang 173) ta có:

   

       Nếu kiểm định ở mức ý nghĩa ( =1%, tra bảng phân phối F thì giá trị

Fk -1,(k-1)(h-1),(  = F2,10,1% = 7,56.  Vậy F1 > F2,10,1%  ta bác bỏ giả thuyết H0, nghĩa là chi phí bán hàng trung bình/sản phẩm ở ba cửa hàng khác nhau thì khác nhau.

·        Tương ứng với giả thuyết H0 thứ hai (trang 173) ta có:

           

Tra bảng ta có: F5,10,1%  = 5,64. Bởi vì F2  > F5,10,1%  ta có thể bác bỏ giả thuyết H0 ở mức ý nghĩa 1%, nghĩa là chi phí bán hàng trung bình/sản phẩm được thực hiện bởi các nhân viên có độ tuổi khác nhau thì khác nhau. Sau đây là bảng kết quả ANOVA của ví dụ trên.

  Bảng 5.8: Bảng kết quả ANOVA hai chiều  

     2. Trường hợp có hơn một quan sát trong một ô: (More than one obserration per cell)

Top

             Phát triển thêm từ trường hợp một quan sát trong một ô. Ðể tăng tính chính xác khi suy rộng một vấn đề nào đó của mẫu cho một tổng thể, ta tăng mẫu quan sát (n) trong điều kiện cho phép. Gọi (l) là số quan sát trong một ô, ta có dạng tổng quát của (l) quan sát trong một ô như sau: 

Bảng 5.9: Quan sát mẫu tồng quát của ANOVA nhiều quan sát trong một ô  

Có ba giả thuyết H0 trong trường hợp phân tích phương sai hai chiều nhiều quan sát trong một ô tương ứng với ba tỉ số F (F1,F2 và F3). 

·        Hai giả thuyết H0 tương ứng với tỉ số F1 và F2 giống như trong trường hợp phân tích phương sai hai chiều một quan sát trong một ô (trang 173). Nghĩa là, trung bình chỉ tiêu nghiên cứu của chỉ tiêu theo cột và theo hàng thì bằng nhau. 

·        Giả thuyết H0 tương ứng với tỉ số F3: không có sự ảnh hưởng qua lại giữa các chỉ tiêu theo cột và hàng đến chỉ tiêu nghiên cứu. 

Cũng từ ví dụ chi phí bán hàng (chỉ tiêu nghiên cứu), thay vi thu thập một quan sát trong một ô, ta tiến hành thu thập ba quan sát trong một ô nhằm để tăng khả năng chính xác của việc suy rộng cho tổng thể. Bảng sau đây thể hiện dữ liệu thu thập ba quan sát trong một ô:  

Nhóm tuổi

Cửa hàng

nhân viên

A

B

C

1

25,0  25,4  25,2

24,0  24,4  23,9

25,9  25,8  25,4

2

24,8  24,8  24,5

23,5  23,8  23,8

25,2  25,2  25,4

3

26,1  26,3  26,2

24,6  24,9  24,9

25,7  25,9  25,5

4

24,1  24,4  24,4

23,9  24,0  23,8

24,0  23,6  23,5

5

24,0  23,6  24,1

24,4  24,4  24,1

25,1  25,2  25,3

            Ðặt các giả thuyết H0:

1. Giả thuyết H0 trong trường hợp F1: Chi phí bán hàng trung bình/sản phẩm ở các cửa hàng khác nhau đều bằng nhau.

2. Giả thuyết H0 trong trường hợp F2: Chi phí bán hàng trung bình/sản phẩm được thực hiện bởi các nhân viên có độ tuổi khác nhau thì bằng nhau.

3. Giả thuyết H0 trong trường hợp F3: không có tương tác giữa độ tuổi khác nhau của nhân viên bán hàng bán ở ba cửa hàng khác nhau.

Bước 1 : Tính trung bình nhóm (group means):

           

Bước 2 : Tính trung bình theo hàng (block means):

                             

Bước 3: Tính trung bình trong một ô (cell means)

                   

Tương tự ta cũng tính được:

                                                           

Bước 4 : Tính trung bình chung (overall mean):

                

    Ðể đơn giản ta có thể tính trung bình chung theo công thức như dưới đây với điều kiện số quan sát trong mỗi nhóm đềubằng nhau.

                         Ġ Ľ   (Tổng các trung bình theo nhóm chia cho số nhóm)

Theo ví dụ ta có:

                           

Bước 5 : Tính các tổng bình phương (SS) và các trung bình bình phương (MS):

   

Chú ý: ở đây xuất hiện thêm một chỉ tiêu SSI (sums of squares for interaction) là tổng bình phương của sự tác động qua lại giữa chỉ tiêu cột và hàng.

Bước 6: Tỉ số F  

1. F1 =Ġ  được so sánh với Fk-1 ,k h (l-1),( hay còn được kí hiệu Fv1,v2, ( trong bảng phân phối F. Quyết định bác bỏ giả thuyết H0 tương ứng với F1 khi:  F1  > Fk-1 ,k h (l-1),( 

2. F2 =Ġ  được so sánh với Fh-1 ,k h (l-1),( trong bảng phân phối F. Ta có thể bác bỏ giả thuyết H0 tương ứng với F2 khi:            F2 > Fh-1 ,k h (l-1),a 

3. F3 =Ġ được so sánh với F (k-1)(h-1), k h (l-1),( .Quyết định bác bỏ giả thuyết H0 tương ứng với F3 khi:      F3  > F (k-1)(h-1), k h (l-1),(

Sau đây là bảng kết quả ANOVA tổng quát: 

Bảng 5.10: Bảng kết quả ANOVA hai chiều tổng quát 

Nguồn biến động

Tổng bình phương

Ðộ tự do

Trung bình bình phương

Tỉ số F

Giữa các nhóm

SSG

(k-1)

MSG

F1

Giữa cãc hàng

SSB

(h-1)

MSB

F2

Giữa các nhóm và hàng

SSI

(k-1)(h-1)

MSI

F3

Sai số

SSE

k.h(l-1)

MSE

 

Tổng cộng

SST

khl -1

 

 

 Và bảng kết quả ANOVA trong ví dụ trên là:

Nguồn biến động

Tổng bình phương

Ðộ tự do

Trung bình bình phương

Tỉ số F

Các cửa hàng (A,B và C)

7,1565

2

3,5783

92,46

Lọai tuổi nhân viên

13,1517

4

3,2879

84,96

Interaction

6,6045

8

0,8256

21,33

Error

1,1600

30

0,0387

 

Total

28,0727

44

 

 

 

Nhận xét:

            Ta có  k = 3                 h = 5                l = 3       ( = 1%

1. F1 = 96,42    khi tra bảng phân phối F, ta có Fk-1 ,k h (l-1),(

        = F2,30,1% = 5,39. 

Vì: F1 = 96,42  > F2,30,1% = 5,39 nên giả thuyết H0  bị bác bỏ ở mức ý nghĩa 1%. Nghĩa là chi phí bán hàng trung bình / sản phẩm ở các cửa hàng khác nhau thì khác nhau.  

2. F2 =  84,96 và  khi tra bảng phân phối F, ta có Fh-1 ,k h (l-1),(

        = F4,30,1% = 4,02. 

Vì: F2 =  84,96   > F4,30,1% = 4,02 nên giả thuyết H0  bị bác bỏ ở mức ý nghĩa 1%. Nghĩa là chi phí bán hàng trung bình / sản phẩm được thực hiện bởi các nhân viên có độ tuổi khác nhau thì khác nhau. 

3. F3 = 21,33 và  khi tra bảng phân phối F, ta có F (k-1)(h-1), k h (l-1),(

        = F8,30,1% = 3,17.

Vì: F3 = 21,33 > F8,30,1% = 3,17 nên giả thuyết H0  bị bác bỏ ở mức ý nghĩa 1%. Nghĩa là có liên hệ và ảnh hưởng qua lại giữa độ tuổi khác nhau của nhân viên bán hàng bán ở  ba cửa hàng khác nhau đến chi phí bán hàng trung bình/sản phẩm.

Chú ý: Khi thực hiện ANOVA trên máy vi tính, trong bảng kết quả cho ta thêm một cột mang tên F Critical, cột này sẽ là kết quả tra bảng dùng để so sánh với cột F ratio để quyết định bác bỏ hay chấp nhận giả thuyết H0.

          

III.      PN TÍCH SÂU ANOVA (Further analysis of ANOVA)

Top

            Như đã trình bày, mục đích của phân tích phương sai là kiểm định giả thuyết H0 rằng trung bình của các tổng thể thì bằng nhau. Tuy nhiên, sau khi phân tích và kết luận, có thể có một trong hai khả năng xảy ra là chấp nhận giả thuyết H0 hoặc bác bỏ giả thuyết H0. 

·        Nếu chấp nhận giả thuyết H0 thì mong đợi của chúng ta về kiểm định đã được thực hiện, việc phân tích kết thúc. 

·        Nếu bác bỏ giả thuyết H0, có nghĩa là trung bình của các tổng thể không bằng nhau. Vì vậy, vấn đề cần được phân tích sâu hơn với giả thuyết mới được giả định, hoặc chọn khoảng tin cậy thích hợp để xác định sự khác nhau xuất hiện ở đâu, trên phương diện nào và tầm quan trọng của sự khác nhau đó. Sơ đồ phân tích ANOVA được tóm tắt như sau:

            Có nhiều phương pháp để tiếp tục phân tích sâu ANOVA khi bác bỏ giả thuyết H0, chẳng hạn như phương pháp so sánh trực giao (Orthogonal comparison), phương pháp Student-Newman-Keuls, phương pháp Tukey, kiểm định đa khoảng Duncan (Duncans Multiple Range Test), kiểm định Scheffé (Scheffé Test) hay phương pháp khác biệt nhỏ nhất có ý nghĩa (Least-Significant Difference: LSD)... Nói chung, tất cả các phương pháp này đều sử dụng trung bình mẫu Ĩ) là tham số ước lượng cho trung bình tổng thể ((i) và trung bình bình phương sai số (MSE) là tham số ước lượng cho phương sai tổng thể ((2).  

Trong phạm vi giáo khoa này chỉ đề cập đến phương pháp khá thông dụng đó là phương pháp Tukey (Tukey method), phương pháp này còn được gọi là kiểm định HSD (Honestly Significant Differences). Mục đích của phương pháp này là so sánh từng cặp các trung bình tổng thể ở mức ý nghĩa ( nào đó cho toàn bộ các cặp kiểm định. Phương pháp Tukey dùng phân phối khoảng (phân phối q) trên cơ sở phân phối Student t (Studentized range distribution: q) - là phân phối xác suất với độ tự do (r) và (n - r) để kiểm định trong đó r là số tổng thể. 

Thực hiện kiểm định này trước hết ta tìm số cặp so sánh. Trường hợp tổng quát với r tổng thể ta tính số cặp so sánh như sau:

 

Có nhiều phương pháp để tiếp tục phân tích sâu ANOVA khi bác bỏ giả thuyết H0, chẳng hạn như phương pháp so sánh trực giao (Orthogonal comparison), phương pháp Student-Newman-Keuls, phương pháp Tukey, kiểm định đa khoảng Duncan (Duncans Multiple Range Test), kiểm định Scheffé (Scheffé Test) hay phương pháp khác biệt nhỏ nhất có ý nghĩa (Least-Significant Difference: LSD)... Nói chung, tất cả các phương pháp này đều sử dụng trung bình mẫu Ĩ) là tham số ước lượng cho trung bình tổng thể ((i) và trung bình bình phương sai số (MSE) là tham số ước lượng cho phương sai tổng thể ((2). 

Trong phạm vi giáo khoa này chỉ đề cập đến phương pháp khá thông dụng đó là phương pháp Tukey (Tukey method), phương pháp này còn được gọi là kiểm định HSD (Honestly Significant Differences). Mục đích của phương pháp này là so sánh từng cặp các trung bình tổng thể ở mức ý nghĩa ( nào đó cho toàn bộ các cặp kiểm định. Phương pháp Tukey dùng phân phối khoảng (phân phối q) trên cơ sở phân phối Student t (Studentized range distribution: q) - là phân phối xác suất với độ tự do (r) và (n - r) để kiểm định trong đó r là số tổng thể. 

Thực hiện kiểm định này trước hết ta tìm số cặp so sánh. Trường hợp tổng quát với r tổng thể ta tính số cặp so sánh như sau:

                    

Ví dụ: ta có r = 3, thì số cặp so sánh trong kiểm định là 3, nói cách khác có 3 giả thuyết H0 tương ứng với ba cặp so sánh.

              

   

Giá trị kiểm định:      T = q( Ġ

Trong đó:         q(   là giá trị tra bảng HSD

                        MSE là giá trị trong bảng kết quả phân tích ANOVA

                        n là tổng số quan sát mẫu (n = (ni) 

        Quyết định bác bỏ giả thuyết H0 khi độ lệch tuyệt đối giữa các cặp trung bình mẫu lớn hơn hay bằng T. Chẳng hạnĠ( T

Ước lượng khoảng tin cậy cho sự khác biệt hai trung bình tổng thể:

       

Trong đó t là giá trị tra bảng phân phối Student t với (n - r) độ tự do. 

Ví dụ: Cho r = 3, ( = 5%, n = 200 và MSE = 593,2

Ta có:   Giá trị tra bảng HSD                 q5% =  3,31

            Giá trị kiểm định                       T = 3,31Ġ       

            Giả sử độ lệch tuyệt đối các cặp trung bình mẫu như sau:

                   

Như vậy, theo điều kiện bác bỏ giả thuyết H0 thì chỉ có trung bình tổng thể (2 và (3 là khác nhau vìĠ = 6,2 > T = 5,7.

Ta có thể thực hiện phân tích sâu ANOVA bằng phần mềm SPSS. Sau khi nhập số liệu theo định nghĩa dãy số của biến phụ thuộc (dependent list) và nhân tố ảnh hưởng của chúng (factor), ta vào lần lượt các menu sau:

            Analyze - Compare means - One- way  ANOVA ... - Chọn dependent list và factor - Post Hoc ... Chọn bất kỳ phương pháp nào bạn muốn kiểm định trong đó có phương pháp Tukey.

IV.    THỰC HIỆN ANOVA TRÊN PHẦN MỀM EXCEL

Top

            Ðể có được những bảng kết quả ANOVA như trên, chúng ta có thể sử dụng các phần mềm Excel, SAS, SPSS hoặc các phần mềm thống kê khác. Cũng cần nói thêm, phần mềm Excel chỉ xử lý những nội dung thống kê rất hạn chế và đơn giản. Vì vậy, nếu nguồn dữ liệu lớn và xử lý những nội dung thống kê phức tạp hơn bạn nên sử dụng phần mềm SAS hoặc SPSS. Nội dung thống kê được xử lý ở hai phần mềm này khá chi tiết và đa dạng, đặc biệt dữ liệu được xử lý rất nhanh.

Riêng SPSS (Statistical Package for the Social Sciences), bạn có thể vào menu Statistics hoặc Analyze tùy theo version của SPSS là 7.0 hay 9.0 rồi chọn nội dung thống kê mà bạn muốn xử lý. Tuy nhiên, Excel trong Window chỉ xử lý đến nội dung ANOVA hai chiều, trong khi SPSS có thể xử ký ANOVA năm chiều. Cho dù bạn xử lý ở bất kỳ phần mềm nào bạn cũng cần làm quen trước những từ chuyên môn bằng tiếng Anh trong thống kê để có thể dễ dàng hiểu bảng kết quả sau khi xử lýï.

Trong giới hạn trang này, xin giới thiệu kỹ thuật xử lý trên phần mềm Excel cho cả hai trường hợp ANOVA một chiều và hai chiều và các phân tích khác mà nội dung được đề cập ở những chương sau.

Bước 1:

Mở phần mềm Excel và nhập dữ liệu giống như trong các ví dụ.

Bước 2:

Chọn Menu Tool - Add-Ins - Ðánh dấu 3 mục để thể hiện menu Data Analysis trong menu Tools.

(Analysis ToolPak (Nếu Excel có version khác 5.0 thì chỉ đánh dấu một mục này)

                        ·    MS Excel 4.0 Analysis Function

                        ·    MS Excel 4.0 Analysis Tools

Bước 3:

Chọn vùng số liệu vừa mới nhập (trừ tên cột), nếu chọn cả tên cột phải đánh dấu Lable.

Chọn ( (( mặc nhiên là 5%) 

Chọn vùng chứa kết quả  (nếu chọn New Worksheet thì kết quả được in trên trang mới với đầy đủ các thông tin như được tính trong các công thức phần ví dụ). Nhấn phím OK.  

·        Trong khung (1) trang 185 có thể thay thế menu cho các kiểm định sau đây:

1.      - Menu Correlation: Hệ số tương quan

2.      - Menu t - test paired 2 sample for means: Kiểm định (t) trung bình tổng thể dựa vào phân phối từng cặp.

3.      - Menu t - test paired 2 sample assuming equal variances: Kiểm định (t) trung bình tổng thể có phương sai được giả sử bằng nhau.

4.      - Menu t - test paired 2 sample assuming unequal variances: Kiểm định (t) trung bình tổng thể có phương sai được giả sử không bằng nhau.

5.      - Menu Z - test 2 sample for means: Kiểm định (Z) cho trung bình tổng thể.

6.      - Menu Regreesion: Hồi qui

7.      - Menu Moving average: Trung bình di động (chú ý khi vào menu này xuất hiện ô interval đó chính là số mức độ (m) để lấy trung bình. Chẳng hạn muốn nhóm trung bình 5 mức độ thì gỏ số 5 vào ô này.

8.      - Menu Exponential Smoothing: Dự báo bằng phương pháp làm phẳng dãy số. Trong menu này xuất hiện ô damping factor, ta thế giá trị của hệ số làm phẳng ( vào ô này trước khi chạy chương trình.

9.      Riêng đối với ANOVA:

·        Trong hai bước trên, chú ý phần trong khung: Nếu chúng ta dùng menu ANOVA: Single Factor đó là phân tích phương sai một chiều. Trong hai trường hợp phân tích ANOVA còn lại:

-         Phân tích phương sai hai chiều với một quan sát trong một ô thì ta thay vào trong khung (1) trên bằng Menu: ANOVA: Two-factor without replication.

- Phân tích phương sai hai chiều với nhiều quan sát trong một ô thì ta thay vào trong khung (1) ở trên bằng Menu: ANOVA: Two-factor with replication. Tuy nhiên, phủ khối dữ liệu (select) cho input range thì chọn cả phần chữ và phần số.

Ðặc biệt, trong ANOVA nhiều quan sát trong một ô, cách nhập số liệu có khác biệt. Nếu nhập không đúng cách, chương trình sẽ bị trục trặc hoặc cho ra kết quả sai. Kiểm tra kết quả in ra để biết chương trình chạy đúng hay sai bằng cách kiểm tra cột độ tự do tổng cộng phải đúng bằng (n-1). Cụ thể trong phần ví dụ chi phí bán hàng ở ba cửa hàng, dữ liệu được tổng hợp như sau: 

Loại tuổi

Cửa hàng

nhân viên

A

B

C

1

25,0  25,4  25,2

24,0  24,4  23,9

25,9  25,8  25,4

2

24,8  24,8  24,5

23,5  23,8  23,8

25,2  25,2  25,4

3

26,1  26,3  26,2

24,6  24,9  24,9

25,7  25,9  25,5

4

24,1  24,4  24,4

23,9  24,0  23,8

24,0  23,6  23,5

5

24,0  23,6  24,1

24,4  24,4  24,1

25,1  25,2  25,3

 Nhưng khi nhập số liệu trong màn hình Excel có dạng:

Lọai tuổi

Cửa hàng A

Cửa hàng B

Cửa hàng C

1

25,0

24,0

25,9

 

25,4

24,4

25,8

 

25,2

23,9

25,4

2

24,8

23,5

25,2

 

24,8

23,8

25,0

 

24,5

23,8

25,4

3

26,1

24,9

25,7

 

26,3

24,9

25,9

 

26,2

24,9

25,5

4

24,1

23,9

24,0

 

24,4

24,0

23,6

 

24,4

23,8

23,5

5

24,0

24,4

25,1

 

23,6

24,4

25,2

 

24,1

24,1

25,3

 

BÀI TẬP

Top

Các bài tập dưới đây phân phối của tổng thể được giả sử có phân phối chuẩn.

1. Một nhà sản xuất nước giải khát đang xem xét 3 màu lon cho một lọai nước ngọt: đỏ, vàng và xanh ảnh hưởng đến doanh thu như thế nào.  16 cửa hàng được chọn ra để gởi các lon nước ngọt đến bán. Những lon màu

đỏ được gởi đến 6 cửa hàng. Những lon màu vàng được đưa đến 5 cửa hàng khác và số màu xanh cũng được gởi đến 5 cửa hàng còn lại. Sau một vài ngày nhà sản xuất kiểm tra ở các cửa hàng thì doanh số bán của nước ngọt như sau:

                                                             Ðơn vị tính: 1000đồng

Ðỏ

Vàng

 Xanh

43

52

59

76

61

81

52

37

38

64

74

61

29

38

53

79

            a) Hãy tính tổng bình phương của mỗi nhóm, giữa các nhóm và tổng bình phương chung của doanh số ba loại màu lon nước ngọt?

            b) Kiểm định ở mức ý nghĩa 5% giả thuyết H0 rằng doanh thu trung bình của tổng thể thì bằng nhau cho cả 3 màu lon?

 

2. Một giáo viên trong một lớp học có 23 sinh viên. Ðầu học kỳ mỗi sinh viên được chọn ngẫu nhiên một trong 4 trợ giảng hướng dẫn (A,B,C và D) để thảo luận những khó khăn về tài liệu và giải thích thêm cho môn học. Cuối học kỳ, tổng số điểm kiểm tra của các sinh viên ở 4 người hướng dẫn như sau: 

A

B

C

D

72

69

84

76

64

 

78

93

79

97

88

81

 

80

68

59

75

82

68

79

70

61

74

85

63

             a) Tính giống như câu (a) bài 1.

            b) Kiểm định ở mức ý nghĩa 5% và 1% giả thuyết H0 rằng có sự bằng nhau về điểm trung bình của tất cả sinh viên ở 4 trợ giảng được chọn ?

 

3. Ba nhà cung cấp gạo xuất khẩu  (A, B, C), gạo xuất khẩu của mỗi nhà cung cấp được chuyển bằng tàu gồm 500 bao. Mẫu ngẫu nhiên gồm 6 tàu cho mỗi nhà cung cấp được kiểm tra cẩn thận, số bao gạo không đúng tiêu chuẩn được xác định ở 6 tàu như trong bảng sau:

                                                                                            Ðvt: bao gạo

A

B

C

28

37

34

29

31

33

22

27

29

20

18

30

33

29

39

33

37

38

            a) Hãy phân tích phương sai cho những tài liệu này?

            b) Kiểm định ở mức ý nghĩa 1% giả thuyết H0 rằng trung bình tổng thể của các bao gạo trên tàu không đúng tiêu chuẩn thì giống nhau giữa 3 nhà cung cấp ?

 

4. Một giám đốc của một xí nghiệp chế biến thực phẩm đang quan tâm đến chi tiêu của mỗi hộ gia đình trong một tháng cho sản phẩm của ông. Những mẫu ngẫu nhiên độc lập gồm 6 gia đình có thu nhập dưới 1,25 triệu một tháng, 5 gia đình có thu nhập từ 1,25-2,5 triệu/tháng và 4 gia đình có thu nhập trên 2,5 triệu đồng một tháng đã được chọn ra. Chi phí ước đoán hàng tháng cho thực phẩm chế biến được chi tiêu bởi các gia đình như sau: 

                                                                                       Ðvt: 1000 đồng

<1250

1250®2500

>2500

452

601

528

317

336

394

482

516

637

468

492

 

507

716

613

498

             a) Hãy phân tích phương sai cho tài liệu này?

            b) Kiểm định ở mức ý nghĩa 5 % giả thuyết H0 rằng chi tiêu trung bình cho thực phẩm chế biến của tất cả các hộ gia đình trong ba loại thu nhập khác nhau thì bằng nhau?

 

5. Sử dụng số liệu ở bài (1), sử dụng kiểm định Kruskal-Wallis cho giả thuyết Ho rằng mức doanh thu trung bình của tổng thể thì giống nhau cho ba loại màu sắc của các lon nước ngọt?

 

6. Sử dụng tài liệu và câu hỏi ở bài 3 nhưng phân phối của tổng thể được giả sử không phải là phân phối chuẩn?

 

* Bài tập trên máy vi tính:

7. Những mẫu ngẫu nhiên độc lập được chọn ra từ bốn quận nội thành để nghiên cứu về giá bán nhà. Giá bán (triệu đồng) được trình bày trong bảng sau. Hãy kiểm định giả thuyết H0 rằng trung bình tổng thể về giá bán thì bằng nhau ở bốn quận. 

 

Hãy giải thích bảng kết quả được in ra bằng cách trả lời những câu hỏi sau đây:

 

8. Có ba phương pháp bán hàng khác nhau được một công ty áp dụng. Sau đây là số lượng sản phẩm bán ra được thu thập cho ba phương pháp bán hàng. Hãy giải thích kết quả nghiên cứu dựa vào bảng ANOVA được in ra? 

phương pháp 1

phương pháp 2

phương pháp 3

21

27

18

20

28

17

22

22

19

25

29

24

24

32

20

19

37

17

 

26

33

19

18

34

22

24

28

20

25

29

21

25

29

24

27

32

18

29

35

18

19

37

22

20

28

21

23

27

21

18

32

17

27

31

21

22

26

20

23

35

19

24

29

18

20

34

23

 

9. Gần đây sự cạnh tranh giữa hãng fim Kodak và Fuji trở nên mãnh liệt hơn. Kodak đang phân tích những tấm fim của Fuji và quyết định bí mật về độ sáng màu của fim Fuji. Như là một phần của sự phân tích, một mẫu ngẫu nhiên gồm 5 tấm fim được chụp bởi Kodak và được xư rlý theo ba qui trình khác nhau - qui trình (A), qui trình (B) và qui trình (C). Hai hãng fim Fuji và Agfa cũng được thực hiện như vậy để đo độ sáng màu của fim. Dưới đây là bảng chấm điểm độ sáng của fim ở ba hãng. Ðộ sáng càng tốt thì điểm càng cao. Hãy sử dụng máy vi tính để thực hiện ANOVA hai chiều trong trường hợp một ô có 5 quan sát? 

Fim

Các qui trình xử lý phim

 

A

B

C

Kodak

32,34,31,30,37

26,29,27,30,31

28,28,27,30,32

Fuji

43,41,44,50,47

32,38,38,40,46

32,32,36,35,34

Agfa

23,24,25,21,26

27,30,25,25,27

25,27,26,22,25

 


TopPreviousIndexNextHome