# Chi-square

## Chi-square là gì?

**Chi-square test** (kiểm định Chi-bình phương) là một phương pháp kiểm định giả thuyết trong thống kê dùng để xác định xem **hai biến phân loại (categorical variables)** có mối liên hệ với nhau hay không.

Chi-square thường được sử dụng trong các nghiên cứu y học, xã hội học, kinh tế học và khoa học dữ liệu khi dữ liệu ở dạng:

* Yes / No
* Nam / Nữ
* Có bệnh / Không bệnh
* Nhóm A / Nhóm B

***

## Mục đích của Chi-square

Chi-square giúp trả lời câu hỏi:

> Hai biến có độc lập với nhau không?

Ví dụ:

* Giới tính có liên quan đến bệnh tiểu đường không?
* Triệu chứng Polyuria có liên quan đến chẩn đoán Diabetes không?

***

## Ý tưởng cơ bản

Chi-square so sánh:

* **Tần suất quan sát (Observed frequency – O)**\
  với
* **Tần suất kỳ vọng (Expected frequency – E)** nếu hai biến hoàn toàn độc lập.

Nếu sự khác biệt giữa O và E đủ lớn → có thể kết luận hai biến có mối liên hệ.

***

## Công thức Chi-square

χ2=∑(O−E)2E\chi^2 = \sum \frac{(O - E)^2}{E}χ2=∑E(O−E)2​

Trong đó:

* OOO: giá trị quan sát
* EEE: giá trị kỳ vọng
* Tổng được tính trên toàn bộ các ô của bảng tần suất

Giá trị χ2\chi^2χ2 càng lớn → khả năng hai biến có liên hệ càng cao.

***

## Giả thuyết kiểm định

Chi-square kiểm tra hai giả thuyết:

* **H0 (Null hypothesis):** Hai biến độc lập (không có mối liên hệ)
* **H1 (Alternative hypothesis):** Hai biến có mối liên hệ

Sau khi tính thống kê Chi-square, ta tính p-value:

* Nếu p < 0.05 → bác bỏ H0 → có mối liên hệ
* Nếu p ≥ 0.05 → không đủ bằng chứng về mối liên hệ

***

## Ví dụ minh họa

Giả sử nghiên cứu mối liên hệ giữa giới tính và bệnh tiểu đường:

|     | Không DM | DM  |
| --- | -------- | --- |
| Nam | 120      | 80  |
| Nữ  | 60       | 140 |

Chi-square sẽ tính xem sự phân bố này có khác đáng kể so với trường hợp hai biến độc lập hay không.

***

## Khi nào nên dùng Chi-square?

Chi-square phù hợp khi:

* Dữ liệu là biến phân loại
* Số lượng mẫu đủ lớn
* Giá trị kỳ vọng trong mỗi ô bảng tần suất ≥ 5

Nếu mẫu quá nhỏ → nên dùng Fisher’s Exact Test.

***

## Phân biệt Chi-square và t-test

| Đặc điểm  | Chi-square         | t-test                      |
| --------- | ------------------ | --------------------------- |
| Loại biến | Phân loại          | Số (numeric)                |
| Mục tiêu  | Kiểm tra phụ thuộc | So sánh trung bình          |
| Ví dụ     | Giới tính và bệnh  | Tuổi trung bình giữa 2 nhóm |

***

## Ứng dụng trong Machine Learning

Trong khoa học dữ liệu, Chi-square thường được dùng để:

* Kiểm tra sự liên quan giữa feature và target
* Feature selection cho dữ liệu phân loại
* Phân tích phụ thuộc trước khi huấn luyện mô hình


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://deeplearningcoban.gitbook.io/deeplearningcoban.com/tham-khao/glossary/c/chi-square.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
