# 4. Baseline Models

#### 4.1. Pipeline trong Machine Learning là gì?

Trong Machine Learning, **pipeline** là một chuỗi các bước xử lý dữ liệu và huấn luyện mô hình được tổ chức theo thứ tự logic.

Một pipeline điển hình bao gồm:

1. Load dataset
2. Preprocessing
3. Train model
4. Evaluate model
5. Explainability

Mục tiêu của pipeline:

* Tổ chức quy trình rõ ràng
* Giảm lỗi do thao tác thủ công
* Đảm bảo tái lập kết quả
* Cho phép so sánh công bằng giữa các mô hình

Trong project `ml-healthcare`, pipeline được thiết kế theo cấu trúc:

```
Dataset → Preprocessing → Model → Evaluation → SHAP
```

***

#### 4.2. Tại sao phải chia Baseline Models và Proposed Model?

Trong nghiên cứu khoa học, không thể chỉ xây dựng một mô hình duy nhất rồi kết luận rằng mô hình đó tốt.

Cần phải:

* So sánh với các mô hình chuẩn
* Chứng minh mô hình đề xuất mang lại cải thiện thực sự

Do đó, pipeline được chia thành hai nhóm:

1. Baseline Models
2. Proposed Model

***

#### 4.3. Baseline Models là gì?

Baseline Models là các mô hình chuẩn, thường được sử dụng rộng rãi trong cộng đồng nghiên cứu.

Ví dụ:

* Logistic Regression
* SVM
* Random Forest

Mục đích của baseline:

* Làm mốc so sánh
* Kiểm tra dữ liệu có học được hay không
* Đánh giá mức độ cải thiện của mô hình đề xuất

Nếu Proposed Model không vượt qua baseline, thì đóng góp khoa học không rõ ràng.

***

#### 4.4. Proposed Model là gì?

Proposed Model là mô hình mà nghiên cứu đề xuất nhằm:

* Cải thiện hiệu suất
* Hoặc cải thiện khả năng giải thích
* Hoặc cân bằng giữa performance và explainability

Ví dụ trong project này:

* Một biến thể tree-based nâng cao
* Hoặc mô hình tuned hyperparameters
* Hoặc kết hợp feature selection

Mô hình đề xuất phải được:

* Huấn luyện trên cùng dataset
* Đánh giá bằng cùng metrics
* So sánh trực tiếp với baseline

***

#### 4.5. Tại sao phải dùng cùng pipeline cho tất cả mô hình?

Để đảm bảo công bằng, mọi mô hình phải:

* Dùng cùng train/test split
* Dùng cùng preprocessing
* Dùng cùng feature set
* Dùng cùng evaluation metrics

Nếu không, việc so sánh sẽ không có ý nghĩa khoa học.

***

#### 4.6. Vai trò của Pipeline trong Explainability (SHAP)

Việc sử dụng pipeline thống nhất giúp:

* SHAP áp dụng đúng trên cùng feature space
* So sánh explainability giữa baseline và proposed model
* Phân tích sự khác biệt trong cách mô hình ra quyết định

Điều này rất quan trọng trong lĩnh vực healthcare, nơi:

* Không chỉ cần độ chính xác
* Mà còn cần hiểu vì sao mô hình đưa ra quyết định

***

#### 4.7. Kết luận

Việc chia pipeline thành:

* Baseline Models
* Proposed Model

giúp nghiên cứu:

* Có tính hệ thống
* Có tính so sánh
* Có tính khoa học
* Có khả năng công bố

Đây là cấu trúc tiêu chuẩn trong các bài báo Machine Learning và AI trong y sinh.


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://deeplearningcoban.gitbook.io/deeplearningcoban.com/case-study-ung-dung-thuc-te/ml-pipeline-healthcare-case-study-full-code/4.-baseline-models.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.