- [SWE học A.I] Phần 2: Một số khái niệm toán học
- [SWE học A.I] Phần 1: Machine Learning, Supervised Learning, Unsupervised Learning và Reinforment Learning
- [SWE học A.I] Phần 3: Machine Learning Classification
Tổng hợp (Summations)
Tổng hợp (summation) được biểu diễn bằng ký hiệu sigma \(\sum\) và được dùng để cộng các phần tử lại với nhau.
Ví dụ, nếu ta muốn lặp qua các số từ 1 đến 5, nhân mỗi số với 2, rồi cộng tổng lại, cách biểu diễn bằng tổng hợp sẽ như sau:
\(\sum_{i=1}^{5} 2i\)Tổng hợp \(\sum\) có nghĩa là “cộng một loạt các phần tử lại với nhau”, sử dụng chỉ số i và giá trị tối đa n để biểu thị mỗi lần lặp.
Lũy thừa (Exponents)
Lũy thừa (exponentiation) là phép nhân một số với chính nó một số lần nhất định. Ví dụ, khi ta nâng 2 lên lũy thừa 3 (biểu diễn là \(2^3\)), điều đó có nghĩa là nhân ba số 2 với nhau:
\(2^3 = 2 \cdot 2 \cdot 2 = 8\)- Cơ số (base): Là giá trị được nâng lên lũy thừa (trong ví dụ trên là 2).
- Số mũ (exponent): Là số lần cơ số được nhân với chính nó (trong ví dụ trên là 3).
Các thuộc tính của lũy thừa
1. Quy tắc nhân (Product Rule)
Khi nhân hai lũy thừa có cùng cơ số, ta cộng các số mũ lại. Ví dụ:
\(2^2 \cdot 2^3 = 2^{2+3} = 2^5 = 32\)Giải thích:
- \(2^2 = 4\), \(2^3 = 8\).
- \(4 \cdot 8 = 32\), hoặc trực tiếp: \(2^5 = 32\).
- Quy tắc này chỉ áp dụng khi các lũy thừa có cùng cơ số.
2. Quy tắc chia (Quotient Rule)
Khi chia hai lũy thừa có cùng cơ số, ta trừ số mũ. Ví dụ:
\(\frac{x^5}{x^2} = x^{5-2} = x^3\)Giải thích:
- Khi chia, các thừa số giống nhau ở tử số và mẫu số triệt tiêu, để lại \(x^3\).
3. Lũy thừa âm (Negative Exponents)
Lũy thừa âm biểu thị nghịch đảo của lũy thừa dương. Ví dụ:
\(x^{-3} = \frac{1}{x^3}\)Ví dụ:
- \(\frac{x^5}{x^7} = x^{5-7} = x^{-2} = \frac{1}{x^2}\).
- Quy tắc nhân vẫn áp dụng cho lũy thừa âm: \(x^5 \cdot x^{-3} = x^{5+(-3)} = x^2\).
4. Lũy thừa bằng 0
Bất kỳ số nào (khác 0) nâng lên lũy thừa 0 đều bằng 1:
\(x^0 = 1\)Giải thích:
- Xét \(\frac{x^3}{x^3} = x^{3-3} = x^0\). Vì một số chia cho chính nó bằng 1, nên \(x^0 = 1\).
- Thuộc tính này đảm bảo tính nhất quán trong các quy tắc lũy thừa.
5. Lũy thừa của lũy thừa (Power Rule)
Khi một lũy thừa được nâng lên một lũy thừa khác, ta nhân các số mũ:
\(x^3 = x^{2 \cdot 3} = x^6\)Giải thích:
- \(x^3 = x^2 \cdot x^2 \cdot x^2 = x^6\).
6. Lũy thừa phân số (Fractional Exponents)
Lũy thừa phân số biểu thị căn (root). Ví dụ:
- Căn bậc hai: \(\sqrt{4} = 4^{\frac{1}{2}} = 2\), vì \(2 \cdot 2 = 4\).
- Căn bậc ba: \(\sqrt[3]{8} = 8^{\frac{1}{3}} = 2\), vì \(2 \cdot 2 \cdot 2 = 8\).
Ví dụ:
- \(8^{\frac{2}{3}}\) nghĩa là lấy căn bậc ba của 8, rồi bình phương:
- \(\sqrt[3]{8} = 2\).
- \(2^2 = 4\).
- Do đó, \(8^{\frac{2}{3}} = 4\).
Lũy thừa vô tỷ: Lũy thừa với số mũ vô tỷ, như \(2^\pi\), có thể được tính xấp xỉ bằng cách sử dụng số hữu tỷ gần đúng. Ví dụ:
\(2^\pi \approx 2^{3.1415926535} \approx 8.824977827\)2
Logarit (Logarithms)
Logarit (logarithm) là một hàm toán học tìm số mũ của một cơ số cụ thể để đạt được một số nhất định. Ví dụ, câu hỏi “2 mũ bao nhiêu bằng 8?” được biểu diễn là:
\(2^x = 8\)Câu trả lời là \(x = 3\), vì \(2^3 = 8\). Cách biểu diễn bằng logarit là:
\(\log_2(8) = 3\)- Trong Python, nếu không chỉ định cơ số, hàm log() sử dụng cơ số là số Euler \(e \approx 2.718\), phổ biến trong khoa học dữ liệu (data science).
- Trong các lĩnh vực như đo lường động đất, cơ số mặc định thường là 10.
Giải thích:
- Cơ số (base) là 2.
- Logarit tìm số mũ (3) để \(2^3 = 8\).
Toán tử | Thuộc tính lũy thừa | Thuộc tính logarit |
---|---|---|
Nhân | \(x^a \cdot x^b = x^{a+b}\) | \(\log_b (xy) = \log_b x + \log_b y\) |
Chia | \(\frac{x^a}{x^b} = x^{a-b}\) | \(\log_b \left(\frac{x}{y}\right) = \log_b x – \log_b y\) |
Lũy thừa | \(x^a \cdot x^b = x^{a \cdot b}\) | \(\log_b (x^a) = a \log_b x\) |
Lũy thừa 0 | \(x^0 = 1\) | Không xác định |
Nghịch đảo | \(x^{-a} = \frac{1}{x^a}\) | \(\log_b \left(\frac{1}{x}\right) = -\log_b x\) |
Số Euler và Logarit Tự nhiên
Số Euler, ký hiệu \(e\), là một hằng số toán học với giá trị xấp xỉ 2.71828, có vai trò quan trọng trong giải tích và các lĩnh vực liên quan.
Tính chất đặc biệt của số Euler nằm ở chỗ đạo hàm của hàm mũ \(e^x\) chính là chính nó, giúp đơn giản hóa các phép tính trong các bài toán liên quan đến hàm mũ và logarit.
Xác suất thống kê
Bằng cách nghiên cứu và phân tích dữ liệu đầu vào, chúng ta có thể lựa chọn các thuật toán học máy phù hợp nhất. Những ý tưởng và công cụ hỗ trợ phân tích này thường được tập hợp dưới khái niệm xác suất thống kê. Các khái niệm và ngôn ngữ xác suất thống kê thống kê xuất hiện khắp nơi trong lĩnh vực học máy, từ các bài báo học thuật, chú thích trong mã nguồn, đến tài liệu của các thư viện phần mềm.
Sự ngẫu nhiên (Randomness)
Số ngẫu nhiên đóng vai trò quan trọng trong nhiều thuật toán học máy. Chúng được sử dụng để khởi tạo hệ thống, điều khiển các bước trong quá trình học, và đôi khi còn ảnh hưởng đến kết quả đầu ra.
Việc chọn số ngẫu nhiên đúng cách là yếu tố quyết định: nó có thể tạo ra sự khác biệt giữa một hệ thống học được từ dữ liệu và cho ra kết quả hữu ích, với một hệ thống không học được gì.
Thay vì chọn các số một cách tùy tiện, chúng ta sử dụng nhiều công cụ để kiểm soát loại số cần dùng và cách chọn chúng.
Thông thường, chúng ta chọn một số ngẫu nhiên trong khoảng giới hạn bởi giá trị tối thiểu và tối đa, như khi ai đó yêu cầu bạn “chọn một số từ 1 đến 10”. Trong ví dụ này, lựa chọn của chúng ta bị giới hạn trong một tập hợp hữu hạn các số nguyên từ 1 đến 10. Tuy nhiên, trong thực tế, chúng ta thường làm việc với số thực, có thể nằm giữa các số nguyên. Trong khoảng từ 1 đến 10, có 10 số nguyên, nhưng số lượng số thực là vô hạn.
Khi nói về các tập hợp số, dù ngẫu nhiên hay không, chúng ta thường đề cập đến giá trị trung bình của chúng. Đây là cách đơn giản để mô tả đặc trưng của tập hợp. Có ba cách phổ biến để tính giá trị trung bình, và chúng thường được sử dụng, nên chúng ta sẽ làm rõ tại đây. Hãy lấy ví dụ một danh sách gồm năm số: 1, 3, 4, 4, 13.
- Trung bình cộng (mean) là giá trị mà chúng ta thường hiểu là “trung bình” trong ngôn ngữ hàng ngày. Nó được tính bằng cách cộng tất cả các phần tử trong danh sách và chia cho số lượng phần tử. Trong ví dụ, tổng các phần tử là 1 + 3 + 4 + 4 + 13 = 25. Có năm phần tử, nên trung bình cộng là 25 / 5 = 5.
- Mốt (mode) là giá trị xuất hiện nhiều nhất trong danh sách. Trong ví dụ, số 4 xuất hiện hai lần, trong khi các số khác chỉ xuất hiện một lần, nên 4 là mốt. Nếu không có giá trị nào xuất hiện nhiều hơn các giá trị khác, danh sách được coi là không có mốt.
- Trung vị (median) là giá trị nằm ở giữa khi danh sách được sắp xếp từ nhỏ đến lớn. Trong danh sách đã sắp xếp của chúng ta (1, 3, 4, 4, 13), số 4 nằm ở giữa, nên 4 là trung vị. Nếu danh sách có số phần tử chẵn, trung vị là trung bình cộng của hai phần tử ở giữa. Ví dụ, với danh sách 1, 3, 4, 8, trung vị là (3 + 4) / 2 = 3,5.
Biến ngẫu nhiên và phân phối xác suất (Random Variables and Probability Distributions)
Giả sử bạn là một nhiếp ảnh gia được giao nhiệm vụ chụp ảnh cho một bài báo về bãi xe phế liệu, tập trung vào các xe tải và ô tô hỏng.
Bạn đến một bãi xe chứa nhiều phương tiện hỏng hóc. Sau khi trò chuyện với chủ bãi, bạn đồng ý trả tiền để cô ấy mang từng chiếc xe đến cho bạn chụp ảnh. Để thêm phần thú vị, cô ấy sử dụng một bánh xe quay cũ trong văn phòng, với mỗi khe trên bánh xe đại diện cho một chiếc xe trong bãi, được đánh số từ 1.
![[SWE học A.I] Phần 2: Một số khái niệm toán học 12 image 19 - quochung.cyou PTIT](https://quochung.cyou/wp-content/uploads/2025/05/image-19.png)
Mỗi lần bạn trả tiền, cô ấy quay bánh xe. Khi bánh xe dừng, cô ấy ghi lại số ở vị trí trên cùng, lái xe kéo đến và mang chiếc xe tương ứng đến cho bạn. Bạn chụp ảnh, sau đó cô ấy đưa xe trở lại bãi. Nếu muốn chụp chiếc xe khác, bạn trả tiền, cô ấy quay bánh xe, và quy trình lặp lại.
Giả sử bài báo yêu cầu bạn chụp ảnh năm loại xe khác nhau: sedan, bán tải (pickup), minivan, SUV, và wagon. Với mỗi loại xe, bạn muốn biết xác suất nhận được loại xe đó khi bánh xe quay. Để tính toán, bạn đi kiểm tra từng chiếc xe trong bãi và phân loại chúng vào năm nhóm này. Kết quả được thể hiện như sau:
![[SWE học A.I] Phần 2: Một số khái niệm toán học 13 image 20 - quochung.cyou PTIT](https://quochung.cyou/wp-content/uploads/2025/05/image-20.png)
Trong gần 950 chiếc xe, minivan chiếm số lượng lớn nhất, tiếp theo là xe bán tải, wagon, sedan, và SUV. Vì mỗi chiếc xe có cơ hội được chọn như nhau, khi quay bánh xe, khả năng cao nhất bạn sẽ nhận được một chiếc minivan.
Nhưng cụ thể, khả năng nhận được minivan cao hơn bao nhiêu?
Để xác định xác suất nhận được từng loại xe, chúng ta chia số lượng xe của mỗi loại cho tổng số xe.
Xác định số lượng từng loại xe
Ví dụ:
- Minivan: 320 chiếc
- Pickup: 210 chiếc
- Wagon: 180 chiếc
- Sedan: 130 chiếc
- SUV: 110 chiếc
- Tổng cộng: 950 chiếc
Tính xác suất bằng cách chia số lượng mỗi loại xe cho tổng số xe
- Minivan:
320 / 950 ≈ 0.337
- Pickup:
210 / 950 ≈ 0.221
- Wagon:
180 / 950 ≈ 0.189
- Sedan:
130 / 950 ≈ 0.137
- SUV:
110 / 950 ≈ 0.116
Chuyển sang phần trăm bằng cách nhân với 100
- Minivan:
0.337 × 100 = 33.7%
- Pickup:
22.1%
- Wagon:
18.9%
- Sedan:
13.7%
Kết quả này cho biết xác suất nhận được từng loại xe, như được minh họa dưới đây:
![[SWE học A.I] Phần 2: Một số khái niệm toán học 14 image 21 - quochung.cyou PTIT](https://quochung.cyou/wp-content/uploads/2025/05/image-21.png)
Tổng các xác suất của năm loại xe bằng 1,0, thể hiện quy tắc cơ bản của xác suất: các giá trị phải nằm trong khoảng từ 0 đến 1 và tổng bằng 1.
Dựa trên phân phối xác suất này, chúng ta có thể hình dung một bánh xe quay đơn giản hơn, như sau:
![[SWE học A.I] Phần 2: Một số khái niệm toán học 15 image 22 - quochung.cyou PTIT](https://quochung.cyou/wp-content/uploads/2025/05/image-22.png)
Xác suất để con trỏ dừng ở một vùng nhất định tỷ lệ với phần chu vi của vùng đó, được vẽ theo tỷ lệ giống như trong phân phối xác suất.
Thông thường, khi tạo số ngẫu nhiên trên máy tính, chúng ta không sử dụng bánh xe quay mà dựa vào phần mềm để mô phỏng quá trình này. Chẳng hạn, chúng ta có thể cung cấp cho một hàm thư viện danh sách các giá trị, như độ cao của các cột trong phân phối xác suất, và yêu cầu trả về một giá trị. Chúng ta kỳ vọng sẽ nhận được minivan khoảng 34% thời gian, xe bán tải khoảng 26% thời gian, v.v.
Biến ngẫu nhiên
Việc chọn một giá trị ngẫu nhiên từ danh sách các lựa chọn, mỗi lựa chọn có xác suất riêng, đòi hỏi một quy trình cụ thể. Để tiện lợi, chúng ta gói gọn quá trình này vào một khái niệm gọi là biến ngẫu nhiên. (random variable)
Quá trình chọn một giá trị từ phân phối được gọi là rút một giá trị từ biến ngẫu nhiên.
Hàm khối xác suất
Chúng ta đã gọi biểu đồ xác suất là phân phối xác suất, nhưng nó cũng có thể được xem như một hàm. Khi gọi hàm này, nó trả về một loại xe với xác suất tương ứng. Khi chỉ có một số lượng hữu hạn giá trị trả về, như năm loại xe trong ví dụ, chúng ta gọi đó là hàm khối xác suất (probability mass function – pmf) hoặc phân phối xác suất rời rạc. Các thuật ngữ này nhấn mạnh rằng chỉ có một số lượng cố định các kết quả có thể xảy ra.
Chúng ta cũng có thể tạo ra các phân phối xác suất liên tục, thường được sử dụng khi khởi tạo các giá trị trong mạng nơ-ron.
Hãy lấy ví dụ: giả sử bạn muốn biết lượng dầu còn lại trong mỗi chiếc xe mà chủ bãi mang đến. Lượng dầu là một biến liên tục, vì nó có thể là bất kỳ số thực nào.
Biểu đồ phân phối xác suất liên tục cho phép chúng ta tính xác suất nhận được một giá trị trong một khoảng nhất định bằng cách tính diện tích dưới đường cong trong khoảng đó. Chẳng hạn, để tìm xác suất nhận được một chiếc xe có 0,45 đơn vị dầu, chúng ta không chỉ nhìn vào giá trị tại 0,45 mà xem xét một khoảng nhỏ, ví dụ từ 0,44 đến 0,46, và tính diện tích dưới đường cong trong khoảng này. Điều này có nghĩa là đường cong có thể có giá trị lớn hơn 1, miễn là tổng diện tích dưới toàn bộ đường cong bằng 1.
![[SWE học A.I] Phần 2: Một số khái niệm toán học 16 image 23 - quochung.cyou PTIT](https://quochung.cyou/wp-content/uploads/2025/05/image-23.png)
Phân phối như thế này được gọi là phân phối xác suất liên tục (continuous probability distribution – cpd) hoặc hàm mật độ xác suất (probability density function – pdf). Đôi khi, thuật ngữ “hàm mật độ xác suất” được sử dụng một cách không chính thức cho cả phân phối rời rạc, nhưng ngữ cảnh thường giúp làm rõ ý nghĩa.
Hiệp phương sai và Tương quan (Covariance and Correlation)
Đôi khi các biến số có thể liên quan với nhau theo những cách thú vị. Hãy tưởng tượng một biến cho chúng ta biết nhiệt độ bên ngoài, và biến kia cho biết khả năng có tuyết rơi. Khi nhiệt độ rất cao, khả năng có tuyết gần như bằng không – việc biết được giá trị của một biến sẽ tiết lộ thông tin quý giá về biến kia. Trong trường hợp này, mối quan hệ mang tính âm tính: khi nhiệt độ tăng cao, khả năng có tuyết giảm xuống, và ngược lại.
Mặt khác, biến thứ hai có thể cho chúng ta biết số lượng người bơi dự kiến tại hồ địa phương. Mối liên hệ giữa nhiệt độ và số người bơi mang tính dương tính, bởi vì trong những ngày ấm áp hơn, chúng ta sẽ thấy nhiều người bơi hơn, và ngược lại.
Khả năng phát hiện những mối quan hệ này và đo lường sức mạnh của chúng có giá trị thực tiễn to lớn. Giả sử chúng ta đang lên kế hoạch huấn luyện một thuật toán để trích xuất thông tin từ tập dữ liệu. Nếu phát hiện ra hai giá trị trong dữ liệu có mối liên hệ chặt chẽ (như nhiệt độ và khả năng có tuyết), chúng ta có thể loại bỏ một trong hai biến đó khỏi dữ liệu vì nó thừa thãi. Điều này không chỉ cải thiện tốc độ huấn luyện mà còn có thể nâng cao chất lượng kết quả.
Trong phần này, chúng ta sẽ khám phá một phép đo gọi là hiệp phương sai (covariance), được các nhà toán học phát triển để xác định sức mạnh của những mối quan hệ này. Chúng ta cũng sẽ tìm hiểu một biến thể gọi là tương quan (correlation), thường hữu ích hơn vì nó không phụ thuộc vào quy mô của các con số liên quan.
Hiệp phương sai
Hãy tưởng tượng chúng ta có hai biến và nhận thấy một mô hình số học cụ thể liên quan đến chúng. Khi giá trị của một biến tăng, biến kia tăng theo một bội số cố định của lượng đó, và điều tương tự xảy ra khi một trong hai biến giảm.
Ví dụ cụ thể: giả sử biến A tăng 3 đơn vị, và biến B tăng 6 đơn vị. Sau đó, B tăng 4 đơn vị, và A tăng 2 đơn vị. Tiếp theo, A giảm 4 đơn vị, và B giảm 8 đơn vị. Trong mọi trường hợp, B tăng hoặc giảm gấp đôi lượng mà A tăng hoặc giảm, vì vậy bội số cố định của chúng ta là 2.
Khi chúng ta quan sát thấy mối quan hệ như vậy (với bất kỳ bội số nào, không chỉ riêng số 2), chúng ta nói rằng hai biến này đồng biến (covary). Chúng ta đo lường sức mạnh của mối liên hệ giữa hai biến, hay tính nhất quán mà chúng đồng biến, bằng một con số gọi là hiệp phương sai. Nếu phát hiện ra rằng khi một giá trị tăng hoặc giảm, giá trị kia cũng làm điều tương tự theo một lượng có thể dự đoán được, thì hiệp phương sai là một số dương, và chúng ta nói rằng hai biến đang thể hiện hiệp phương sai dương.
Cách cổ điển để thảo luận về hiệp phương sai là vẽ các điểm trong không gian 2D
![[SWE học A.I] Phần 2: Một số khái niệm toán học 17 image 25 - quochung.cyou PTIT](https://quochung.cyou/wp-content/uploads/2025/05/image-25.png)
Ở đây chúng ta thấy hai tập hợp điểm đồng biến khác nhau. Mỗi điểm có tọa độ x và y, nhưng chúng chỉ là đại diện cho bất kỳ hai biến nào chúng ta muốn so sánh. Sự thay đổi của y theo dõi sự thay đổi của x càng nhất quán, hiệp phương sai càng mạnh.
Nếu một giá trị giảm bất cứ khi nào giá trị kia tăng, chúng ta nói các biến có hiệp phương sai âm.
![[SWE học A.I] Phần 2: Một số khái niệm toán học 18 image 26 - quochung.cyou PTIT](https://quochung.cyou/wp-content/uploads/2025/05/image-26.png)
Nếu hai biến không có chuyển động khớp nhau một cách nhất quán như vậy, thì hiệp phương sai bằng không.
![[SWE học A.I] Phần 2: Một số khái niệm toán học 19 image 27 - quochung.cyou PTIT](https://quochung.cyou/wp-content/uploads/2025/05/image-27.png)
Khái niệm hiệp phương sai của chúng ta chỉ nắm bắt được mối quan hệ giữa các biến khi sự thay đổi của chúng là bội số của nhau. Hình trên cho thấy rằng có thể có một mô hình rõ ràng trong dữ liệu (ở đây các chấm tạo thành một phần của hình tròn), nhưng hiệp phương sai vẫn bằng không vì các mối quan hệ rất không nhất quán.
Tương quan
Hiệp phương sai là một khái niệm hữu ích, nhưng nó có một vấn đề. Do cách nó được định nghĩa về mặt toán học, nó không tính đến mối quan hệ giữa các đơn vị của hai biến, điều này khiến chúng ta khó so sánh sức mạnh của các hiệp phương sai khác nhau.
Ví dụ, giả sử chúng ta đo một tá biến mô tả một cây đàn guitar: độ dày của gỗ, chiều dài của cần đàn, thời gian một nốt nhạc cộng hưởng, lực căng trên dây đàn, v.v. Chúng ta có thể tìm thấy hiệp phương sai giữa các cặp phép đo khác nhau, nhưng không thể so sánh một cách có ý nghĩa lượng hiệp phương sai để tìm ra cặp nào có mối quan hệ mạnh nhất và yếu nhất. Ngay cả thang đo cũng quan trọng: nếu chúng ta tìm hiệp phương sai cho một cặp phép đo bằng centimet và hiệp phương sai cho một cặp phép đo khác bằng inch, chúng ta không thể so sánh những giá trị đó để nói cặp nào đồng biến mạnh hơn.
Dấu của hiệp phương sai là tất cả những gì chúng ta học được: giá trị dương có nghĩa là mối quan hệ dương, giá trị âm có nghĩa là mối quan hệ âm, và số không có nghĩa là không có mối quan hệ. Chỉ có dấu là một vấn đề, bởi vì chúng ta thực sự muốn so sánh các tập hợp biến khác nhau.
Sau đó, chúng ta có thể tìm ra thông tin hữu ích như biến nào có tương quan dương và âm mạnh nhất và yếu nhất. Chúng ta có thể sử dụng thông tin đó để cắt giảm kích thước tập dữ liệu của mình, ví dụ, bằng cách loại bỏ một trong các phép đo trong một hoặc nhiều cặp có liên quan chặt chẽ.
Để có được một phép đo cho phép chúng ta thực hiện những so sánh này, chúng ta có thể tính toán một con số hơi khác gọi là hệ số tương quan (correlation coefficient), hay đơn giản là tương quan. Giá trị này bắt đầu với hiệp phương sai nhưng bao gồm một bước tính toán bổ sung. Kết quả là một con số không phụ thuộc vào các đơn vị được chọn cho các biến. Chúng ta có thể nghĩ về tương quan như một phiên bản được chia tỷ lệ của hiệp phương sai, luôn cho chúng ta một giá trị giữa −1 và 1. Giá trị +1 cho chúng ta biết chúng ta có tương quan dương hoàn hảo, trong khi giá trị −1 cho chúng ta biết chúng ta có tương quan âm hoàn hảo.
Tương quan dương hoàn hảo dễ nhận biết: tất cả các chấm nằm dọc theo một đường thẳng di chuyển theo hướng đông bắc-tây nam.
![[SWE học A.I] Phần 2: Một số khái niệm toán học 20 image 28 - quochung.cyou PTIT](https://quochung.cyou/wp-content/uploads/2025/05/image-28.png)
Loại mối quan hệ nào giữa các điểm mang lại cho chúng ta tương quan dương, nhưng ở đâu đó trong khoảng từ 0 đến 1? Đó là khi giá trị y tiếp tục tăng với x, nhưng tỷ lệ sẽ không cố định. Chúng ta có thể không dự đoán được nó thay đổi bao nhiều, nhưng chúng ta biết rằng sự tăng của x gây ra sự tăng của y, và sự giảm của x gây ra sự giảm của y.
![[SWE học A.I] Phần 2: Một số khái niệm toán học 21 image 29 - quochung.cyou PTIT](https://quochung.cyou/wp-content/uploads/2025/05/image-29.png)
Hình trên cho thấy biểu đồ chấm cho một số giá trị dương của tương quan giữa 0 và 1. Các chấm càng gần với việc rơi trên một đường thẳng, giá trị tương quan càng gần với 1. Chúng ta nói rằng nếu giá trị gần số không thì tương quan yếu (hoặc thấp), nếu nó khoảng 0.5 thì trung bình, và nếu nó gần 1 thì mạnh (hoặc cao).
Bây giờ hãy xem xét giá trị tương quan bằng không. Tương quan bằng không có nghĩa là không có mối quan hệ giữa sự thay đổi của một biến và sự thay đổi của biến kia. Chúng ta không thể dự đoán điều gì sẽ xảy ra. Nhớ lại rằng tương quan chỉ là một phiên bản được chia tỷ lệ của hiệp phương sai, vì vậy khi hiệp phương sai bằng không, tương quan cũng vậy.
![[SWE học A.I] Phần 2: Một số khái niệm toán học 22 image 30 - quochung.cyou PTIT](https://quochung.cyou/wp-content/uploads/2025/05/image-30.png)
Tương quan âm giống như tương quan dương, chỉ khác là các biến di chuyển theo hướng ngược nhau: khi x tăng, y giảm. Giống như với tương quan dương, nếu giá trị gần số không thì tương quan yếu (hoặc thấp), nếu nó khoảng −0.5 thì trung bình, và nếu nó gần −1 thì mạnh (hoặc cao).
![[SWE học A.I] Phần 2: Một số khái niệm toán học 23 image 31 - quochung.cyou PTIT](https://quochung.cyou/wp-content/uploads/2025/05/image-31.png)
Khi hai biến có tương quan dương hoặc âm hoàn hảo (tức là giá trị +1 và −1), chúng ta nói rằng các biến được tương quan tuyến tính, bởi vì (như chúng ta đã thấy) các điểm nằm trên một đường thẳng. Các biến được mô tả bởi bất kỳ giá trị nào khác của tương quan được cho là tương quan phi tuyến tính.
Đạo hàm (Derivative)
Một trong những khía cạnh quan trọng nhất của một đường cong là đạo hàm của nó. Đạo hàm cung cấp thông tin về hình dạng của đường cong tại bất kỳ điểm nào trên đó. Trong phần này, chúng ta sẽ xem xét các ý tưởng cốt lõi dẫn đến khái niệm đạo hàm.
Cực đại và cực tiểu (Maximums and Minimums)
Trong học máy, một nhiệm vụ quan trọng là giảm thiểu sai số của hệ thống. Nói rộng ra, ta muốn tìm cực đại (điểm cao nhất) hoặc cực tiểu (điểm thấp nhất) của đường cong trên toàn bộ chiều dài của nó. Nếu đây là điểm cao nhất hoặc thấp nhất của cả đường cong, ta gọi chúng là cực đại toàn cục (global maximum) và cực tiểu toàn cục (global minimum).
![[SWE học A.I] Phần 2: Một số khái niệm toán học 24 image 33 - quochung.cyou PTIT](https://quochung.cyou/wp-content/uploads/2025/05/image-33.png)
Để đơn giản hóa, ta tập trung vào vùng lân cận của một điểm. Hãy tưởng tượng ta đứng tại một điểm trên đường cong và bước sang trái. Nếu con đường dốc lên, ta đi tiếp cho đến khi nó dốc xuống, rồi dừng lại. Nếu con đường dốc xuống, ta dừng khi nó bắt đầu dốc lên. Ta làm tương tự khi bước sang phải. Kết quả, ta có ba điểm: điểm xuất phát, điểm dừng bên trái, và điểm dừng bên phải.
![[SWE học A.I] Phần 2: Một số khái niệm toán học 25 image 34 - quochung.cyou PTIT](https://quochung.cyou/wp-content/uploads/2025/05/image-34.png)
Để hiểu sâu hơn về đạo hàm, ta cần làm quen với đường tiếp tuyến. Hãy hình dung đường cong như một con đường uốn lượn. Tại mỗi điểm, ta có thể vẽ một đường thẳng. Đường tiếp tuyến này cho biết con đường đang dốc lên, dốc xuống, hay nằm ngang tại điểm đó.
![[SWE học A.I] Phần 2: Một số khái niệm toán học 26 image 35 - quochung.cyou PTIT](https://quochung.cyou/wp-content/uploads/2025/05/image-35.png)
Điều kỳ diệu là tại các điểm cực đại hoặc cực tiểu cục bộ, đường tiếp tuyến luôn nằm ngang, với độ dốc bằng 0. Vì vậy, để tìm cực đại và cực tiểu, ta chỉ cần tìm những điểm mà đường tiếp tuyến nằm ngang.
![[SWE học A.I] Phần 2: Một số khái niệm toán học 27 image 39 - quochung.cyou PTIT](https://quochung.cyou/wp-content/uploads/2025/05/image-39.png)
Để vẽ đường tiếp tuyến, ta chọn một điểm, bước một khoảng nhỏ sang trái và phải trên đường cong, đánh dấu hai điểm, rồi nối chúng bằng một đường thẳng. Khi kéo hai điểm này lại gần điểm ban đầu, đường thẳng sẽ trở thành đường tiếp tuyến. Độ dốc của đường này chính là đạo hàm.
![[SWE học A.I] Phần 2: Một số khái niệm toán học 28 image 36 - quochung.cyou PTIT](https://quochung.cyou/wp-content/uploads/2025/05/image-36.png)
Đạo hàm không chỉ là một khái niệm toán học trừu tượng, mà còn là công cụ cốt lõi trong học máy. Khi ta muốn giảm sai số, ta sử dụng đạo hàm để xác định hướng di chuyển trên đường cong.
Nếu đạo hàm dương, ta di chuyển ngược hướng để tìm cực tiểu.
![[SWE học A.I] Phần 2: Một số khái niệm toán học 29 image 38 - quochung.cyou PTIT](https://quochung.cyou/wp-content/uploads/2025/05/image-38.png)
Nếu đạo hàm âm, ta di chuyển theo hướng dương.
![[SWE học A.I] Phần 2: Một số khái niệm toán học 30 image 37 - quochung.cyou PTIT](https://quochung.cyou/wp-content/uploads/2025/05/image-37.png)
Bằng cách lặp lại quá trình này, ta tiến gần đến điểm có đạo hàm bằng 0 – nơi cực đại hoặc cực tiểu cục bộ nằm
Đạo hàm riêng (Partial Derivatives)
Thay vì tính độ dốc trên một hàm một chiều, đạo hàm riêng tính độ dốc theo từng biến, giả sử các biến còn lại được giữ không đổi.
Hãy xem xét hàm \(f(x, y) = 2x^3 + 3y^3\). Đạo hàm riêng theo \(x\) và \(y\) lần lượt là:
\(\frac{\partial f}{\partial x} = 6x^2\) \(\frac{\partial f}{\partial y} = 9y^2\)Khi làm việc với các hàm đa biến, khái niệm gradient (gradient vector) trở nên quan trọng. Gradient là một vectơ bao gồm tất cả các đạo hàm riêng theo từng biến, chỉ ra hướng và độ lớn của sự thay đổi nhanh nhất của hàm. Với hàm \(f(x, y)\), gradient được biểu diễn là:
\(\nabla f = \left( \frac{\partial f}{\partial x}, \frac{\partial f}{\partial y} \right)\)Trong trường hợp \(f(x, y) = 2x^3 + 3y^3\), gradient tại một điểm \((x, y)\) là:
\(\nabla f = (6x^2, 9y^2)\)Ví dụ, tại điểm \((1, 2)\):
- \(\frac{\partial f}{\partial x} = 6 \cdot 1^2 = 6\)
- \(\frac{\partial f}{\partial y} = 9 \cdot 2^2 = 36\)
- Gradient: \(\nabla f = (6, 36)\)
Gradient không chỉ cho biết độ dốc theo từng hướng mà còn chỉ ra hướng tăng trưởng nhanh nhất của hàm. Điều này rất quan trọng trong các thuật toán tối ưu hóa như gradient descent, nơi gradient được sử dụng để cập nhật các tham số nhằm giảm thiểu hàm mất mát.
![[SWE học A.I] Phần 2: Một số khái niệm toán học 31 image 1 - quochung.cyou PTIT](https://quochung.cyou/wp-content/uploads/2025/06/image-1.png)
Đây là một bề mặt cong với các giá trị \(z = f(x, y)\) thay đổi theo \(x\) và \(y\). Một số điểm đáng chú ý:
- Trục \(x\) và \(y\) đại diện cho các biến đầu vào, trong khi trục \(z\) thể hiện giá trị của hàm.
- Màu sắc thay đổi (từ xanh đậm đến vàng) cho thấy sự thay đổi của giá trị \(z\), với các vùng màu vàng thường là đỉnh hoặc đáy của bề mặt.
- Độ dốc của bề mặt tại một điểm (ví dụ tại \((x, y) = (1, 2)\)) có thể được biểu diễn bằng gradient, với thành phần \(6\) theo \(x\) và \(36\) theo \(y\).
Quy tắc Chuỗi (Chain Rule).
Giả sử bạn có hai hàm số sau:
- Hàm thứ nhất: \(y = x^2 + 1\)
- Hàm thứ hai: \(z = y^3 – 2\)
Lưu ý rằng hai hàm này có mối liên kết, vì biến \(y\) là đầu ra của hàm thứ nhất nhưng lại là đầu vào của hàm thứ hai. Do đó, chúng ta có thể thay hàm \(y\) vào hàm \(z\) như sau:
\(z = (x^2 + 1)^3 – 2\)Vậy đạo hàm của \(z\) theo \(x\) là gì? Chúng ta đã có biểu thức thay thế biểu diễn \(z\) theo \(x\)
Kết quả: \(6x(x^2 + 1)^2\)
Vậy đạo hàm của \(z\) theo \(x\) là:
\(\frac{dz}{dx} = 6x(x^2 + 1)^2\)Tuy nhiên, hãy thử một cách tiếp cận khác. Nếu chúng ta tính riêng đạo hàm của hàm \(y\) và hàm \(z\), sau đó nhân chúng với nhau, điều này cũng tạo ra đạo hàm của \(z\) theo \(x\)! Hãy thử làm:
- Đạo hàm của \(y = x^2 + 1\) theo \(x\): \(\frac{dy}{dx} = 2x\)
- Đạo hàm của \(z = y^3 – 2\) theo \(y\): \(\frac{dz}{dy} = 3y^2\)
- Theo quy tắc chuỗi: \(\frac{dz}{dx} = \frac{dz}{dy} \cdot \frac{dy}{dx} = 3y^2 \cdot 2x = 6xy^2\)
Biểu thức \(6xy^2\) trông có vẻ khác với \(6x(x^2 + 1)^2\), nhưng đó chỉ vì chúng ta chưa thay hàm \(y = x^2 + 1\) vào. Hãy thay \(y\) để biểu diễn toàn bộ đạo hàm theo \(x\):
\(6xy^2 = 6x(x^2 + 1)^2\)Kết quả này trùng khớp với đạo hàm đã tính trước đó!
Đây chính là quy tắc chuỗi, quy tắc này phát biểu rằng: với một hàm \(y\) (có biến đầu vào là \(x\)) được đưa vào một hàm khác \(z\) (có biến đầu vào là \(y\)), chúng ta có thể tìm đạo hàm của \(z\) theo \(x\) bằng cách nhân hai đạo hàm tương ứng:
\(\frac{dz}{dx} = \frac{dz}{dy} \cdot \frac{dy}{dx}\)Reference:
- Essential Math for Data Science (Thomas Nield)
- Deep Learning (Andrew Glassner)