Làm thế nào để chọn thuật toán ML cho các vấn đề hồi quy?

Có tiếng vang này ở khắp mọi nơi – Học máy!


Vậy, cái máy Machine Learning (ML) này là gì?

Hãy xem xét một ví dụ thực tế. Nếu bạn có thể tưởng tượng xác suất kết quả của một nhiệm vụ được thực hiện lần đầu tiên thì Hãy Let Let nói rằng công việc là học lái xe. Đó là để nói, làm thế nào bạn sẽ phản hồi chính mình?. Với sự không chắc chắn?

Mặt khác, bạn muốn vỗ về mình như thế nào cho cùng một nhiệm vụ sau một vài năm luyện tập? Có lẽ bạn sẽ có suy nghĩ chuyển từ tham số không chắc chắn hoặc chắc chắn hơn. Vì vậy, làm thế nào bạn có chuyên môn trong nhiệm vụ?

Rất có thể, bạn đã có kinh nghiệm bằng cách điều chỉnh một số thông số và hiệu suất của bạn được cải thiện. Đúng? Đây là học máy.

Một chương trình máy tính được cho là học hỏi kinh nghiệm (E) về một số nhiệm vụ (T) để mang lại kết quả hoạt động tốt nhất (P).

Trong cùng một hướng, máy móc học theo một số khái niệm toán học phức tạp và mọi dữ liệu cho chúng đều ở dạng 0 và 1. Kết quả là, chúng tôi tặng mã logic cho chương trình của chúng tôi; thay vào đó, chúng tôi muốn một cỗ máy tự mình tìm ra logic từ dữ liệu.

Hơn nữa, nếu bạn muốn tìm mối liên hệ giữa kinh nghiệm, trình độ công việc, kỹ năng hiếm có và mức lương thì bạn cần dạy các thuật toán học máy.

Bộ dữ liệu phức tạp với nhiều tính năng hơnBộ dữ liệu phức tạp với nhiều tính năng hơn

Theo nghiên cứu trường hợp này, bạn cần điều chỉnh các tính năng để có được nhãn. Nhưng, bạn không mã hóa Thuật toán và bạn nên tập trung vào dữ liệu.

Do đó, khái niệm này là Dữ liệu + Thuật toán = Thông tin chi tiết. Thứ hai, Thuật toán đã được phát triển cho chúng tôi và chúng tôi cần biết nên sử dụng thuật toán nào để giải quyết vấn đề của mình. Chúng ta hãy xem xét vấn đề hồi quy và cách tốt nhất để chọn thuật toán.

Tổng quan về máy học

Dựa theo Hà Nội, Một nhà khoa học người Đức có hơn 5 năm kinh nghiệm học máy, Khắc Nếu bạn có thể hiểu nhiệm vụ học máy là một vấn đề hồi quy hay phân loại thì chọn thuật toán phù hợp là một miếng bánh.

các nhóm khác nhau của học máyCác nhóm khác nhau của học máy

Để liệt kê, sự khác biệt chính giữa chúng là biến đầu ra trong hồi quy là số (hoặc liên tục) trong khi đó để phân loại là phân loại (hoặc rời rạc).

Hồi quy trong học máy

Để bắt đầu, các thuật toán hồi quy cố gắng ước tính hàm ánh xạ (f) từ các biến đầu vào (x) đến các biến đầu ra số hoặc liên tục (y). Bây giờ, biến đầu ra có thể là một giá trị thực, có thể là một số nguyên hoặc một giá trị dấu phẩy động. Do đó, các vấn đề dự đoán hồi quy thường là số lượng hoặc kích thước.

Ví dụ: nếu bạn được cung cấp một bộ dữ liệu về nhà ở và bạn được yêu cầu dự đoán giá của chúng, đó là một nhiệm vụ hồi quy vì giá sẽ là một đầu ra liên tục.

Ví dụ về các thuật toán hồi quy phổ biến bao gồm hồi quy tuyến tính, Hỗ trợ hồi quy véc tơ (SVR), và cây hồi quy.

Phân loại trong học máy

Ngược lại, trong trường hợp thuật toán phân loại, y là một phạm trù mà hàm ánh xạ dự đoán. Để giải thích, đối với một hoặc một số biến đầu vào, một mô hình phân loại sẽ cố gắng dự đoán giá trị của một hoặc một vài kết luận.

Chẳng hạn, nếu bạn được cung cấp một bộ dữ liệu về nhà ở, một thuật toán phân loại có thể cố gắng dự đoán xem giá của các ngôi nhà có bán nhiều hơn hoặc ít hơn giá bán lẻ được đề xuất hay không. Ở đây có hai loại riêng biệt: trên hoặc dưới giá đã nói.

Ví dụ về các thuật toán phân loại phổ biến bao gồm hồi quy logistic, Naïve Bayes, cây quyết định và K Hàng xóm gần nhất.

Chọn đúng thuật toán

Đánh giá ML đúngViệc đào dữ liệu tỉ mỉ để đánh giá ML đúng

Hiểu dữ liệu của bạn

  • Hãy xem số liệu thống kê tóm tắt
  • Sử dụng tham số ‘Tỷ lệ phần trăm để xác định phạm vi của dữ liệu
  • Trung bình và trung bình mô tả xu hướng trung tâm
  • Mối tương quan có thể chỉ ra mối quan hệ mạnh mẽ

Trực quan hóa dữ liệu

  • Lô hộp có thể chỉ ra ngoại lệ.
  • Biểu đồ mật độ và biểu đồ cho thấy sự lan truyền của dữ liệu
  • Sơ đồ phân tán có thể mô tả mối quan hệ số lượng

Làm sạch dữ liệu

Tìm ra những mảnh còn thiếuTìm ra những mảnh còn thiếu LỚP trong danh sách việc cần làm để tìm thuật toán ML phù hợp

  • Đối phó với một giá trị còn thiếu. Kết quả được đưa ra để đưa ra kết quả nhạy cảm trong trường hợp (thiếu dữ liệu cho một số biến nhất định có thể dẫn đến dự đoán không chính xác)
  • Mặc dù các mô hình cây ít nhạy cảm hơn với sự hiện diện của các ngoại lệ, các mô hình hồi quy hoặc các mô hình khác sử dụng các phương trình nhạy cảm hơn với các ngoại lệ
  • Về cơ bản, các ngoại lệ có thể là kết quả của việc thu thập dữ liệu xấu hoặc chúng có thể là các giá trị cực đoan hợp pháp

Quản lý dữ liệu

Hơn nữa, trong khi chuyển đổi dữ liệu thô thành dữ liệu được đánh bóng tuân thủ các mô hình, người ta phải lưu ý những điều sau:

  • Làm cho dữ liệu dễ hiểu hơn.
  • Thu thập dữ liệu phức tạp hơn.
  • Tập trung vào việc giảm sự dư thừa dữ liệu và chiều.
  • Bình thường hóa các giá trị biến.

Phân loại vấn đề thông qua biến đầu vào

  • Bạn đã dán nhãn dữ liệu; nó là một vấn đề học tập có giám sát.
  • Nếu bạn có dữ liệu không được ghi nhãn và muốn tìm cấu trúc, thì đó là một vấn đề học tập không được giám sát.
  • Trong trường hợp bạn muốn tối ưu hóa một chức năng mục tiêu bằng cách tương tác với một môi trường, thì đó là một vấn đề học tập củng cố.

Phân loại vấn đề thông qua biến đầu ra

  • Đầu ra của mô hình của bạn là một số; nó là một vấn đề hồi quy.
  • Khi đầu ra của mô hình của bạn là một lớp, thì nó là một vấn đề phân loại.
  • Đầu ra của mô hình của bạn là một tập hợp các nhóm đầu vào; nó là một vấn đề cụm.

Yếu tố ràng buộc

  • Lưu ý về dung lượng lưu trữ vì nó thay đổi cho các mô hình khác nhau.
  • Dự đoán có phải nhanh không? Chẳng hạn, trong các tình huống thời gian thực như phân loại biển báo đường càng nhanh càng tốt để tránh tai nạn.

Cuối cùng, Tìm thuật toán

Phương pháp logicPhương pháp logic: Thực hiện theo quy trình

Bây giờ bạn đã có một bức tranh rõ ràng về dữ liệu của mình, bạn có thể triển khai các công cụ thích hợp để chọn thuật toán phù hợp.

Trong khi đó, để có quyết định tốt hơn, đây là danh sách kiểm tra các yếu tố dành cho bạn:

  • Xem mô hình có phù hợp với mục tiêu kinh doanh của bạn không
  • Bao nhiêu tiền xử lý mô hình yêu cầu
  • Kiểm tra độ chính xác của mô hình
  • Làm thế nào giải thích mô hình là
  • Mô hình nhanh như thế nào: Mất bao lâu để xây dựng một mô hình và mô hình mất bao lâu để đưa ra dự đoán
  • Khả năng mở rộng của mô hình

Để thêm vào, người ta phải chú ý đến độ phức tạp của thuật toán trong khi chọn.

Nói chung, bạn có thể đo độ phức tạp của mô hình bằng các tham số:

  • Khi nó yêu cầu hai hoặc nhiều hơn mười tính năng để tìm hiểu và dự đoán mục tiêu
  • Nó phụ thuộc vào kỹ thuật tính năng phức tạp hơn (ví dụ: sử dụng thuật ngữ đa thức, tương tác hoặc thành phần chính)
  • Khi kịch bản có nhiều chi phí tính toán hơn (ví dụ: một cây quyết định duy nhất so với một rừng ngẫu nhiên 100 cây)

Bên cạnh đó, thuật toán tương tự có thể được thực hiện phức tạp hơn bằng tay. Nó hoàn toàn phụ thuộc vào số lượng tham số được yêu thích và kịch bản đang xem xét. Chẳng hạn, bạn có thể thiết kế mô hình hồi quy với nhiều tính năng hơn hoặc các thuật ngữ đa thức và thuật ngữ tương tác. Hoặc, bạn có thể thiết kế một cây quyết định với độ sâu ít hơn.

Các thuật toán học máy phổ biến

Hồi quy tuyến tính

Đây có lẽ là những người đơn giản nhất.
Một số ví dụ sử dụng hồi quy tuyến tính là:

  • Đầu tiên, khi đến giờ đi đến địa điểm này
  • Dự đoán doanh số bán hàng của một sản phẩm cụ thể vào tháng tới
  • Tác động của nồng độ cồn trong máu đến sự phối hợp
  • Dự đoán doanh số bán thẻ quà tặng hàng tháng và cải thiện dự báo doanh thu hàng năm

Hồi quy logistic

Rõ ràng, có rất nhiều lợi thế cho thuật toán này Tích hợp nhiều tính năng hơn với một cơ sở thông dịch tốt, cơ sở cập nhật dễ dàng để thôn tính dữ liệu mới.

Để đặt nó khác nhau, bạn có thể sử dụng điều này cho:

  • Dự đoán khách hàng.
  • Trường hợp cụ thể về điểm tín dụng hoặc phát hiện gian lận.
  • Đo lường hiệu quả của các chiến dịch tiếp thị.

Cây quyết định

Rõ ràng, các cây đơn lẻ hiếm khi được sử dụng, nhưng trong thành phần, với nhiều cây khác, chúng xây dựng các thuật toán hiệu quả như Random Forest hoặc Gradient Tree Boosting. Tuy nhiên, một trong những nhược điểm là họ không hỗ trợ việc học trực tuyến, vì vậy bạn phải xây dựng lại cây của mình khi có những ví dụ mới.

Cây rất tuyệt vời cho:

  • Quyết định đầu tư
  • Người vay nợ ngân hàng
  • Trình độ chuyên môn bán hàng

Vịnh Naive

Quan trọng nhất, Naive Bayes là một lựa chọn đúng đắn khi tài nguyên CPU và bộ nhớ là một yếu tố hạn chế. Tuy nhiên, nhược điểm chính của nó là có thể học được các tương tác giữa các tính năng.

Nó có thể được sử dụng cho:

  • Nhận dạng khuôn mặt
  • Để đánh dấu một email là thư rác hay không.
  • Phân tích tình cảm và phân loại văn bản.

Phần kết luận

Do đó, nói chung, trong một kịch bản thời gian thực, hơi khó để theo đúng thuật toán học máy cho mục đích này. Tuy nhiên, bạn có thể sử dụng danh sách kiểm tra này để liệt kê một vài thuật toán một cách thuận tiện.

Hơn nữa, lựa chọn giải pháp phù hợp cho một vấn đề thực tế đòi hỏi sự hiểu biết kinh doanh của chuyên gia cùng với thuật toán phù hợp. Vì vậy, hãy dạy dữ liệu của bạn vào các thuật toán phù hợp, chạy tất cả chúng theo cách song song hoặc nối tiếp và cuối cùng đánh giá hiệu suất của các thuật toán để chọn (các) thuật toán tốt nhất.

Nếu bạn đang muốn chuyên sâu về học tập, thì bạn có thể kiểm tra khóa học này bằng cách học sâu.

THẺ

  • AI

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map