Roc curve là gì

     

ROC (Receiver operating characteristic) là 1 trong đồ thị được áp dụng khá thông dụng trong validation các mã sản phẩm phân loại nhị phân. Đường cong này được chế tác ra bằng cách biểu diễn tỷ lệ dự báo true positive rate (TPR) dựa trên phần trăm dự báo failse positive rate (FPR) tại những ngưỡng Threshold không giống nhau. Vào machine learning chúng ta gọi true positive rate là độ nhạy cảm sensitivity có nghĩa là xác xuất dự báo đúng một sự kiện là positive. Phần trăm false positive rate là probability of false alarm (tỷ lệ chú ý sai, một sự khiếu nại là negative nhưng mà coi nó là positive) và tỷ lệ này khớp ứng với xác xuất mắc sai trái loại II đã được trình bày bên dưới. Do đó ROC curve sẽ thể hiện mối quan lại hệ, sự tiến công đổi và ý nghĩa lựa chọn 1 model cân xứng của độ nhạy bén và xác suất cảnh báo sai. Nhằm mục đích tạo ra một cái nhìn tổng quan nhất về ROC, nội dung bài viết này sẽ reviews đến độc giả thế như thế nào là ROC, ý nghĩa sâu sắc học thuật và phương pháp lựa chọn model dựa trên ROC.

Bạn đang xem: Roc curve là gì


I. Sai lạc loại I, II vào dự báo.

Xác xuất mắc sai lầm loại I và nhiều loại II trong dự đoán được đề cập đến không hề ít trong những tài liệu thống kê học tập và đây là những loại sai lầm đặc trưng cơ phiên bản trong các model dự báo. Mang sử chúng ta xét một model dự báo sự khiếu nại với 2 kỹ năng positive (tích cực) cùng negative (tiêu cực). Các công dụng của model xảy ra sẽ lâm vào hoàn cảnh 4 đội sau:

TP: True positive, đoán trước đúng sự khiếu nại là positive trong trường hợp thực tế là positive.FP: False positive, dự đoán sai sự kiện là positive trong trường hợp thực tế là negative.TN: True negative, đoán trước đúng sự kiện là negative vào trường hợp thực tiễn là negative.FN: False negative, đoán trước sai sự khiếu nại là negative trong trường hợp thực tế là positive.

TP và TN là những case dự đoán đúng. Còn FP, FN là rất nhiều case dự đoán sai. FN tương tự với mắc sai lầm loại I (Bác vứt sự khiếu nại là positive với gán cho nó là negative) với FP tương tự với mắc sai lạc loại II (Chấp dìm một sự khiếu nại là positive khi bản chất sự kiện và negative). Thông thường xác xuất mắc sai lạc loại II sẽ gây nên hậu quả lớn hơn. Mục tiêu chính của những model chuẩn chỉnh đoán, cảnh báo hay quản lí trị rủi ro khủng hoảng là lưu ý sớm, phòng ngừa, loại bỏ các sự kiện xấu nên việc tìm đúng chuẩn được sự kiện negative được ưu tiên rộng positive. Để đọc hơn tại sao mức độ khủng hoảng của sai lạc loại II là cao hơn loại I chúng ta phân tích ví dụ thực tiễn sau.

Bệnh tiểu đường khá nguy nan nhưng xác xuất mắc bệnh tình của loại căn bệnh này so với tỷ lệ dân số là rất thấp chẳng hạn 1:10000. Một người có các bộc lộ tiểu con đường và tiến hành các xét nghiệm. Sau thời điểm xem kết quả họ giả định rằng bác sĩ kết luận sai. Khi đó có 2 tài năng xảy ra:

Loại I: phiên bản thân bệnh dịch nhân trọn vẹn bình thường, chưng sĩ tóm lại bệnh nhân bị tiểu đường.

Loại II: người mắc bệnh bị tiểu con đường nhưng bác sĩ kết luận hoàn toàn bình thường.

Rõ ràng sai lầm loại II gây ra hậu quả to hơn vì người bị bệnh không phát hiện sớm bệnh của chính bản thân mình để chữa bệnh kịp thời đang dẫn mang đến bệnh phát triển xấu đi. Sai lạc loại I có tác động tới chi phí khám chữa dịch nhưng không ảnh hưởng đến sức khỏe và hậu quả là ít nghiêm trọng hơn.

Xem thêm: Getting Started - Unit 3: The Green Movement

Căn cứ vào lúc độ khủng hoảng này đôi khi chúng ta sẽ lựa chọn model dựa trên tiêu chuẩn mức độ thiệt hại mang lại là thấp độc nhất mà chưa phải là những chỉ số đo lường sức to gan của mã sản phẩm như AUC, Gini, Accuracy rate. Ví dụ như nếu một mã sản phẩm dự báo nợ xấu người tiêu dùng có xác xuất dự báo chính xác tốt hơn nhưng lại khi áp dụng model giá trị nợ xấu giảm thiểu của nó thấp hơn một mã sản phẩm khác tất cả xác xuất dự báo chính xác kém hơn vậy thì vẫn lựa chọn model thứ 2 bởi tuy vậy dự báo kém hơn về tổng thể và toàn diện (bao bao gồm cả ngôi trường hợp dự đoán đúng quý khách hàng vỡ nợ cùng không đổ vỡ nợ) nhưng tỷ lệ dự báo đúng mực các vừa lòng đồng tan vỡ nợ của chính nó cao hơn. Do đó nếu coi xác xuất dự báo chính xác là cố định thì luôn luôn có sự tấn công đổi giữa những việc dự báo đúng các trường hợp tốt và đoán trước đúng nguy cơ xấu. Hay nói cách khác khi tỷ lệ đúng đắn dự báo nguy cơ tiềm ẩn xấu tăng lên thì tỷ lệ dự báo đúng đắn trường hợp xuất sắc giảm xuống. Vì chưng mức độ đặc biệt của việc lựa chọn mục tiêu mô hình là triệu tập vào dự báo nguy cơ xấu hay giỏi mà những thống kê học chỉ dẫn một vài ba tham số giám sát và đo lường các xác suất dự báo như sensitivity, specificity.


II. Sensitivity, Specitivity và False positive rate

1.Độ nhạy mã sản phẩm (sensitivity):

Độ tinh tế model nói một cách khác là TPR(True positive rate) cho thấy thêm mức độ dự báo đúng chuẩn trong đội sự khiếu nại positive.

Sensitivity = con số sự kiện positive được dự báo đúng là positive/Số lượng sự khiếu nại positive.

2.Độ quánh hiệu (Specificity):

Trái lại cùng với Sensitivity là Specificity được định nghĩa là phần trăm dự báo đúng chuẩn trong team sự khiếu nại negative.

Specificity = số lượng sự khiếu nại negative được dự báo chính xác là negative/số lượng sự khiếu nại negative.

3.Xác xuất mắc sai lầm loại II (False positive rate):

False positive rate kí hiệu là FPR tất cả công thức:

FPR = 1-Specificity.

Xem thêm: Bột Rose Hip Là Gì ? Rosehip Oil Và 8 Lợi Ích Dưỡng Da Tuyệt Vời

Cho biết nấc độ dự báo sai một sự kiện khi nó là negative nhưng kết luận là positive. False positive rate chính là tỷ lệ mắc sai lạc loại II với là mục tiêu để các mã sản phẩm quản trị rủi ro khủng hoảng tối thiểu hóa nó. Bảng dưới sẽ cho chúng ta hình dung rõ hơn về cách tính cùng mối liên hệ của các chỉ số này.