ข้อควรพิจารณาเมื่อใช้การวิเคราะห์จำแนกเชิงเส้นของฟิชเชอร์เพื่อการจำแนกประเภทมีอะไรบ้าง
เมื่อพูดถึงงานการจำแนกประเภทในการวิเคราะห์ข้อมูล Fisher's Linear Discriminant Analysis (FLDA) เป็นเทคนิคที่ทรงพลังและใช้กันอย่างแพร่หลาย ในฐานะซัพพลายเออร์ของ Fisher ฉันได้เห็นการใช้งานจริงของผลิตภัณฑ์ที่เกี่ยวข้องกับ Fisher ในอุตสาหกรรมต่างๆ และฉันยังเข้าใจแง่มุมทางทฤษฎีและการปฏิบัติของการวิเคราะห์จำแนกเชิงเส้นของ Fisher อีกด้วย ในบล็อกนี้ ฉันจะพูดถึงข้อควรพิจารณาที่สำคัญเมื่อใช้การวิเคราะห์จำแนกเชิงเส้นของฟิชเชอร์ในการจำแนกประเภท
1. ทำความเข้าใจพื้นฐานของการวิเคราะห์จำแนกเชิงเส้นของฟิชเชอร์
การวิเคราะห์จำแนกเชิงเส้นของฟิชเชอร์ได้รับการพัฒนาโดย Ronald A. Fisher ในปี 1936 เป้าหมายหลักของ FLDA คือการค้นหาการผสมผสานเชิงเส้นของคุณสมบัติต่างๆ ที่จะช่วยเพิ่มการแยกระหว่างคลาสต่างๆ สูงสุดในขณะที่ลดความแปรปรวนภายในแต่ละคลาสให้เหลือน้อยที่สุด ในทางคณิตศาสตร์ หากเรามีสองคลาส (C_1) และ (C_2) เราต้องการหาเวกเตอร์การฉายภาพ (\mathbf{w}) เพื่อให้อัตราส่วนของความแปรปรวนระหว่าง - คลาสต่อความแปรปรวนภายใน - คลาสถูกขยายให้ใหญ่สุด
ความแปรปรวนระหว่าง - คลาส (S_B) และความแปรปรวนภายใน - คลาส (S_W) มีการกำหนดดังนี้:
ให้ (\mathbf{m__1) และ (\mathbf{m__2) เป็นเวกเตอร์เฉลี่ยของคลาส (C_1) และ (C_2) ตามลำดับ และ (N_1) และ (N_2) เป็นจำนวนตัวอย่างในแต่ละคลาส
(S_B=(\คณิตศาสตร์)2)^ต)
(S_W=\ผลรวม{i\in C_1}(\mathbf{x__i-\mathbf{m__1)(\mathbf{x__i - \mathbf{m}1)^T+\ผลรวม{i\in C_2}(\mathbf{x__i-\mathbf{m__2)(\mathbf{x__i - \mathbf{m__2)^T)
เวกเตอร์การฉายภาพที่เหมาะสมที่สุด (\mathbf{w}) กำหนดโดย (\mathbf{w}=S_W^{-1}(\mathbf{m__1 - \mathbf{m__2))
ก่อนที่จะใช้ FLDA จำเป็นต้องมีความเข้าใจที่ชัดเจนเกี่ยวกับแนวคิดพื้นฐานเหล่านี้ ความรู้นี้จะช่วยในการตีความผลลัพธ์และการตัดสินใจที่เหมาะสมในระหว่างกระบวนการจำแนกประเภท
2. การประมวลผลข้อมูลล่วงหน้า
2.1 การเลือกและการแยกคุณสมบัติ
คุณภาพของคุณสมบัติอินพุตมีผลกระทบอย่างมากต่อประสิทธิภาพของ FLDA คุณลักษณะที่ไม่เกี่ยวข้องหรือซ้ำซ้อนสามารถเพิ่มความซับซ้อนในการคำนวณและลดความแม่นยำในการจำแนกประเภท ในฐานะซัพพลายเออร์ของ Fisher ฉันทราบดีว่าในการใช้งานทางอุตสาหกรรม เช่น งานที่เกี่ยวข้องตัวควบคุมวาล์วดิจิตอล Dvc2000ข้อมูลอาจมีการอ่านเซ็นเซอร์จำนวนมาก การเลือกคุณสมบัติที่เกี่ยวข้องมากที่สุดที่เกี่ยวข้องกับการทำงานของวาล์ว เช่น ความดัน อัตราการไหล และตำแหน่งของวาล์ว สามารถปรับปรุงประสิทธิภาพของ FLDA ได้
เทคนิคการแยกคุณลักษณะ เช่น Principal Component Analysis (PCA) สามารถใช้ร่วมกับ FLDA ได้เช่นกัน PCA สามารถเปลี่ยนคุณลักษณะดั้งเดิมให้เป็นตัวแปรที่ไม่เกี่ยวข้องชุดใหม่ ซึ่งจากนั้นสามารถใช้เป็นอินพุตสำหรับ FLDA ได้ ซึ่งสามารถลดมิติของข้อมูลและทำให้กระบวนการจำแนกประเภทมีประสิทธิภาพมากขึ้น
2.2 การทำให้ข้อมูลเป็นมาตรฐาน
FLDA มีความไวต่อขนาดของคุณสมบัติอินพุต คุณลักษณะที่มีความแปรปรวนสูงสามารถครอบงำการวิเคราะห์ ซึ่งนำไปสู่ผลลัพธ์ที่ไม่ถูกต้อง ดังนั้นจึงจำเป็นต้องทำให้ข้อมูลเป็นมาตรฐานก่อนที่จะใช้ FLDA วิธีการทำให้เป็นมาตรฐานทั่วไป ได้แก่ การทำให้เป็นมาตรฐานขั้นต่ำ - สูงสุด และการทำให้เป็นมาตรฐานของคะแนน z
การทำให้เป็นมาตรฐานขั้นต่ำ - สูงสุดจะปรับขนาดข้อมูลให้อยู่ในช่วงคงที่ โดยปกติ ([0, 1]):
(x_{บรรทัดฐาน}=\frac{x - x_{นาที}}{x_{สูงสุด}-x_{นาที}})
การทำให้คะแนนมาตรฐานเป็นมาตรฐานจะทำให้ข้อมูลมีค่าเฉลี่ยเป็น 0 และค่าเบี่ยงเบนมาตรฐานเป็น 1:
(x_{norm}=\frac{x-\mu}{\sigma})
โดยที่ (\mu) คือค่าเฉลี่ยและ (\sigma) คือค่าเบี่ยงเบนมาตรฐานของจุดสนใจ
3. สมมติฐานของการวิเคราะห์จำแนกเชิงเส้นของฟิชเชอร์
3.1 การกระจายคลาสแบบเกาส์เซียน
FLDA ถือว่าแต่ละคลาสเป็นไปตามการแจกแจงแบบเกาส์เซียน ในการใช้งานจริง สมมติฐานนี้อาจใช้ไม่ได้เสมอไป เช่น ในกรณีของทรานสดิวเซอร์ฟิชเชอร์ 846ข้อมูลที่รวบรวมจากทรานสดิวเซอร์อาจมีการกระจายแบบไม่เกาส์เซียนเนื่องจากเสียงรบกวนหรือสภาพการทำงานที่ผิดปกติ เมื่อข้อสันนิษฐานแบบเกาส์ถูกละเมิด ประสิทธิภาพของ FLDA อาจลดลง ในกรณีเช่นนี้ วิธีการจำแนกประเภททางเลือก เช่น วิธีการที่ไม่ใช่แบบอิงพารามิเตอร์หรือวิธีการแบบเคอร์เนล อาจมีความเหมาะสมมากกว่า
3.2 เมทริกซ์ความแปรปรวนร่วมที่เท่ากัน
FLDA ยังถือว่าทุกคลาสมีเมทริกซ์ความแปรปรวนร่วมเหมือนกัน หากไม่เป็นไปตามสมมติฐานนี้ เวกเตอร์การฉายภาพโดยประมาณอาจไม่เหมาะสมที่สุด ในการใช้งานทางอุตสาหกรรม โหมดการทำงานที่แตกต่างกันของกตัวควบคุมฟิชเชอร์ DLC3010อาจส่งผลให้เกิดเมทริกซ์ความแปรปรวนร่วมที่แตกต่างกันสำหรับคลาสที่ต่างกัน เพื่อแก้ไขปัญหานี้ คุณสามารถใช้ Quadratic Discriminant Analysis (QDA) แทน FLDA ได้ QDA ผ่อนคลายสมมติฐานเมทริกซ์ความแปรปรวนร่วมที่เท่ากัน และสามารถให้ประสิทธิภาพการจำแนกประเภทที่ดีขึ้น เมื่อเมทริกซ์ความแปรปรวนร่วมแตกต่างกัน
4. การประเมินและการตรวจสอบแบบจำลอง
4.1 ตัวชี้วัดประสิทธิภาพ
หลังจากใช้ FLDA ในการจำแนกประเภทแล้ว จำเป็นต้องประเมินประสิทธิภาพของแบบจำลอง ตัวชี้วัดประสิทธิภาพทั่วไป ได้แก่ ความแม่นยำ ความแม่นยำ การเรียกคืน และคะแนน F1
ความแม่นยำคือสัดส่วนของกลุ่มตัวอย่างที่จำแนกอย่างถูกต้อง:
(ความแม่นยำ=\frac{TP + TN}{TP+TN + FP+FN})
โดยที่ (TP) คือจำนวนผลบวกจริง (TN) คือจำนวนผลบวกลวง (FP) คือจำนวนผลบวกลวง และ (FN) คือจำนวนผลบวกลวง
ความแม่นยำจะวัดสัดส่วนของผลบวกที่แท้จริงจากผลบวกที่คาดการณ์ไว้:
(ความแม่นยำ=\frac{TP}{TP + FP})
Recall วัดสัดส่วนของผลบวกที่แท้จริงกับผลบวกจริง:
(เรียกคืน=\frac{TP}{TP+FN})
คะแนน F1 คือค่าเฉลี่ยฮาร์มอนิกของความแม่นยำและการจดจำ:
(F1 - คะแนน = 2\times\frac{Precision\times Recall}{Precision + Recall})
4.2 การตรวจสอบข้าม - การตรวจสอบ
การตรวจสอบความถูกต้องแบบข้ามเป็นเทคนิคที่ใช้กันอย่างแพร่หลายสำหรับการตรวจสอบความถูกต้องของแบบจำลอง โดยเกี่ยวข้องกับการแยกข้อมูลออกเป็นหลายชุดย่อย ฝึกโมเดลกับชุดย่อยของข้อมูล และทดสอบกับชุดย่อยที่เหลือ วิธีตรวจสอบความถูกต้องแบบไขว้ทั่วไป ได้แก่ การตรวจสอบความถูกต้องแบบข้ามแบบ k - fold และการตรวจสอบแบบข้ามแบบออกครั้งเดียว การตรวจสอบความถูกต้องแบบข้าม K - fold จะแบ่งข้อมูลออกเป็น (k) ชุดย่อยที่เท่ากัน และแบบจำลองจะได้รับการฝึกและทดสอบ (k) ครั้ง ในแต่ละครั้งโดยใช้ชุดย่อยที่แตกต่างกันเป็นชุดการทดสอบ การตรวจสอบข้ามแบบลาออกครั้งเดียวจะใช้ตัวอย่างทั้งหมดสำหรับการฝึกและตัวอย่างที่เหลือสำหรับการทดสอบ
5. ความซับซ้อนในการคำนวณ
ความซับซ้อนในการคำนวณของ FLDA ขึ้นอยู่กับจำนวนตัวอย่าง (N) และจำนวนคุณลักษณะ (d) ขั้นตอนการคำนวณหลักใน FLDA รวมถึงการคำนวณเวกเตอร์เฉลี่ย เมทริกซ์ความแปรปรวนร่วม และการแก้ปัญหาเวกเตอร์ลักษณะเฉพาะ ความซับซ้อนของเวลาในการคำนวณเมทริกซ์ความแปรปรวนร่วมคือ (O(Nd^2)) และความซับซ้อนของเวลาในการแก้ปัญหาเวกเตอร์ลักษณะเฉพาะคือ (O(d^3))
ในชุดข้อมูลขนาดใหญ่ ค่าใช้จ่ายในการคำนวณอาจเป็นปัญหาสำคัญได้ ในฐานะซัพพลายเออร์ของ Fisher ฉันรู้ว่าในการใช้งานข้อมูลขนาดใหญ่ที่เกี่ยวข้องกับระบบควบคุมทางอุตสาหกรรม ปริมาณข้อมูลอาจมีขนาดใหญ่มาก เพื่อลดความซับซ้อนในการคำนวณ สามารถใช้เทคนิคต่างๆ เช่น FLDA ที่เพิ่มขึ้นหรือวิธีการโดยประมาณได้
6. การจำแนกประเภทหลายคลาส
แม้ว่ารูปแบบพื้นฐานของ FLDA ได้รับการออกแบบมาเพื่อการจำแนกประเภทไบนารี่ แต่ก็สามารถขยายไปสู่การจำแนกประเภทหลายคลาสได้ วิธีการทั่วไปวิธีหนึ่งคือวิธี one - vs - rest (OvR) ซึ่งสำหรับแต่ละคลาส จะมีการฝึกตัวแยกประเภทไบนารีเพื่อแยกแยะคลาสนั้นจากคลาสที่เหลือ อีกวิธีหนึ่งคือวิธีหนึ่ง - vs - หนึ่ง (OvO) โดยที่ตัวแยกประเภทไบนารีได้รับการฝึกฝนสำหรับทุกคู่ของคลาส
เมื่อจัดการกับการจำแนกประเภทหลายคลาสโดยใช้ FLDA สิ่งสำคัญคือต้องพิจารณาการแลกเปลี่ยนระหว่างจำนวนตัวแยกประเภทไบนารีและความซับซ้อนในการคำนวณ วิธี OvR ต้องการตัวแยกประเภทน้อยกว่า แต่อาจมีความแม่นยำน้อยกว่า ในขณะที่วิธี OvO ต้องการตัวแยกประเภทมากกว่า แต่สามารถให้ประสิทธิภาพที่ดีกว่าในบางกรณี
บทสรุป
การวิเคราะห์จำแนกเชิงเส้นของฟิชเชอร์เป็นเครื่องมือที่มีค่าสำหรับงานจำแนกประเภท แต่ต้องพิจารณาปัจจัยต่างๆ อย่างรอบคอบ ตั้งแต่การประมวลผลข้อมูลล่วงหน้าไปจนถึงการประเมินแบบจำลอง แต่ละขั้นตอนมีบทบาทสำคัญในความสำเร็จของกระบวนการจำแนกประเภท ในฐานะซัพพลายเออร์ของ Fisher ฉันตระหนักดีถึงความท้าทายในทางปฏิบัติในการใช้งานทางอุตสาหกรรมและความสำคัญของการใช้เทคนิคที่เหมาะสมเพื่อรับรองความถูกต้องและประสิทธิภาพของการจำแนกประเภท


หากคุณสนใจที่จะใช้การวิเคราะห์จำแนกเชิงเส้นของฟิชเชอร์สำหรับงานจำแนกประเภทของคุณ หรือต้องการผลิตภัณฑ์ที่เกี่ยวข้องกับฟิชเชอร์ เช่นตัวควบคุมวาล์วดิจิตอล Dvc2000-ทรานสดิวเซอร์ฟิชเชอร์ 846, หรือฟิชเชอร์ DLC3010 คอนโทรลเลอร์โปรดติดต่อเราเพื่อขอจัดซื้อจัดจ้างและหารือเพิ่มเติม
อ้างอิง
- ฟิชเชอร์, RA (1936) การใช้การวัดหลายรายการในปัญหาอนุกรมวิธาน พงศาวดารสุพันธุศาสตร์, 7(2), 179 - 188.
- บิชอป CM (2549) การจดจำรูปแบบและการเรียนรู้ของเครื่อง สปริงเกอร์.
- ดูดา, อาร์โอ, ฮาร์ต, พีอี, และสตอร์ก, ดีจี (2001) การจำแนกรูปแบบ ไวลีย์.
