บทที่ 5

การสร้างสมการถดถอย
แน่นอนว่าโดยปกติเส้นถดถอยไม่สามารถจะลากผ่านค่าข้อมูลทุกค่าในแผนภาพการกระจาย นั่นคือ สมการถดถอยไม่สามารถใช้คาดคะเนค่าตัวแปรตาม y ทุกค่าได้ถูกต้องจากค่าตัวแปรอิสระ x อย่างไรก็ตาม เราต้องการสมการถดถอย หรือค่า a และ b ที่ทำให้คาดคะเนค่าตัวแปรตามได้ดีที่สุดหรือผิดพลาดน้อยที่สุด
การประมาณค่า a และ b จากข้อมูล (x1 , y1) , (x2 , y2) , … , (xn , yn) เพื่อให้ได้เส้นตรงที่เข้ากับข้อมูลได้ดีที่สุด มีวิธีการที่เป็นที่นิยมใช้คือ วิธีกำลังสองน้อยที่สุด (least squares method) วิธีนี้จะให้ค่าประมาณ a และ b ที่ทำให้ความแตกต่างของค่าตัวแปรตามกับค่าที่คาดคะเนได้จากสมการถดถอยมีค่าน้อยที่สุด ดังนั้น ถ้าใช้สัญลักษณ์ (อ่านว่า y hat) แทนค่าคาดคะเนของตัวแปรตาม สมการถดถอยที่จะประมาณขึ้นคือ

และต้องการให้ค่า y ต่างจาก น้อยที่สุดที่ทุกจุดของค่าข้อมูล ในภาพ 2 แสดงให้เห็นแผนภาพการกระจายและเส้นถดถอยที่ดี และเส้นที่ไม่ดี พร้อมทั้งความแตกต่างของค่า y และค่า ที่จุดต่าง ๆ

ภาพ 2. แผนภาพการกระจายของจุดรอบเส้นถดถอย

ค่า intercept และความชันของเส้นถดถอยที่ประมาณด้วยวิธีกำลังสองน้อยที่สุด มีสูตรดังนี้

และสมการถดถอยที่ใช้คาดคะเนค่าของ y เมื่อทราบค่า x คือ

การประมาณสมการถดถอยหรือคำนวณค่า a และ b จะใช้เครื่องคิดเลขที่มีฟังก์ชันเฉพาะ หรือใช้คำสั่ง Regression ในโปรแกรม EXCEL ก็ได้ การใช้คอมพิวเตอร์จะสะดวกมากกว่า เพราะสามารถสร้างกราฟของแผนภาพการกระจายของข้อมูลขึ้นมาก่อน เพื่อดูว่าสมการเส้นตรงเหมาะสมกับข้อมูลหรือไม่
ตัวอย่าง
ในปัจจุบัน คอมพิวเตอร์เข้ามามีบทบาทในชีวิตเรามากขึ้น นิสิตทุกคนต้องเรียนรู้การประยุกต์ใช้งานคอมพิวเตอร์ในด้านต่าง ๆ ดังนั้นจึงมีผู้สนใจศึกษาว่า ความถนัดทางคอมพิวเตอร์ขึ้นอยู่กับความสามารถทางคณิตศาสตร์หรือไม่ ในการศึกษาเรื่องนี้ได้ให้นิสิตจำนวน 20 คน ทดลองทำแบบทดสอบ 2 ชุด ชุดหนึ่งวัดความสามารถทางคณิตศาสตร์ และอีกชุดวัดความถนัดทางคอมพิวเตอร์ คะแนนจากการทดสอบมีดังนี้



คณิตศาสตร์ (x) 28 35 42 41 44 42 36 44 39 36
คอมพิวเตอร์ (y) 4 16 20 13 22 21 15 20 19 16

คณิตศาสตร์ (x) 40 40 33 27 32 45 41 31 41 43
คอมพิวเตอร์ (y) 18 17 8 6 5 20 18 11 19 22





ที่มา: เอกสารประกอบการสอน มหาวิทยาลัยเกษตรศาสตร์ 2542, วิชาบูรณาการ
หมวดการศึกษาทั่วไป รหัสวิชา 999211 คณิตศาสตร์และคอมพิวเตอร์ในชีวิตประจำวัน

ภาพ 3. แผนภาพการกระจายและเส้นถดถอยของข้อมูลคะแนนทดสอบ
แผนภาพการกระจายของคะแนนของนิสิตทั้ง 20 คนในภาพ 3 (ซ้าย) ชี้ว่าความถนัดทางคอมพิวเตอร์มีความสัมพันธ์ในทางบวกกับความสามารถทางคณิตศาสตร์ ผู้ที่เก่งคณิตศาสตร์ก็มักจะถนัดในเรื่องคอมพิวเตอร์ด้วย ลักษณะความสัมพันธ์ของคะแนนทดสอบทั้งสองด้านเป็นเส้นตรง ค่าสัมประสิทธิ์สหสัมพันธ์จากโปรแกรม EXCEL คือ 0.9102 ซึ่งเป็นความสัมพันธ์เชิงเส้นตรงในระดับสูง ฉะนั้น จึงประมาณสมการถดถอยต่อไปได้เป็น

เมื่อ x เป็นคะแนนทดสอบด้านคณิตศาสตร์ และเป็นค่าประมาณของคะแนนทดสอบด้านคอมพิวเตอร์ ภาพ 3 (ขวา) แสดงเส้นถดถอยจากสมการนี้ จะเห็นจุดเกาะกลุ่มใกล้เส้นตรงพอสมควร แสดงว่า ความสามารถทางคณิตศาสตร์ของนิสิตนำมาช่วยอธิบายได้ค่อนข้างดีว่าทำไมนิสิตจึงมีความถนัดทางคอมพิวเตอร์ต่างกัน
จากสมการถดถอยทำให้ทราบว่า คะแนนทดสอบด้านคอมพิวเตอร์เพิ่มขึ้น (ลดลง) 0.96 คะแนน ต่อแต่ละคะแนนที่เพิ่มขึ้น (ลดลง) ของการทดสอบด้านคณิตศาสตร์ และจะประมาณคะแนนทดสอบด้านคอมพิวเตอร์จากคะแนนทดสอบด้านคณิตศาสตร์ได้ เช่น นิสิตที่ทำคะแนนคณิตศาสตร์ได้ 36 คะแนน คาดว่านิสิตผู้นั้นจะได้คะแนนคอมพิวเตอร์เป็น 13.41 คะแนน (สามารถคำนวณจาก [- 21.15 + 0.96 (36) ] )


การถดถอยและการคาดคะเนค่า


การที่จะคาดคะเนเงินเดือนเริ่มต้นของบัณฑิตปริญญาตรีที่ไปทำงานในบริษัทเอกชนจากคะแนนเฉลี่ยสะสมหรือ GPA สามารถทำได้หรือไม่ ความเป็นไปได้ในการคาดคะเนขึ้นอยู่กับตัวแปรทั้งสอง ได้แก่ เงินเดือนเริ่มต้นและ GPA ว่ามีความสัมพันธ์กันหรือไม่ เมื่อตัวแปรมีความสัมพันธ์กันมาก การทราบค่าของตัวแปรหนึ่งจะช่วยให้ทำนายค่าของอีกตัวแปรหนึ่งได้ใกล้เคียง แต่ถ้าระดับความสัมพันธ์ไม่สูง สิ่งที่ทราบเกี่ยวกับตัวแปรหนึ่งก็ไม่ช่วยในการคาดเดาค่าของอีกตัวแปรมากนัก
ความเข้าใจในสถานการณ์ต่าง ๆ และความสามารถในการคาดการณ์ล่วงหน้าให้ถูกต้องเป็นประโยชน์อย่างมากในการตัดสินใจ ดังนั้น เมื่อทราบว่าตัวแปรมีความสัมพันธ์กันสูง จึงต้องการหาสมการแสดงความสัมพันธ์ระหว่างตัวแปรที่บอกว่าค่าของตัวแปรที่สนใจเปลี่ยนแปลงตามค่าของตัวแปรอื่นอย่างไร สิ่งที่ได้จากสมการดังกล่าวคือ จะประมาณหรือคาดคะเนค่าของตัวแปรนั้นจากค่าของตัวแปรอื่นได้ ตัวแปรที่สนใจทำนายค่าเรียกว่า ตัวแปรตาม (dependent variable) ส่วนตัวแปรอื่นเรียกว่า ตัวแปรอิสระ (independent variable) ทั้งนี้ คิดว่าตัวแปรอิสระมีอิทธิพลทำให้ตัวแปรตามเปลี่ยนค่าตามไป เช่น ความสูงของบิดาคือตัวแปรอิสระที่มีอิทธิพลต่อความสูงของบุตรชายซึ่งเป็นตัวแปรตาม
ในเรื่องของเงินเดือนและ GPA เงินเดือนเริ่มต้น คือ ตัวแปรตามที่ต้องการคาดคะเนค่าจากตัวแปรอิสระ GPA ถ้ามีข้อมูลเงินเดือนเริ่มต้นและ GPA ของบัณฑิตหลายคนที่ผ่านมา ข้อมูลนั้นนำมาศึกษาหาความสัมพันธ์ระหว่างเงินเดือนเริ่มต้นและ GPA ได้
อย่างไรก็ตาม ในหลาย ๆ กรณีที่เกิดขึ้น ตัวแปรตามมักได้รับอิทธิพลจากตัวแปรอิสระหลายตัว เงินเดือนเริ่มต้นนอกจากจะขึ้นกับ GPA แล้ว ยังอาจขึ้นกับสาขาวิชาและสถาบันที่จบมา เพศ ประเภทของงาน สถานที่ตั้งของบริษัท และตัวแปรอื่น ๆ อีกมาก โดยทั่วไปจะไม่สามารถรวบรวมข้อมูลของปัจจัยทุกอย่างที่เกี่ยวข้องกับตัวแปรตามมาได้หมด การทำนายค่าของตัวแปรตามให้ถูกต้องแน่นอน จึงเป็นไปได้ยาก สำหรับในที่นี้ จะสนใจเฉพาะรูปแบบความสัมพันธ์อย่างง่ายคือ มีตัวแปรอิสระตัวเดียวและลักษณะความสัมพันธ์อยู่ในรูปเส้นตรง การจะทำนายค่าตัวแปรตามให้ใกล้เคียงจึงอยู่ที่สหสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระต้องมีค่าสูง
เพื่อให้สอดคล้องกับแผนภาพการกระจาย ให้ x เป็นตัวแปรอิสระ และ y เป็นตัวแปรตาม ความสัมพันธ์แบบเส้นตรงระหว่างตัวแปร x และ y เขียนเป็นสมการเส้นตรงที่ลักษณะของเส้นกำหนดโดยค่าคงที่ 2 ค่า คือ a และ b ดังนี้
y = a + bx
ตัวอย่างเช่น ผู้ใช้บริการโทรศัพท์มือถือเสียค่าบริการรายเดือน ๆ ละ 500 บาท และค่าโทรศัพท์นาทีละ 3 บาท ดังนั้น สมการเส้นตรงที่ได้ คือ
ค่าใช้บริการโทรศัพท์มือถือต่อเดือน = 500 + (3 x จำนวนนาทีที่ใช้บริการ)
นั่นคือ a = 500 และ b = 3
a คือ y - intercept ซึ่งเป็นความสูงของเส้น (ค่า y) เมื่อ x = 0 และ b คือความชันของเส้นตรงที่บอกอัตราการเปลี่ยนแปลงของค่าตัวแปรตามเมื่อตัวแปรอิสระเปลี่ยนแปลงค่าไป 1 หน่วย กล่าวคือ y จะมีค่าเปลี่ยนไป b หน่วยต่อทุกหน่วยของ x ที่เปลี่ยนค่าไป เครื่องหมายของค่า b สอดคล้องกับค่าสหสัมพันธ์ r โดยจะบอกว่าค่าของตัวแปร x และ y แปรผันตามกันหรือมีทิศทางสวนกัน
b = 0 แสดงว่า ตามสมการเส้นตรงนั้น x ไม่มีผลทำให้ y เปลี่ยนแปลงค่า
b > 0 แสดงว่า เมื่อค่า x เพิ่มขึ้น ค่า y จะเพิ่มขึ้น และเมื่อค่า x ลดลง ค่า y จะลดลง
และ b < 0 แสดงว่า เมื่อค่า x เพิ่มขึ้น ค่า y จะลดลง และเมื่อค่า x ลดลง ค่า y จะเพิ่มขึ้น
ตัวอย่างลักษณะเส้นตรงที่มีความชันเป็นบวกและลบแสดงในภาพ 1.

ภาพ 1. กราฟ 2 รูปที่มี intercept และความชันต่างกัน
สมการที่แสดงความสัมพันธ์ระหว่าง x และ y นี้เรียกว่า สมการถดถอย (regression equation) และเส้นตรงที่สร้างขึ้นตามสมการถดถอยเรียกว่า เส้นถดถอย (regression line)
คำว่า การถดถอย มีที่มาจาก Sir Francis Galton ซึ่งเป็นบุคคลแรกที่ใช้คำนี้เมื่อเขาศึกษาความสัมพันธ์ระหว่างความสูงของบุตรชายและบิดา เขาสรุปไว้ในปี ค.ศ. 1885 โดยทั่วไปบุตรชายที่มีบิดาสูงกว่าค่าเฉลี่ยจะสูงกว่าคนอื่น ๆ โดยเฉลี่ย แต่อย่างไรก็ตามเขาจะไม่สูงเท่าบิดาของเขา ในทางกลับกัน บุตรชายที่มีบิดามีความสูงต่ำกว่าค่าเฉลี่ยจะสูงน้อยกว่าคนอื่น ๆ โดยเฉลี่ย แต่เขาก็ยังคงสูงกว่าบิดาของเขา อาจมองการสร้างสมการถดถอยว่าเป็นการนำค่าตัวแปร x ไปอธิบายความผันแปรของค่าตัวแปร y เช่น สมมุติว่าสนใจศึกษาน้ำหนักของผู้หญิง ลองพิจารณาสมการที่แสดงความสัมพันธ์ระหว่างน้ำหนักและความสูงของผู้หญิง ต่อไปนี้
น้ำหนัก (กิโลกรัม) = - 110 + ความสูง (เซนติเมตร)
สมการนี้ได้นำความสูงของผู้หญิงไปช่วยอธิบายว่า เหตุใดผู้หญิงแต่ละคนจึงมีน้ำหนักแตกต่างกัน กล่าวคือ เป็นเพราะแต่ละคนสูงไม่เท่ากัน คนที่สูงมากกว่าคนอื่น 1 เซนติเมตร ควรมีน้ำหนักมากกว่า 1 กิโลกรัม เป็นต้น ทั้งนี้ยังมีปัจจัยอื่นอีกหลายอย่างที่ทำให้ผู้หญิงแต่ละคนมีน้ำหนักไม่เท่ากัน เพราะคนที่สูงเท่ากันก็ยังมีที่น้ำหนักไม่เท่ากัน ดังนั้น หากสามารถหาปัจจัยหรือตัวแปรอิสระต่าง ๆ ไปอธิบายความผันแปรของน้ำหนักได้เพิ่มมากขึ้น ซึ่งหมายถึง หาคำอธิบายของการที่แต่ละคนน้ำหนักแตกต่างกันได้ดีขึ้น การคาดคะเนน้ำหนักก็จะใกล้เคียงขึ้น


โดยทั่วไป ข้อมูลที่พบเห็นมักมีตัวแปรที่มากกว่าหนึ่งตัว ซึ่งตัวแปรเหล่านั้น อาจมีความเกี่ยวข้องสัมพันธ์กัน ตัวอย่างเช่น รถยนต์เมื่อมีอายุการใช้งานนานขึ้น ก็จะเสียค่าใช้จ่ายในการบำรุงรักษามากขึ้น นั่นคือ อายุการใช้งานและค่าใช้จ่ายในการบำรุงรักษามีความสัมพันธ์กัน หรือผลการเรียนของนิสิตสัมพันธ์หรือขึ้นอยู่กับสติปัญญาของนิสิต และเวลาที่นิสิตใช้ในการทบทวนบทเรียน ความรู้เรื่องความสัมพันธ์ในข้อมูลจะทำให้เข้าใจสิ่งต่าง ๆ ที่อยู่รอบตัวได้ดีขึ้น เช่น ทราบเหตุผลว่าทำไมนิสิตแต่ละคนมีผลการเรียนแปรผันแตกต่างกัน หรือทราบว่าค่าใช้จ่ายในการบำรุงรักษารถยนต์แปรผันตามอายุการใช้งานของรถคันนั้นอย่างไร
ดังนั้น จากหน่วยตัวอย่างแต่ละหน่วยที่สุ่มมา หากมีการสังเกตและจดบันทึกค่าของตัวแปรมาตั้งแต่ 2 ตัวแปรขึ้นไป ก็สามารถนำข้อมูลที่ได้มาศึกษาว่า ตัวแปรเหล่านั้นมีความเกี่ยวข้องสัมพันธ์กันหรือไม่ ถ้ามีระดับความสัมพันธ์ มีมากน้อยเพียงใด และลักษณะความสัมพันธ์เป็นแบบใด การที่ตัวแปรมีความสัมพันธ์กันหมายความว่า ความรู้เกี่ยวกับตัวแปรหนึ่งจะช่วยให้ทราบเรื่องราวเกี่ยวกับตัวแปรอื่นที่สัมพันธ์กันได้
ฉะนั้น ประโยชน์หนึ่งที่ได้จากการทราบความสัมพันธ์ระหว่างตัวแปร คือ จะสามารถทำนายค่าของตัวแปรหนึ่งที่สนใจ จากข้อมูลของตัวแปรอื่น ๆ เช่น สามารถคาดคะเนได้ว่า ค่าใช้จ่ายในการบำรุงรักษารถยนต์คันหนึ่งที่ใช้งานมาแล้ว 10 ปีเป็นเท่าใด ต่อไปจะกล่าวถึงความสัมพันธ์ เฉพาะกรณีที่มีตัวแปรเพียง 2 ตัว โดยพิจารณาแต่กรณีที่ทั้งสองตัวแปรมีค่าที่บอกถึงประเภทหรือกลุ่มนั้น คือ ข้อมูลเชิงคุณภาพ หรือข้อมูลจำแนกประเภท เช่น ความสัมพันธ์ระหว่างการสูบบุหรี่และการเป็นมะเร็งปอด และกรณีที่ตัวแปรทั้งคู่วัดค่าเป็นตัวเลข หรือข้อมูลเชิงปริมาณ เช่น ความสัมพันธ์ระหว่างผลผลิตและปริมาณปุ๋ยที่ใช้ ส่วนกรณีที่ตัวแปรหนึ่งเป็นตัวแปรที่บอกถึงการจำแนกประเภท และอีกตัวแปรวัดค่าเป็นตัวเลขจะไม่กล่าวถึง
สำหรับข้อมูลที่เป็นเชิงปริมาณล้วน ๆ ซึ่งอาจหาสมการแสดงความสัมพันธ์ระหว่างตัวแปร เพื่อใช้ประโยชน์ในการคาดคะเนค่าได้ เช่น สมการแสดงความสัมพันธ์ระหว่างน้ำหนักและความสูง ช่วยให้ทราบน้ำหนักตัวที่เหมาะสมสำหรับคนที่มีความสูงระดับต่าง ๆ เทคนิคการสร้างสมการนี้เรียกว่า การถดถอย
ความสัมพันธ์หนึ่งที่สำคัญมากคือเมื่อตัวแปรตัวหนึ่งเป็นเวลา และสนใจการเปลี่ยนแปลงของค่าตัวแปรอีกตัวเมื่อเวลาเปลี่ยนไป เรียกการเปลี่ยนแปลงตามเวลานี้ว่า แนวโน้ม ตัวอย่างที่พบมาก ได้แก่ แนวโน้มของข้อมูลทางเศรษฐกิจต่าง ๆ เช่น การขึ้นลงของดัชนีราคาตลาดหลักทรัพย์ อัตราดอกเบี้ย ปริมาณการส่งออกสินค้า เป็นต้น
ดังนั้น จะกล่าวถึงความสัมพันธ์ในข้อมูลของสองตัวแปร การสร้างสมการแสดงความสัมพันธ์และแนวโน้มอย่างง่าย ๆ เพื่อให้เกิดความเข้าใจและสามารถนำความรู้ไปประยุกต์ใช้ในชีวิตประจำวันต่อไป


ความสัมพันธ์ในข้อมูลสองตัวแปร
โดยทั่วไป ข้อมูลที่พบเห็นมักมีตัวแปรที่มากกว่าหนึ่งตัว ซึ่งตัวแปรเหล่านั้น อาจมีความเกี่ยวข้องสัมพันธ์กัน ตัวอย่างเช่น รถยนต์เมื่อมีอายุการใช้งานนานขึ้น ก็จะเสียค่าใช้จ่ายในการบำรุงรักษามากขึ้น นั่นคือ อายุการใช้งานและค่าใช้จ่ายในการบำรุงรักษามีความสัมพันธ์กัน หรือผลการเรียนของนิสิตสัมพันธ์หรือขึ้นอยู่กับสติปัญญาของนิสิต และเวลาที่นิสิตใช้ในการทบทวนบทเรียน ความรู้เรื่องความสัมพันธ์ในข้อมูลจะทำให้เข้าใจสิ่งต่าง ๆ ที่อยู่รอบตัวได้ดีขึ้น เช่น ทราบเหตุผลว่าทำไมนิสิตแต่ละคนมีผลการเรียนแปรผันแตกต่างกัน หรือทราบว่าค่าใช้จ่ายในการบำรุงรักษารถยนต์แปรผันตามอายุการใช้งานของรถคันนั้นอย่างไร
ดังนั้น จากหน่วยตัวอย่างแต่ละหน่วยที่สุ่มมา หากมีการสังเกตและจดบันทึกค่าของตัวแปรมาตั้งแต่ 2 ตัวแปรขึ้นไป ก็สามารถนำข้อมูลที่ได้มาศึกษาว่า ตัวแปรเหล่านั้นมีความเกี่ยวข้องสัมพันธ์กันหรือไม่ ถ้ามีระดับความสัมพันธ์ มีมากน้อยเพียงใด และลักษณะความสัมพันธ์เป็นแบบใด การที่ตัวแปรมีความสัมพันธ์กันหมายความว่า ความรู้เกี่ยวกับตัวแปรหนึ่งจะช่วยให้ทราบเรื่องราวเกี่ยวกับตัวแปรอื่นที่สัมพันธ์กันได้
ฉะนั้น ประโยชน์หนึ่งที่ได้จากการทราบความสัมพันธ์ระหว่างตัวแปร คือ จะสามารถทำนายค่าของตัวแปรหนึ่งที่สนใจ จากข้อมูลของตัวแปรอื่น ๆ เช่น สามารถคาดคะเนได้ว่า ค่าใช้จ่ายในการบำรุงรักษารถยนต์คันหนึ่งที่ใช้งานมาแล้ว 10 ปีเป็นเท่าใด ต่อไปจะกล่าวถึงความสัมพันธ์ เฉพาะกรณีที่มีตัวแปรเพียง 2 ตัว โดยพิจารณาแต่กรณีที่ทั้งสองตัวแปรมีค่าที่บอกถึงประเภทหรือกลุ่มนั้น คือ ข้อมูลเชิงคุณภาพ หรือข้อมูลจำแนกประเภท เช่น ความสัมพันธ์ระหว่างการสูบบุหรี่และการเป็นมะเร็งปอด และกรณีที่ตัวแปรทั้งคู่วัดค่าเป็นตัวเลข หรือข้อมูลเชิงปริมาณ เช่น ความสัมพันธ์ระหว่างผลผลิตและปริมาณปุ๋ยที่ใช้ ส่วนกรณีที่ตัวแปรหนึ่งเป็นตัวแปรที่บอกถึงการจำแนกประเภท และอีกตัวแปรวัดค่าเป็นตัวเลขจะไม่กล่าวถึง
สำหรับข้อมูลที่เป็นเชิงปริมาณล้วน ๆ ซึ่งอาจหาสมการแสดงความสัมพันธ์ระหว่างตัวแปร เพื่อใช้ประโยชน์ในการคาดคะเนค่าได้ เช่น สมการแสดงความสัมพันธ์ระหว่างน้ำหนักและความสูง ช่วยให้ทราบน้ำหนักตัวที่เหมาะสมสำหรับคนที่มีความสูงระดับต่าง ๆ เทคนิคการสร้างสมการนี้เรียกว่า การถดถอย
ความสัมพันธ์หนึ่งที่สำคัญมากคือเมื่อตัวแปรตัวหนึ่งเป็นเวลา และสนใจการเปลี่ยนแปลงของค่าตัวแปรอีกตัวเมื่อเวลาเปลี่ยนไป เรียกการเปลี่ยนแปลงตามเวลานี้ว่า แนวโน้ม ตัวอย่างที่พบมาก ได้แก่ แนวโน้มของข้อมูลทางเศรษฐกิจต่าง ๆ เช่น การขึ้นลงของดัชนีราคาตลาดหลักทรัพย์ อัตราดอกเบี้ย ปริมาณการส่งออกสินค้า เป็นต้น
ดังนั้น จะกล่าวถึงความสัมพันธ์ในข้อมูลของสองตัวแปร การสร้างสมการแสดงความสัมพันธ์และแนวโน้มอย่างง่าย ๆ เพื่อให้เกิดความเข้าใจและสามารถนำความรู้ไปประยุกต์ใช้ในชีวิตประจำวันต่อไป
ความสัมพันธ์ในข้อมูลสองตัวแปร
เมื่อสังเกตลักษณะสองลักษณะหรือสองตัวแปรจากแต่ละหน่วยตัวอย่าง การศึกษาข้อมูลของตัวแปรแต่ละตัวแยกกันจะไม่สามารถให้คำตอบเกี่ยวกับความสัมพันธ์ได้ แต่จำเป็นต้องนำข้อมูลของทั้งสองตัวแปรมาศึกษาพร้อมกันโดยการจัดระเบียบข้อมูล เพื่อให้เห็นความสัมพันธ์ได้ง่ายขึ้น ซึ่งอาจจัดระเบียบตารางหรือกราฟ ทั้งนี้ ขึ้นกับว่าข้อมูลนั้นเป็นข้อมูลเชิงคุณภาพหรือข้อมูลเชิงปริมาณ

ความสัมพันธ์ในข้อมูลเชิงปริมาณ


เมื่อมีข้อมูลของตัวแปรสองตัวที่วัดค่าเป็นตัวเลข ซึ่งเรียกว่า ข้อมูลเชิงปริมาณ สิ่งที่น่าสนใจจากข้อมูลนี้ ได้แก่
ตัวแปรทั้งสองเกี่ยวข้องกันหรือไม่
ระดับความสัมพันธ์ของตัวแปรมีมากน้อยเพียงใด
ความสัมพันธ์ของตัวแปรอยู่ในรูปแบบใด
จะคาดคะเนค่าตัวแปรหนึ่งจากอีกตัวแปรได้หรือไม่
เพื่อความสะดวกในการตอบคำถามต่าง ๆ ข้างต้น จะกำหนดให้ตัวแปรหนึ่งเป็น x และอีกตัวแปรเป็น y ตัวอย่างเช่น การสมัครเข้าศึกษาต่อระดับปริญญาโทสาขาวิชาบริหารธุรกิจในหลาย ๆ สถาบัน มักมีข้อกำหนดว่า ผู้สมัครต้องมีคะแนนจากผลการสอบ GMAT (Graduate Management Attitude Test) ประกอบการสมัครด้วย คะแนน GMAT เป็นตัวที่ใช้วัดความรู้ความสามารถของผู้สมัครอย่างหนึ่ง จึงต้องการทราบว่า ผลการเรียนของผู้สมัคร (GPA) ในระดับปริญญาตรีมีความสัมพันธ์กับคะแนน GMAT หรือไม่ หรือจะคาดคะเนคะแนน GMAT จาก GPA ของผู้สมัครได้หรือไม่
ฉะนั้นอาจกำหนดตัวแปร x คือ GPA และตัวแปร y คือ GMAT สมมติเราสังเกตค่าข้อมูลของ x และ y จากผู้สมัครเรียนจำนวน 36 คน ดังนั้นจึงมีคู่ลำดับของค่าสังเกต (x, y) จากผู้สมัครแต่ละคน นั่นคือจะมีค่าสังเกต (x1, y1), (x2, y2), … , (x36, y36) เช่น ผู้สมัครคนหนึ่งมี GPA เป็น 2.68 และได้คะแนน GMAT 414 คะแนน ค่าสังเกตของผู้สมัครก็จะเป็น (2.68, 414) เป็นต้น ข้อมูลของผู้สมัครทั้ง 36 คนแสดงในตาราง

ตารางแสดงข้อมูล GPA และคะแนน GMAT ของผู้สมัครเรียน 36 คน

GPA GMAT GPA GMAT GPA GMAT
3.44 632 2.36 399 2.80 444
3.59 588 2.36 482 3.13 426
3.30 563 2.66 420 3.01 471
3.40 553 2.68 414 2.79 490
3.50 572 2.48 533 2.89 431
3.78 591 2.46 509 2.91 446
3.00 509 2.63 504 2.75 546
3.48 528 2.44 336 2.73 467
3.22 541 2.36 464 3.22 506
3.47 552 2.13 408 3.12 473
3.35 520 2.41 469 3.08 440
3.39 543 2.55 529 3.03 419

การพิจารณาค่าสังเกตุที่เป็นตัวเลขไม่สามารถช่วยให้เห็นความสัมพันธ์ระหว่าง x และ y ได้มากนัก วิธีที่ดีกว่าและเป็นขั้นตอนเริ่มแรกที่สำคัญในการศึกษาความสัมพันธ์ในข้อมูลของสองตัวแปรก็คือ การสร้างกราฟแสดงการกระจายของข้อมูล โดยให้ตัวแปร x อยู่ทางแกนนอน ส่วนตัวแปร y อยู่ทางแกนตั้ง และลงค่าสังเกตุ (x , y) แต่ละคู่ลำดับเป็นจุดบนกราฟนั้น แผนภาพที่ได้จะเรียกว่า แผนภาพการกระจาย (scatter diagram) แผนภาพการกระจายมีประโยชน์มากในการช่วยนำเสนอข้อมูลของสองตัวแปรที่เป็นเชิงปริมาณ ซึ่งจากการพิจารณาแผนภาพการกระจาย จะช่วยให้มองเห็นภาพของรูปแบบความสัมพันธ์ระหว่างตัวแปรได้ดี

ตัวอย่างเช่น จะสังเกตุเห็นได้ว่า จุดต่าง ๆ มีลักษณะการกระจายเป็นแนวเส้นตรง เส้นโค้ง หรือเห็นเป็นเพียงกลุ่มของข้อมูลที่ไม่มีรูปแบบความสัมพันธ์ใด ๆ สำหรับในตัวอย่างเรื่อง GPA และ GMAT ข้างต้น จะสร้างแผนภาพการกระจายของข้อมูลในตาราง ได้ดังภาพ จุดแต่ละจุดแสดงค่า GPA และคะแนน GMAT ของผู้สมัครแต่ละคน จะเห็นว่าจุดกระจายเป็นแนวจากมุมล่างซ้าย สูงขึ้นไปยังมุมบนขวา ซึ่งแสดงว่า ผู้สมัครที่มี GPA ต่ำ ส่วนใหญ่จะได้คะแนน GMAT ต่ำ ในขณะที่ผู้สมัครที่มี GPA สูงส่วนใหญ่จะได้คะแนน GMAT สูง


สัมประสิทธิ์สหสัมพันธ์


วิธีการทางสถิติที่ใช้ในการศึกษาความสัมพันธ์ระหว่างตัวแปรเริ่มต้นขึ้นโดย Sir Francis Galton นักพันธุศาสตร์ชาวอังกฤษ ซึ่งมีชีวิตในช่วงปี ค.ศ.1822-1911 เป็นที่ทราบกันดีว่า บุตรมีส่วนละม้ายคล้ายคลึงกับบิดามารดา Galton จึงต้องการทราบว่าความคล้ายคลึงนี้มีมากเพียงใด บุตรจะมีลักษณะแตกต่างไปจากบิดามารดาได้เพียงใด นักสถิติในประเทศอังกฤษต่างสนใจในคำถามนี้ และได้รวบรวมข้อมูลจำนวนมากเพื่อศึกษาหาคำตอบของคำถามนี้
Karl Pearson เป็นผู้หนึ่งที่ศึกษาเรื่องความคล้ายคลึงกันของสมาชิกในครอบครัว ในปี ค.ศ. 1903 เขาวัดความสูงของบิดาจำนวน 1,078 คน และความสูงของบุตรชายคนหนึ่งที่เติบโตเต็มที่ของบุคคลเหล่านี้ นำความสูงของบิดาและบุตรจำนวน 1,078 คู่นี้ มาสร้างแผนภาพการกระจายดังภาพที่ 1 โดยกำหนดแกนนอนหรือแกน x แทนความสูงของบิดา แกนตั้งหรือแกน y แทนความสูงของบุตรชาย และแต่ละจุดแทนคู่บิดาและบุตรชายหนึ่งคู่
จากภาพ 1 แสดงให้เห็นความเกี่ยวข้องกันระหว่างสองตัวแปรคือความสูงของบิดาและความสูงของบุตรชาย โดยจะเห็นกลุ่มของจุดที่เอียงสูงขึ้นทางด้านขวามือ กล่าวคือ ค่า y ของจุดส่วนใหญ่จะเพิ่มขึ้นตามค่า x ที่เพิ่มขึ้น หมายความว่า บิดาที่สูงมักจะมีบุตรชายที่สูงด้วย นักสถิติกล่าวถึงลักษณะเช่นนี้ว่า ความสูงของบิดาและบุตรชายมีสหสัมพันธ์กันในทางบวก
คำว่า สหสัมพันธ์ (correlation) แยกเป็นคำ 2 คำ คือ สห ซึ่งหมายถึง ร่วมกันหรือด้วยกัน และความสัมพันธ์ หมายถึง ความเกี่ยวข้องกัน เมื่อเหตุการณ์ 2 เหตุการณ์ที่โดยปกติมักเกิดขึ้นพร้อมกัน จะบอกว่าสองเหตุการณ์นั้นมีสหสัมพันธ์กัน เช่น คนผมสีดำและตาสีน้ำตาล คนผมสีทองและตาสีฟ้า นอกจากนี้ เมื่อมีการเปลี่ยนแปลงในเหตุการณ์หนึ่ง ก็มักเกิดการเปลี่ยนแปลงในอีกเหตุการณ์หนึ่งควบคู่กัน เช่น เมื่อเด็กสูงขึ้น เขาน่าจะมีน้ำหนักเพิ่มขึ้น

สหสัมพันธ์มี 2 แบบ คือ สหสัมพันธ์ทางบวกและสหสัมพันธ์ทางลบ สหสัมพันธ์ทางบวกหมายถึง เมื่อตัวแปรตัวหนึ่งมีค่าเพิ่มขึ้น อีกตัวแปรมีค่าเพิ่มขึ้นตาม ส่วนสหสัมพันธ์ทางลบ หมายถึง เมื่อตัวแปรตัวหนึ่งมีค่าเพิ่มขึ้น อีกตัวแปรจะมีค่าลดลง ภาพ 2 แสดงตัวอย่างของสหสัมพันธ์ทางบวกและลบของความสูงและน้ำหนักตัวของคน
เมื่อทราบจากแผนภาพการกระจายว่าตัวแปรมีสหสัมพันธ์กัน สิ่งที่ควรทราบเพิ่มเติมคือ ความเกี่ยวข้องสัมพันธ์นั้นมีมากหรือน้อยเพียงใด ในเรื่องนี้แผนภาพการกระจายจะสามารถบอกได้ในระดับหนึ่ง เมื่อกล่าวถึงบิดาที่สูง 72 นิ้ว อาจคาดได้ว่าบุตรชายจะสูง 72 นิ้วด้วย ในทำนองเดียวกัน ถ้าบิดาสูง 68 นิ้ว คาดว่าบุตรชายควรสูง 68 นิ้ว หรือถ้าบิดาสูง 70 นิ้ว บุตรชายก็น่าจะสูง 70 นิ้ว นั่นคือ หากนำความสูงของบิดาและบุตรชายคู่ต่าง ๆ เหล่านี้มาลงจุดในแผนภาพ จุดจะตกบนเส้นตรงที่ทำมุม 45o กับแกนนอน เส้นตรงนี้เป็นเส้นที่แสดงว่าความสูงของบุตรชายเท่ากับความสูงของบิดา โดยมีสมการเป็น y = x ดังแสดงไว้ในภาพที่ 1
ฉะนั้นถ้าคิดว่าความสูงของบุตรชายควรใกล้เคียงกับความสูงของบิดา หมายความว่า จุดต่าง ๆ บนแผนภาพการกระจายควรตกใกล้กับเส้นตรงเส้นนี้ ซึ่งจากภาพที่ 1 จะเห็นครอบครัวส่วนใหญ่มีจุดตกกระจายรอบ ๆ เส้น บ้างก็ห่างจากเส้นตรงมาก บ้างก็อยู่ใกล้เคียง แสดงว่าความสูงของบุตรชายต่างจากความสูงของบิดาไม่มากก็น้อย
การกระจายของจุดในแผนภาพการกระจายแสดงถึงความมากหรือน้อยของความสัมพันธ์ระหว่างความสูงของบิดาและบุตรชาย การทราบความสูงของบิดาช่วยให้คาดเดาความสูงของบุตรชายได้ เพราะความสูงของบิดาและบุตรชายมีความสัมพันธ์กัน
แต่การคาดคะเนก็ไม่ถูกต้องแน่นอน ยังมีความผิดพลาดเกิดขึ้นได้ เพราะบุตรชายที่มีบิดาสูงเท่ากันหลายคนก็มีความสูงแตกต่างกัน ลองพิจารณาบิดาที่สูงประมาณ 72 นิ้ว ในภาพที่ 1 จุดต่าง ๆ ที่มีค่า x ใกล้ ๆ 72 นิ้วล้วนเป็นจุดจากคู่บิดาและบุตรชายที่มีบิดาสูง 72 นิ้ว จะเห็นว่าความสูงของบุตรชายเหล่านี้ (ค่า y) มีการกระจายหรือความผันแปรอยู่มาก นั่นคือ การทำนายความสูงของบุตรชายมีความคลาดเคลื่อนได้พอสมควร ถึงแม้ว่าจะทราบความสูงของบิดาของเขา อันเนื่องมาจากความสัมพันธ์ระหว่างตัวแปรทั้งสองยังไม่สมบูรณ์ ดังนั้นจะสามารถสรุปความสัมพันธ์ของตัวแปร x และ y ออกมาเป็นตัวเลขให้เห็นว่ามีระดับมากหรือน้อยได้อย่างไร

ค่าเฉลี่ยของ x และ y รวมทั้งส่วนเบี่ยงเบนมาตรฐานของ x และ y ไม่อาจอธิบายเกี่ยวกับความสัมพันธ์ระหว่าง x และ y ได้ ค่าเฉลี่ยของ x และ y จะแสดงให้ทราบว่าจุดศูนย์กลางของกลุ่มข้อมูลอยู่ที่ใด และส่วนเบี่ยงเบนมาตรฐานของ x และ y จะอธิบายเรื่องการกระจายของจุดบนแต่ละแกน จากด้านหนึ่งของกลุ่มไปยังอีกด้านหนึ่ง
พิจารณาแผนภาพการกระจายของข้อมูล 2 ชุดในภาพที่ 3 เห็นได้ว่าทั้งสองชุดต่างมีจุดศูนย์กลางและการกระจายด้านแกนนอนและแกนตั้งเหมือนกัน แต่ในชุดแรก จุดกระจัดกระจายไม่เกาะกลุ่มกัน ส่วนในชุดที่สองจุดเกาะกลุ่มแนบแน่นเป็นแนวเส้นตรงมาก หรือสองตัวแปรมีความสัมพันธ์เชิงเส้นตรงสูงมาก นั่นคือ ระดับความสัมพันธ์ในแผนภาพทั้งสองนี้ต่างกัน การจะวัดระดับความสัมพันธ์ จึงต้องใช้ค่าทางสถิติอีกค่าหนึ่งที่เรียกว่า สัมประสิทธิ์สหสัมพันธ์ (correlation coefficient)

ค่าสัมประสิทธิ์สหสัมพันธ์

การคำนวณค่าสัมประสิทธิ์สหสัมพันธ์

ความหมายของสหสัมพันธ์




สัมประสิทธิ์สหสัมพันธ์ - ค่าสัมประสิทธิ์สหสัมพันธ์



สัมประสิทธิ์สหสัมพันธ์เป็นตัววัดความสัมพันธ์ระหว่างตัวแปรในเชิงเส้นตรง ค่าของสัมประสิทธิ์สหสัมพันธ์บอกถึงระดับความสัมพันธ์ว่ามากหรือน้อย ซึ่งคือการเกาะกลุ่มของจุดรอบ ๆ แนวเส้นตรงว่าใกล้ชิดหรือกระจายห่างจากเส้น เช่น
1. ค่าสัมประสิทธิ์สหสัมพันธ์เป็น 0 จุดกระจัดกระจาย ไม่เกาะกลุ่มรอบเส้นตรง แม้ทราบค่า x ก็ไม่ช่วยให้ทราบเกี่ยวกับค่า y ดีขึ้น เพราะตัวแปรไม่เกี่ยวข้องกันในรูปแบบเส้นตรง
2. ค่าสัมประสิทธิ์สหสัมพันธ์ประมาณ 0.3 จุดเกาะกลุ่ม เริ่มเห็นรูปแบบของเส้นตรงบ้างเล็กน้อย ตัวแปรมีความสัมพันธ์กันอย่างอ่อน ๆ


ภาพที่ 4. แสดงการกระจายของข้อมูล 4 ชุดที่มีค่ากลางและการกระจายเหมือนกัน แต่ระดับความสัมพันธ์ต่างกัน
3. ค่าสัมประสิทธิ์สหสัมพันธ์ประมาณ 0.6 มองเห็นรูปแบบเส้นตรงชัดขึ้น ตัวแปร x และ y มีความเกี่ยวข้องกันมากขึ้น
4. ค่าสัมประสิทธิ์สหสัมพันธ์ใกล้ 1 จุดเกาะกลุ่มกันแนบแน่นขึ้นมากในแนวเส้นตรง ยิ่งค่าใกล้ 1 มากขึ้นเท่าใดความสัมพันธ์ในเชิงเส้นตรงระหว่างตัวแปรก็ยิ่งมากขึ้น

สหสัมพันธ์มีค่าไม่เกิน 1 ค่าสหสัมพันธ์ที่เท่ากับ 1 เรียกว่า สหสัมพันธ์อย่างสมบูรณ์ โดยจุดทั้งหมดจะตกบนแนวเส้นตรงพอดี ตัวแปรจึงมีความสัมพันธ์ในเชิงเส้นตรงอย่างแท้จริง นั่นคือ ถ้าทราบค่าตัวแปรตัวใดตัวหนึ่ง ก็จะสามารถทำนายค่าตัวแปรอีกตัวได้อย่างถูกต้อง
ค่าสัมประสิทธิ์สหสัมพันธ์ที่กล่าวมาเป็นค่าที่บอกระดับความสัมพันธ์ในทางบวก เมื่อค่า x เพิ่มขึ้น y จะเพิ่มขึ้น และเมื่อค่า x ลดลง y จะลดลง แต่ในบางครั้งตัวแปรอาจเกี่ยวข้องกันในทางลบก็ได้ กล่าวคือ เมื่อค่า x เพิ่มขึ้น y จะลดลง และเมื่อค่า x ลดลง y จะเพิ่มขึ้น เช่น รถยนต์ที่มีขนาดเครื่องยนต์มากจะกินน้ำมันมาก ดังนั้นระยะทางที่รถวิ่งได้ต่อน้ำมัน 1 ลิตรมีความสัมพันธ์ทางลบกับขนาดเครื่องยนต์
ความสัมพันธ์ในทางลบจะใช้ค่าสัมประสิทธิ์สหสัมพันธ์ที่เป็นลบ ค่าสัมประสิทธิ์สหสัมพันธ์ที่ใกล้ -1 จุดจะเกาะกลุ่มแน่นเป็นแนวเส้นตรงในแผนภาพการกระจาย โดยเส้นตรงนั้นเป็นเส้นที่ลาดลงจากมุมบนซ้ายไปยังมุมล่างขวา นั่นคือ ถ้าเส้นตรงชันสูงขึ้นค่าสัมประสิทธิ์สหสัมพันธ์จะเป็นบวก และถ้าเส้นตรงลาดลงค่าสัมประสิทธิ์สหสัมพันธ์จะเป็นลบ หากจุดทุกจุดตกบนเส้นตรงที่ลาดลง ค่าสัมประสิทธิ์สหสัมพันธ์เป็น -1 นั่นคือ ตัวแปรมีสหสัมพันธ์เป็นลบอย่างสมบูรณ์ สำหรับสหสัมพันธ์เล็กน้อยทางลบ ก็จะมีค่าสัมประสิทธ์สหสัมพันธ์ที่ใกล้ศูนย์ทางลบ เช่น -0.3



ภาพ 5. แผนภาพการกระจายของข้อมูลที่มีค่าสัมประสิทธิ์สหสัมพันธ์เป็นบวกและลบ
กล่าวโดยสรุป คือ สัมประสิทธิ์สหสัมพันธ์มีค่าอยู่ระหว่าง -1 และ 1 เสมอ เป็นค่าที่ไม่มีหน่วย ขนาดของค่าบอกถึงระดับความสัมพันธ์ว่าสูงต่ำเพียงใด โดยที่ขนาดของค่าไม่ขึ้นกับหน่วยวัดของตัวแปร
ภาพที่ 6 แสดงการแบ่งช่วงของค่าสัมประสิทธิ์สหสัมพันธ์ที่บอกความสัมพันธ์ระดับต่าง ๆ ในส่วนเครื่องหมายของค่าสัมประสิทธ์สหสัมพันธ์บอกทิศทางความสัมพันธ์ว่า สองตัวแปรมีการแปรผันค่าตามกันอย่างไร ค่าจะเป็นบวกเมื่อตัวแปรหนึ่งมีค่าเพิ่มขึ้นอีกตัวแปรก็มีค่าเพิ่มขึ้นด้วย และค่าเป็นลบเมื่อตัวแปรหนึ่งค่าเพิ่มขึ้นอีกตัวแปรค่าลดลง

ภาพ 6. ระดับความสัมพันธ์สำหรับค่าสัมประสิทธิ์สหสัมพันธ์ต่างๆ


สัมประสิทธิ์สหสัมพันธ์ - การคำนวณค่าสัมประสิทธิ์สหสัมพันธ์


สัญลักษณ์แทนค่าสัมประสิทธิ์สหสัมพันธ์ คือ r
เมื่อรวบรวมข้อมูลของตัวแปร x และ y มาจำนวน n คู่ คือ (x1 , y1) , (x2 , y2) , … , (xn , yn) ก็จะคำนวณค่าสัมประสิทธิ์สหสัมพันธ์จากข้อมูลตามสูตรดังนี้


เมื่อ และ เป็นค่าเฉลี่ยของข้อมูล x และ y ตามลำดับ
ในปัจจุบัน สามารถคำนวณค่า r ได้ง่ายด้วยเครื่องคิดเลขที่มีฟังก์ชันเฉพาะสำหรับคำนวณ หรือถ้าให้สะดวกยิ่งขึ้นก็ใช้ซอฟต์แวร์คอมพิวเตอร์ เช่น โปรแกรม EXCEL ซึ่งจะมีคำสั่ง Correlation ให้เลือกใช้
จากตัวอย่างในเรื่องความสัมพันธ์ในข้อมูลเชิงคุณภาพ ซึ่งเป็นข้อมูลเกี่ยวกับ GPA และคะแนน GMAT ของผู้สมัครเข้าศึกษาต่อระดับปริญญาโทสาขาวิชาบริหารธุรกิจ จะเห็นความสัมพันธ์ทางบวกระหว่างคะแนนทั้งสองในแผนภาพการกระจายในภาพ และลักษณะความสัมพันธ์ค่อนข้างเป็นเส้นตรง แต่มีการกระจายของจุดรอบเส้นตรงพอสมควร ค่าสัมประสิทธ์สหสัมพันธ์ที่คำนวณได้จากโปรแกรม EXCEL เท่ากับ 0.6446 นั่นคือ ผลการเรียนในระดับปริญญาตรีและคะแนน GMAT มีความสัมพันธ์กันเชิงเส้นตรงในทางบวกระดับปานกลาง


สัมประสิทธิ์สหสัมพันธ์ - ความหมายของสหสัมพันธ์
การแปลความหมายของค่าสัมประสิทธิ์สหสัมพันธ์มีข้อที่ควรระวัง ค่าสหสัมพันธ์ 0.80 ไม่ได้หมายความว่า จุดจำนวน 80% จะเกาะกลุ่มแน่นใกล้เส้นตรง และก็ไม่ได้หมายความว่า การเกาะกลุ่มของจุดจะมีลักษณะคล้ายเส้นตรงเป็นสองเท่าของกรณีค่าสหสัมพันธ์ 0.40

ภาพ 9. แผนภาพการกระจายของข้อมูล 2 ชุดที่ไม่ควรใช้ค่า r วัดระดับความสัมพันธ์
สัมประสิทธิ์สหสัมพันธ์ r เป็นดัชนีแสดงระดับความสัมพันธ์เชิงเส้นตรง หรือการเกาะกลุ่มของจุดรอบแนวเส้นตรงเท่านั้น กรณีความสัมพันธ์ที่ไม่ใช่เชิงเส้นตรงไม่เหมาะสมที่จะใช้ r เป็นดัชนีแสดงระดับความสัมพันธ์ ภาพที่ 9 (ซ้าย) แสดงให้เห็นความสัมพันธ์แบบเส้นโค้งระหว่างตัวแปร x และ y เช่น น้ำหนักและอายุของผู้ชายมีความเกี่ยวข้องกัน น้ำหนักเพิ่มขึ้นตามอายุจนถึงจุดหนึ่งแล้วจึงลดลง แม้ว่าความเกี่ยวข้องระหว่าง x และ y จะเห็นได้ค่อนข้างชัดเจน แต่ r ก็มีค่าน้อยมาก ภาพที่ 9 (ขวา) แสดงให้เห็นการเกาะกลุ่มของจุด ที่แบ่งเป็น 2 กลุ่ม ค่า r มีค่าสูง ทั้ง ๆ ที่ในแต่ละกลุ่มไม่มีความสัมพันธ์ระหว่าง x และ y
นั่นคือ ค่าสัมประสิทธิ์สหสัมพันธ์ r จะน่าเชื่อถือและแสดงระดับความสัมพันธ์ได้ ก็ต่อเมื่อลักษณะความสัมพันธ์เป็นแบบเส้นตรง ดังนั้นก่อนคำนวณค่า r ควรพิจารณาแผนภาพการกระจายทุกครั้ง เพื่อตรวจสอบว่าความเกี่ยวข้องสัมพันธ์นั้นเป็นเส้นตรงหรือไม่

ความสัมพันธ์ระหว่างตัวแปรไม่จำเป็นต้องอยู่ในลักษณะเหตุและผล เมื่อเหตุการณ์หนึ่งทำให้เกิดอีกเหตุการณ์หนึ่ง จะกล่าวได้ว่าสองเหตุการณ์นั้นสัมพันธ์กัน แต่ทว่า เมื่อสองเหตุการณ์สัมพันธ์กันไม่อาจสรุปว่าเหตุการณ์หนึ่งเป็นสาเหตุของอีกเหตุการณ์หนึ่ง ตัวอย่างเช่น ในช่วง ค.ศ. 1950 พบว่า ในระหว่างเดือนที่มีการบริโภคน้ำอัดลมสูง พบผู้ป่วยด้วยโรคโปลิโอมาก นั่นคือมีความสัมพันธ์ระหว่างการบริโภคน้ำอัดลมและการป่วยเป็นโรคโปลิโอ แต่การดื่มน้ำอัดลมไม่ได้ทำให้ป่วยเป็นโรคโปลิโอ สิ่งที่เกิดขึ้นคือ ในฤดูร้อนที่อากาศร้อนสองตัวแปรนี้ต่างมีค่าเพิ่มขึ้นและในช่วงเดือนอื่นที่อากาศเย็นลง ทั้งสองตัวแปรมีค่าลดลง จำนวนผู้ป่วยเป็นโรคโปลิโอและยอดขายน้ำอัดลมจึงมีสหสัมพันธ์กันสูง หรืออีกตัวอย่างหนึ่งได้แก่ นักเศรษฐศาสตร์พบว่าสหสัมพันธ์ระหว่างดัชนีค่าครองชีพและอายุของลูกสาวของเขามีค่าสูงใกล้ 1 มาก แต่ไม่มีเหตุผลใด ๆ ที่จะทำให้เชื่อว่าเหตุการณ์ใดเหตุการณ์หนึ่งเป็นสาเหตุของอีกเหตุการณ์ เป็นต้นว่า การเพิ่มขึ้นของค่าครองชีพไม่ได้เป็นเหตุให้ลูกสาวของเขามีอายุเพิ่มขึ้นอย่างแน่นอน
การที่ตัวแปร x และ y มักมีค่าแปรผันไปพร้อมกัน ซึ่งอาจเป็นในทิศทางเดียวกันหรือสวนทางกัน ไม่ได้หมายความว่า ตัวแปรสองตัวนี้ต้องมีความเกี่ยวพันกันเองโดยตรง อาจเป็นไปได้ว่า x และ y ไม่เกี่ยวข้องกันเลย แต่ต่างไปสัมพันธ์กับตัวแปรอื่น ซึ่งตัวแปรตัวที่สามนี้มีอิทธิพลทำให้ตัวแปร x และ y เปลี่ยนค่าไปพร้อมกัน ดังนั้นจึงดูเสมือนว่าตัวแปร x และ y มีความสัมพันธ์กัน เช่น ค่าครองชีพสูงขึ้นในแต่ละปี และอายุของเด็กก็มากขึ้นในแต่ละปีด้วยทำให้ดัชนีค่าครองชีพและอายุของเด็กมีสหสัมพันธ์ในทางบวก







Srinivasa Ramanujan คือนักคณิตศาสตร์ชาวอินเดียผู้ยิ่งใหญ่คนหนึึ่งของโลก ชีวิตของ Ramanujan เป็นหลักฐานเชิงประจักษ์ที่แสดงให้เห็นว่า ความสามารถด้านคณิตศาสตร์เป็นพรที่สวรรค์ประทานมาโดยไม่ต้องแสวงหา เพราะหนุ่มภารตะคนนี้ยากจน จนแทบไม่ได้รับการศึกษาใดๆ เลย

Ramanujan เกิดเมื่อวันที่ 22 ธันวาคม พ.ศ. 2430 ที่หมู่บ้าน Erode ใกล้เมือง Kumba Konam ซึ่งอยู่ห่างจากนคร Madras ประมาณ 260 กิโลเมตร ในครอบครัวที่มีฐานะยากจน บิดาหาเลี้ยงชีพโดยการทำงานบัญชีในร้านขายผ้า ส่วนมารดาเป็นคนฉลาดที่มีไหวพริบสูง เก่งคณิตศาสตร์ และเคร่งศาสนา จึงมักหารายได้เสริมโดยการร้องเพลงสวดภาวนาในวัดเวลามีเทศกาล มารดาของ Ramanujan เล่าว่า เมื่อไม่มีทายาทเธอได้สวดขอบุตรจากเทพธิดา Namagiri แล้วเธอก็ตั้งครรภ์

เมื่ออายุ 5 ขวบ Ramanujan ได้เข้าเรียนชั้นประถมและมัธยมที่โรงเรียนในเมือง Kumba Konam เพื่อนร่วมชั้นได้เริ่มสังเกตเห็นความสามารถด้านคณิตศาสตร์ของ Ramanujan เมื่อเขาช่วยเพื่อนทำการบ้านโจทย์คณิตศาสตร์ต่างๆ ให้ และสามารถท่องค่าของสแควร์รูท 2 และค่าของพาย และที่มีทศนิยมถึง 50 หลักให้เพื่อนและครูฟังได้อย่างถูกต้อง ทำให้เพื่อนคนหนึ่งประทับใจมาก จึงให้ Ramanujan ยืมอ่านหนังสือชื่อ Plane Trigonometry ของ S. L. Linney เพราะหนังสือเล่มนั้นมีเนื้อหาคณิตศาสตร์เรื่อง logarithm, infinite products, infinite series และจำนวนเชิงซ้อน ดังนั้น การอ่านหนังสือเล่มนี้จบทำให้ Ramanujan มีความสามารถด้านคณิตศาสตร์สูงกว่าเด็กวัยเดียวกัน จึงได้รับทุนการศึกษาไปเรียนต่อที่วิทยาลัย Government College เมื่อมีอายุ 16 ปี

ขณะศึกษาที่วิทยาลัยนันเอง Ramanujan ได้อ่านหนังสือชื่อ Synopsis of Elementary Results in Pure and Applied Mathematics ของ G. S. Carr ผู้เคยเป็นอาจารย์สอนคณิตศาสตร์ที่มหาวิทยาลัย Cambridge ในประเทศอังกฤษ ถึงแม้หนังสือที่อ่านจะมีสูตรพีชคณิต ตรีโกณมิติ และเรขาคณิตวิเคราะห์ประมาณ 6,000 สูตร แต่ Carr ก็มิได้แสดงวิธีพิสูจน์สูตรใดๆ กระนั้น Ramanujan ก็ชอบหนังสือเล่มนั้นมากจนหลงใหล ดื่มด่ำ และมุ่งมั่นหาวิธีพิสูจน์สูตรต่างๆ ด้วยตนเอง จนไม่สนใจศึกษาวิชาอื่นๆ เลย ดังนั้น เขาจึงสอบไล่ตกในปีแรก และถูกตัดทุนเล่าเรียนในเวลาต่อมา

Ramanujan ได้พยายามสอบเข้าวิทยาลัยอีก 2 ครั้ง แต่เข้าไม่ได้ เพราะอ่อนวิชาภาษาอังกฤษ และได้คะแนนดีเฉพาะวิชาคณิตศาสตร์เพียงวิชาเดียว

เมื่อไม่ได้เรียนวิทยาลัย ก็ไม่มีปริญญาทำให้การหางานทำเป็นเรื่องที่เป็นไปไม่ได้ ดังนั้น ชีวิตของ Ramanujan ในช่วงนั้น จึงยากลำบากมากจนต้องขอเงิน ขออาหารจากเพื่อนๆ และญาติๆ ไปวันๆ แต่ก็ได้พยายามหาเงินด้วยตนเอง โดยการสอนพิเศษให้เด็กนักเรียนซึ่งก็ไม่ได้ผล เพราะ Ramanujan ไม่ได้สอนตรงข้อสอบ และสอนสูงเกินหลักสูตร จึงไม่มีใครว่าจ้างให้สอน

เมื่ออายุ 22 ปี Ramanujan ได้เข้าพิธีสมรสกับ Srimathi Janki เด็กหญิงวัย 9 ขวบ Ramanujan ในฐานะผู้นำครอบครัว จึงได้พยายามหาเงิน โดยการนำผลงานคณิตศาสตร์ที่ตนทำด้วยตนเองในยามว่างไปให้ศาสตราจารย์ Diwan B. Rao แห่ง Presidency College อ่าน เพราะ Ramanujan รู้ว่า Rao เป็นนักคณิตศาสตร์ที่ปราดเปรื่องมาก และได้ตั้งความหวังว่า ถ้า Rao ชอบผลงาน Rao ก็อาจจ้างเขาเป็นนักวิจัยผู้ช่วยก็ได้

Rao ได้บันทึกเหตุการณ์วันที่เห็น Ramanujan เป็นครั้งแรกในชีวิตว่า Ramanujan เป็นคนร่างเล็กที่แต่งกายไม่สะอาด และไม่โกนหนวดเครา จะมีก็แต่ดวงตาเท่านั้นที่เป็นประกาย และเขาได้สังเกตเห็นว่า เด็กหนุ่ม Ramanujan มีสมุดเล่มหนึ่งหนีบอยู่ใต้รักแร้ จึงขอดู Ramanujan จึงเปิดอธิบายสูตรคณิตศาสตร์ที่ปรากฏในสมุด แต่ Rao มิสามารถตัดสินได้ว่า สูตรต่างๆ ที่เขาเห็นนั้นถูกหรือผิดอย่างไร จึงขอให้ Ramanujan หวนกลับมาหาอีกในวันรุ่งขึ้น และ Ramanujan ก็ได้กลับมาพร้อมกับนำสูตรที่มีเนื้อหาง่ายขึ้นมาให้ Rao ดู เพราะ Ramanujan รู้ว่า Rao อ่านสูตรสมการในสมุดที่เขาทิ้งไว้ไม่รู้เรื่อง เมื่อ Rao ได้เห็นสูตรใหม่ต่างๆ เขารู้สึกประทับใจมาก จึงตกลงใจจ้าง Ramanujan เป็นนักวิจัยคณิตศาสตร์ผู้ช่วยด้วยเงินเดือนที่น้อยนิด ทั้งนี้เพราะ Rao เองก็ไม่ได้มีทุนวิจัยมาก และ Ramanujan เองก็บอกว่า ตนต้องการเงินเพียงเล็กน้อยเพื่อยังชีพ

Ramanujan ทำงานหนักมาก จนไม่ได้กินข้าวปลาในบางวัน และเมื่องานติดพัน เขาต้องขอร้องให้ภรรยาและมารดานำอาหารมาให้ เพื่อจะได้ทำงานวิจัยเรื่อง elliptic integrals และ hypergeometric series อย่างต่อเนื่อง เมื่อ Rao หมดทุนวิจัย Ramanujan ได้งานใหม่เป็นเสมียนที่ Madras Port Trust และใช้เวลาว่างจากงานประจำ ทำงานวิจัยคณิตศาสตร์ที่เขารักต่อ โดยใช้กระดาษห่อของเขียนสูตร และสมการต่างๆ ทั้งนี้เพราะตนยากจน จนไม่สามารถซื้อกระดาษดีๆ มาใช้ในงานวิจัยได้

Ramanujan ตีพิมพ์งานวิจัยชิ้นแรกในชีีวิตเรื่อง Some Properties of Bernoulli's numbers ในวารสาร Journal of the Indian Mathematical Society ในปี พ.ศ. 2453 ผลงานชิ้นนี้ทำให้ S. N. Aigar ผู้เคยศึกษาที่ประเทศอังกฤษ รู้สึกประทับใจมาก จึงบอกให้ Ramanujan เขียนจดหมายถึงนักคณิตศาสตร์ต่างๆ ที่มหาวิทยาลัย Cambridge โดยให้แนบงานวิจัยของ Ramanujan ไปด้วย เพื่อนักคณิตศาสตร์ที่มีชื่อเสียงเหล่านั้นเชิญ Ramanujan ไปทำงานที่อังกฤษ ผลปรากฏว่าศาสตราจารย์ H. F. Baker และ E. W. Hobson ส่งจดหมายของ Ramanujan กลับคืนโดยไม่ให้ความเห็นใดๆ จะมีก็แต่ศาสตราจารย์ Godfrey Hardy วัย 36 ปี เพียงคนเดียวเท่านั้นที่ตอบจดหมายของ Ramanujan

Hardy ได้เล่าเหตุการณ์วันรับจดหมายของ Ramanujan ว่า เป็นวันที่ 16 มิถุนายน พ.ศ. 2456 ในจดหมายนั้น Ramanujan ได้กล่าวแนะนำตนว่า ถึงแม้ตนจะไม่ได้รับการศึกษาถึงระดับมหาวิทยาลัย แต่ตนก็รักและสนใจคณิตศาสตร์มาก จึงได้เพียรพยายามเรียนด้วยตนเองในยามว่างจากงาน เมื่อถึงย่อหน้าที่สอง Ramanujan ได้เขียนสูตรคณิตศาสตร์ประมาณ 60 สูตรให้ Hardy ดู โดยไม่ได้แสดงวิธีทำหรือวิธีพิสูจน์ใดๆ ให้ดู แล้วจดหมายฉบับนั้นก็จบลง เมื่อ Ramanujan บอก Hardy ว่า หากความรู้คณิตศาสตร์ที่นำเสนอนี้ถูกต้อง และมีค่าก็ขอให้ Hardy ช่วยจัดพิมพ์ในวารสารให้ด้วย แต่ถ้าสูตรที่เขียนมาผิดพลาดประการใด ตนก็พร้อมขอคำชี้แนะ และสุดท้ายตนต้องขอโทษที่ได้รบกวนเวลาอันมีค่าของ Hardy (อ่านต่ออังคารหน้า)

สุทัศน์ ยกส้าน ภาคีสมาชิก ราชบัณฑิตยสถาน

No comments: