การประเมินความตรงเชิงเนื้อหาด้วยดัชนี CVI และ IOC ในระเบียบวิธีวิจัยทางสังคมศาสตร์และวิทยาศาสตร์สุขภาพ

ดร.อนุศร หงษ์ขุนทด

3 hours ago

แชร์เรื่องนี้

การประเมินความตรงเชิงเนื้อหาด้วยดัชนี CVI และ IOC ในระเบียบวิธีวิจัยทางสังคมศาสตร์และวิทยาศาสตร์สุขภาพ

บทนำสู่รากฐานทางมาตรวิทยาและการประเมินความตรงเชิงเนื้อหา

ในกระบวนการวิจัยทางสังคมศาสตร์ พฤติกรรมศาสตร์ วิทยาศาสตร์สุขภาพ และการศึกษา การพัฒนาเครื่องมือวัด (Instrument Development) ถือเป็นหัวใจสำคัญที่กำหนดชะตากรรมของงานวิจัยทั้งระบบ ข้อมูลเชิงประจักษ์ที่มีคุณภาพสูงย่อมมาจากเครื่องมือที่มีความน่าเชื่อถือ (Reliability) และมีความตรง (Validity) อย่างสมบูรณ์แบบ ความตรงหรือความเที่ยงตรงหมายถึงขีดความสามารถของเครื่องมือวิจัยในการวัดคุณลักษณะ โครงสร้างทางทฤษฎี (Construct) หรือตัวแปรที่ผู้วิจัยตั้งใจจะวัดได้อย่างแม่นยำและครบถ้วน ¹ ท่ามกลางกระบวนทัศน์การตรวจสอบความตรงหลากหลายรูปแบบ ไม่ว่าจะเป็นความตรงตามโครงสร้าง (Construct Validity) หรือความตรงตามเกณฑ์สัมพันธ์ (Criterion-related Validity) การตรวจสอบความตรงเชิงเนื้อหา (Content Validity) ถือเป็นปฐมบทและด่านแรกที่เครื่องมือวิจัยทุกชิ้นต้องก้าวผ่าน ²

ความตรงเชิงเนื้อหาหมายถึงระดับที่ข้อคำถามหรือตัวบ่งชี้ในเครื่องมือวิจัยประกอบไปด้วยกลุ่มตัวอย่างของพฤติกรรมหรือเนื้อหาที่เป็นตัวแทนของโครงสร้างที่ต้องการวัดอย่างเหมาะสม ³ กระบวนการนี้ไม่ได้อาศัยการเก็บข้อมูลจากกลุ่มตัวอย่างขนาดใหญ่หรือการใช้สถิติเชิงอนุมานขั้นสูงในเบื้องต้น แต่ต้องอาศัยวิจารณญาณเชิงลึกจากผู้ทรงคุณวุฒิหรือคณะผู้เชี่ยวชาญด้านเนื้อหา (Subject Matter Experts: SMEs) ที่มีความรู้ความเข้าใจในตัวแปรนั้นอย่างถ่องแท้ ⁴ ความท้าทายทางระเบียบวิธีวิจัยที่สำคัญที่สุดในขั้นตอนนี้คือ “ความเป็นอัตวิสัย” (Subjectivity) ของมนุษย์ เนื่องจากการตัดสินใจว่าข้อคำถามหนึ่งๆ สะท้อนทฤษฎีได้ดีหรือไม่นั้น มักถูกเจือปนด้วยประสบการณ์ มุมมอง และอคติส่วนบุคคลของผู้เชี่ยวชาญแต่ละท่าน

เพื่อแก้ไขปัญหาความแปรปรวนจากดุลยพินิจส่วนบุคคล นักมาตรวิทยาจึงได้พัฒนาระเบียบวิธีทางสถิติเพื่อแปลงข้อมูลเชิงคุณภาพอันเกิดจากการประเมินของผู้เชี่ยวชาญ ให้กลายเป็นดัชนีเชิงปริมาณที่สามารถวัดผลและตั้งเกณฑ์การยอมรับได้อย่างเป็นรูปธรรม วิธีการที่ได้รับการยอมรับและถูกนำมาใช้เป็นมาตรฐานทองคำ (Gold Standard) ในแวดวงการวิจัยระดับสากลและระดับชาติ มีอยู่สองกระบวนทัศน์หลัก ได้แก่ การคำนวณดัชนีความสอดคล้องของข้อคำถามกับวัตถุประสงค์ (Index of Item-Objective Congruence: IOC) และการคำนวณดัชนีความตรงตามเนื้อหา (Content Validity Index: CVI) ⁴ แม้ว่าดัชนีทั้งสองจะมีเป้าหมายสูงสุดร่วมกันในการยืนยันความตรงเชิงเนื้อหา ทว่ารากฐานทางปรัชญา โครงสร้างของมาตรวัด คณิตศาสตร์เบื้องหลังการคำนวณ ตลอดจนข้อจำกัดและการแปลผลกลับมีความแตกต่างกันอย่างมีนัยสำคัญ รายงานการวิจัยฉบับนี้จะนำเสนอการวิเคราะห์เจาะลึกอย่างละเอียดถี่ถ้วนในทุกมิติของดัชนี IOC และ CVI เพื่อสร้างความกระจ่างและเป็นแนวทางปฏิบัติที่ถูกต้องสำหรับนักวิจัยระดับมืออาชีพ

ดัชนีความสอดคล้องของข้อคำถามกับวัตถุประสงค์ (Index of Item-Objective Congruence: IOC)

ดัชนีความสอดคล้องของข้อคำถามกับวัตถุประสงค์ หรือที่รู้จักกันอย่างกว้างขวางในนาม IOC เป็นระเบียบวิธีทางสถิติที่ถูกนำเสนอและพัฒนาขึ้นครั้งแรกโดย Rovinelli และ Hambleton ในปี ค.ศ. 1976/1977 ⁴ ปฐมบทของการพัฒนา IOC เกิดขึ้นในบริบทของการสร้างแบบทดสอบแบบอิงเกณฑ์ (Criterion-Referenced Tests) ซึ่งเป็นกระบวนทัศน์การวัดผลทางการศึกษาที่ต้องการความแม่นยำสูงสุดว่า ข้อสอบแต่ละข้อนั้นผูกติดและสามารถวัดวัตถุประสงค์เชิงพฤติกรรม (Behavioral Objectives) หรือจุดประสงค์การเรียนรู้ที่หลักสูตรกำหนดไว้ได้อย่างไร้ข้อกังขา ⁷

จุดเน้นสำคัญที่สุดของปรัชญาแบบ IOC คือการมุ่งตรวจสอบ “ความสอดคล้อง” (Congruence) แบบเจาะจงระหว่างข้อคำถามกับวัตถุประสงค์ ⁴ โดยไม่ได้ให้ความสำคัญกับความเป็นตัวแทนของภาพรวมเครื่องมือมากเท่ากับการจับคู่แบบหนึ่งต่อหนึ่ง (One-to-one mapping) ซึ่งทำให้ IOC กลายเป็นเครื่องมือระดับจุลทรรศน์ที่ทรงพลังในการสแกนข้อคำถามแต่ละข้อในระยะเริ่มต้นของการพัฒนาเครื่องมือวัด ⁶

โครงสร้างมาตรวัดและกลไกเชิงจิตวิทยาของ IOC

กลไกการทำงานของ IOC อาศัยดุลยพินิจของคณะผู้เชี่ยวชาญผ่านโครงสร้างมาตรวัดแบบ 3 ระดับ (3-Point Scale) ซึ่งถือเป็นมาตรวัดที่มีลักษณะเปิดกว้างและเคารพต่อความกำกวมของภาษา ⁴ โครงสร้างของมาตรวัดถูกกำหนดไว้อย่างชัดเจนดังนี้

+1 (สอดคล้อง/เห็นด้วย): ผู้เชี่ยวชาญจะเลือกคะแนนนี้เมื่อมีความมั่นใจอย่างเต็มที่ว่าข้อคำถามที่ผู้วิจัยสร้างขึ้นนั้น สามารถวัดพฤติกรรมหรือเนื้อหาที่ระบุไว้ในวัตถุประสงค์ได้อย่างชัดเจน ตรงประเด็น และไม่มีความคลาดเคลื่อน
0 (ไม่แน่ใจ/ไม่สามารถตัดสินได้): คะแนนนี้เป็นกลไกเชิงจิตวิทยาที่เปิดโอกาสให้ผู้เชี่ยวชาญแสดงความลังเล ซึ่งมักเกิดขึ้นเมื่อข้อคำถามถูกเขียนด้วยภาษาที่คลุมเครือ ตีความได้หลายนัยยะ หรือเมื่อผู้เชี่ยวชาญรู้สึกว่าข้อคำถามอาจวัดวัตถุประสงค์นั้นเพียงบางส่วน แต่ไม่ชัดเจนพอที่จะให้คะแนนบวก
-1 (ไม่สอดคล้อง/ไม่เห็นด้วย): ผู้เชี่ยวชาญจะให้คะแนนนี้เมื่อแน่ใจว่าข้อคำถามนั้นหลงทิศทาง ไม่เกี่ยวข้อง หรือไม่สามารถใช้วัดวัตถุประสงค์ที่กำหนดไว้ได้เลย

การอนุญาตให้มีตัวเลือก “0” สะท้อนให้เห็นถึงความเข้าใจของ Rovinelli และ Hambleton ต่อธรรมชาติของการร่างข้อคำถาม ที่มักจะมีความไม่สมบูรณ์ในระยะแรก การตอบ 0 จึงเปรียบเสมือนรหัสสัญญาณเตือนให้นักวิจัยทราบว่าข้อคำถามนั้นไม่ได้ผิดพลาดโดยสิ้นเชิง แต่จำเป็นต้องได้รับการขัดเกลาทางภาษาหรือการปรับปรุงโครงสร้างประโยคใหม่ ⁵

กระบวนการทางคณิตศาสตร์และการคำนวณดัชนี IOC

การคำนวณค่าดัชนี IOC สำหรับข้อคำถามแบบมิติเดียว (Unidimensional items) ตั้งอยู่บนหลักการของคณิตศาสตร์พื้นฐาน คือการหาค่าเฉลี่ยเลขคณิต (Arithmetic Mean) ของผลรวมคะแนนจากผู้เชี่ยวชาญทั้งหมดในคณะกรรมการ ⁴ สมการพื้นฐานมีดังนี้

โดยที่ เป็นผลรวมของคะแนนที่คณะผู้เชี่ยวชาญทุกคนมอบให้กับข้อคำถามนั้น (ซึ่งอาจเป็นไปได้ทั้งค่าบวก ค่าศูนย์ หรือค่าลบ) และ คือจำนวนของผู้เชี่ยวชาญทั้งหมดที่เข้าร่วมกระบวนการประเมิน ⁷

เพื่อให้เห็นภาพการทำงานของสมการอย่างเป็นรูปธรรม พิจารณาสถานการณ์จำลองในงานวิจัยด้านการจัดการธุรกิจ ซึ่งผู้วิจัยต้องการตรวจสอบข้อคำถามเกี่ยวกับ “กลยุทธ์การตลาดเชิงพันธมิตร” โดยเชิญผู้ทรงคุณวุฒิจำนวน 5 ท่านมาร่วมประเมิน ⁹ ผลการประเมินปรากฏดังนี้

ข้อคำถามที่ 1: ผู้เชี่ยวชาญคนที่ 1 ให้ +1, คนที่ 2 ให้ 0, คนที่ 3 ให้ +1, คนที่ 4 ให้ +1, คนที่ 5 ให้ +1
ผลรวมคะแนน () = 1 + 0 + 1 + 1 + 1 = 4
จำนวนผู้เชี่ยวชาญ () = 5
ค่าดัชนี IOC = 4 / 5 = 0.80

ในกรณีนี้ ค่า IOC เท่ากับ 0.80 ชี้ให้เห็นว่าข้อคำถามมีความสอดคล้องกับวัตถุประสงค์ในระดับที่สูงมาก โดยมีผู้เชี่ยวชาญเพียงท่านเดียวที่มีความลังเล (0) และไม่มีผู้ใดปฏิเสธความสอดคล้องเลย

ตรรกะเบื้องหลังเกณฑ์การยอมรับขั้นต่ำที่ 0.50

ประเด็นที่เป็นที่ถกเถียงกันในหมู่นักวิจัยคือ การกำหนดเกณฑ์ตัดผ่าน (Cut-off score) ของ IOC ซึ่งโดยมาตรฐานทั่วไปมักกำหนดไว้ที่ 0.50 หรือมากกว่าขึ้นไป ⁴ ข้อคำถามที่มีค่า IOC ตั้งแต่ 0.50 ถึง 1.00 จะถูกคัดเลือกไว้ใช้งาน ส่วนข้อที่ได้ต่ำกว่า 0.50 จะต้องถูกนำมาพิจารณาปรับปรุงแก้ไขอย่างหนักหรือตัดทิ้งออกไปจากเครื่องมือ ⁴

ตัวเลข 0.50 นี้ไม่ได้ถูกสร้างขึ้นมาโดยปราศจากรากฐาน Rovinelli และ Hambleton (1977) ได้วางกรอบตรรกะเชิงปริมาณไว้ว่า หากคณะผู้เชี่ยวชาญครึ่งหนึ่ง (ร้อยละ 50) ยืนยันอย่างหนักแน่นว่าข้อคำถามนั้นจับคู่กับวัตถุประสงค์ได้อย่างสมบูรณ์แบบ (+1) ในขณะที่ผู้เชี่ยวชาญอีกครึ่งหนึ่งไม่สามารถตัดสินใจได้และเลือกที่จะสงวนท่าที (0) ผลลัพธ์ของการคำนวณค่าเฉลี่ยจะออกมาเท่ากับ 0.50 พอดี ⁴

ดังนั้น ค่า 0.50 จึงไม่ใช่เพียงแค่คะแนนสอบผ่านคาบเส้น แต่เป็น “เครื่องรับประกันขั้นต่ำ” ทางระเบียบวิธีวิจัยว่า อย่างน้อยครึ่งหนึ่งของคณะกรรมการให้การยอมรับโดยปราศจากข้อกังขา และที่สำคัญคือต้องไม่มีผู้เชี่ยวชาญท่านใดเลยที่ลงคะแนนคัดค้านรุนแรง (-1) เพราะหากมีเพียงหนึ่งเสียงที่ให้ -1 ค่าเฉลี่ยจะถูกฉุดร่วงลงต่ำกว่า 0.50 ทันที อย่างไรก็ตาม สำหรับงานวิจัยที่มีความเสี่ยงสูงหรือมีผลกระทบระดับนโยบาย (High-stakes testing) ผู้วิจัยมักจะปรับเพิ่มเกณฑ์ความเข้มงวดนี้ขึ้นเป็น 0.75 เพื่อสร้างความมั่นใจสูงสุดต่อคุณภาพของเครื่องมือ ⁴

นวัตกรรมขั้นสูง: ดัชนี IOC สำหรับเครื่องมือพหุมิติ (Multidimensional IOC)

ข้อจำกัดประการหนึ่งของดัชนี IOC ดั้งเดิมคือ มันถูกออกแบบมาเพื่อรองรับข้อคำถามที่ทำหน้าที่วัดวัตถุประสงค์เพียงประการเดียวเท่านั้น (Unidimensionality) ⁶ แต่ในความเป็นจริงของการวิจัยทางจิตวิทยาและพฤติกรรมศาสตร์ โครงสร้างของตัวแปรมักมีความซับซ้อนและทับซ้อนกัน ข้อคำถามบางข้ออาจถูกออกแบบมาให้ทำหน้าที่ประเมินหลายทักษะไปพร้อมๆ กัน (Multidimensional assessments) ⁶

เพื่ออุดช่องโหว่นี้ Crocker และ Algina (1986) ได้ขยายขอบเขตทางคณิตศาสตร์ของสมการ Rovinelli และ Hambleton โดยนำเสนอสูตรการคำนวณดัชนี IOC สำหรับข้อคำถามพหุมิติ ⁴ สูตรนี้มีความซับซ้อนขึ้นเนื่องจากต้องเปรียบเทียบค่าเฉลี่ยที่ผู้เชี่ยวชาญมอบให้กับ “วัตถุประสงค์ที่ถูกต้อง” (Valid objectives) กับค่าเฉลี่ยที่มอบให้กับ “วัตถุประสงค์อื่นๆ ที่ไม่เกี่ยวข้อง” (Invalid objectives) สมการที่ปรับปรุงแล้วแสดงได้ดังนี้

โดยที่ คือดัชนีความสอดคล้องของข้อคำถามพหุมิติ, คือจำนวนวัตถุประสงค์ทั้งหมดในกรอบแนวคิด, คือจำนวนวัตถุประสงค์ที่ข้อคำถามนั้นตั้งใจจะวัดอย่างถูกต้อง, คือค่าเฉลี่ยคะแนนจากผู้ประเมินสำหรับวัตถุประสงค์ที่ถูกต้อง และ คือค่าเฉลี่ยคะแนนสำหรับวัตถุประสงค์ที่ไม่เกี่ยวข้อง ¹⁰

การนำระเบียบวิธีนี้ไปประยุกต์ใช้ปรากฏชัดเจนในงานวิจัยด้านการพัฒนาแบบทดสอบความสามารถด้านการอ่าน (Reading Ability) ในประเทศศรีลังกา ¹⁰ ซึ่งผู้วิจัยใช้ผู้เชี่ยวชาญถึง 12 ท่านในการประเมินข้อสอบ 41 ข้อเทียบกับกระบวนการทางปัญญา (Cognitive processing) 8 ด้าน การใช้สูตร Multidimensional IOC ช่วยให้นักวิจัยสามารถแยกแยะได้อย่างแม่นยำว่า ข้อสอบข้อใดที่ชี้วัดทักษะเดียวอย่างเฉียบคม และข้อสอบข้อใดที่ครอบคลุมกระบวนการทางปัญญาหลายระดับผสมผสานกัน ซึ่งเป็นข้อมูลเชิงประจักษ์ที่มีค่ามหาศาลต่อการพัฒนาแบบทดสอบมาตรฐาน

ดัชนีความตรงตามเนื้อหา (Content Validity Index: CVI)

ในขณะที่ IOC ครองความนิยมในแวดวงการประเมินผลทางการศึกษา ดัชนีความตรงตามเนื้อหา (Content Validity Index) หรือ CVI กลับกลายเป็นเครื่องมือที่ทรงอิทธิพลและถูกใช้งานอย่างแพร่หลายที่สุดในแวดวงการวิจัยทางการพยาบาล วิทยาศาสตร์สุขภาพ และการสร้างมาตรวัดทางคลินิก ³ ระเบียบวิธีนี้ได้รับการวางรากฐานอย่างเป็นระบบโดยนักวิชาการชั้นนำ เช่น Lynn (1986) และต่อมาได้รับการขยายความและปรับปรุงเชิงคณิตศาสตร์อย่างละเอียดโดย Polit, Beck, และ Owen (2007) ³

ปรัชญาของ CVI แตกต่างจาก IOC อย่างมีนัยยะสำคัญ ในขณะที่ IOC สนใจเพียงการทาบข้อคำถามกับวัตถุประสงค์ CVI มุ่งเน้นการประเมิน “ความเกี่ยวข้อง” (Relevance) และ “ความเป็นตัวแทน” (Representativeness) ของกลุ่มข้อคำถามทั้งหมดที่มีต่อโครงสร้างระดับมหภาค (Macro-construct) ³ นอกจากนี้ CVI ยังเป็นดัชนีที่มีความสมบูรณ์แบบในตัวเอง เนื่องจากถูกออกแบบมาให้สามารถคำนวณและรายงานผลได้ทั้งในระดับโครงสร้างย่อยของแต่ละข้อคำถาม และระดับภาพรวมของมาตรวัดทั้งฉบับ

จิตวิทยาของมาตรวัดแบบ 4 ระดับ (The 4-Point Forced-Choice Scale)

นวัตกรรมที่สำคัญของ CVI คือการปฏิเสธทางเลือกสายกลาง โดยนิยมใช้มาตรวัดแบบ 4 ระดับ (4-Point Likert Scale) ซึ่งเป็นการบังคับให้ผู้เชี่ยวชาญต้องตัดสินใจเลือกทิศทางอย่างชัดเจน (Forced-choice option) ว่าสอดคล้องหรือไม่สอดคล้อง ⁴ โครงสร้างของมาตรวัด 4 ระดับที่ได้รับการยอมรับในระดับสากล มีการกำหนดความหมายทางพฤติกรรมดังนี้

1 = ไม่เกี่ยวข้อง (Not relevant): ข้อคำถามนี้ไม่สามารถสะท้อนโครงสร้างที่ต้องการวัดได้เลย และควรถูกตัดทิ้ง
2 = ค่อนข้างไม่เกี่ยวข้อง หรือ ต้องการการปรับปรุงอย่างหนัก (Somewhat relevant / Unable to assess relevance without major revision): ข้อคำถามมีเค้าโครงของความเกี่ยวข้องอยู่บ้าง แต่ภาษาหรือเนื้อหาล้มเหลวในการสื่อความหมาย จำเป็นต้องรื้อโครงสร้างใหม่
3 = ค่อนข้างเกี่ยวข้อง หรือ ต้องการการปรับปรุงเพียงเล็กน้อย (Quite relevant / Needs minor revision): ข้อคำถามวัดได้ตรงประเด็น แต่ผู้วิจัยอาจต้องขัดเกลาคำศัพท์หรือไวยากรณ์เล็กน้อยเพื่อให้เกิดความสมบูรณ์
4 = เกี่ยวข้องมากที่สุด หรือ สอดคล้องอย่างยิ่ง (Highly relevant): ข้อคำถามทำหน้าที่เป็นตัวแทนของทฤษฎีได้อย่างไร้ที่ติ

กระบวนการทางสถิติของ CVI จะเริ่มต้นจากการนำคะแนนเหล่านี้มาจัดกลุ่มเป็นสองขั้ว (Dichotomization) โดยคะแนนระดับ 3 และ 4 จะถูกควบรวมกันและตีความว่า “ผู้เชี่ยวชาญเห็นพ้องว่าเกี่ยวข้อง” ส่วนคะแนนระดับ 1 และ 2 จะถูกยุบรวมกันเป็น “ผู้เชี่ยวชาญประเมินว่าไม่เกี่ยวข้อง” ³ การบังคับเลือกเช่นนี้ช่วยขจัดอคติที่ผู้ประเมินมักหลีกเลี่ยงการเผชิญหน้าและเลือกตอบตรงกลาง (Central tendency bias) ทำให้ผู้วิจัยได้ผลลัพธ์ที่เด็ดขาดและสะท้อนคุณภาพที่แท้จริง

การสกัดคุณค่าเชิงปริมาณ: ระดับรายข้อ (I-CVI) และภาพรวมทั้งฉบับ (S-CVI)

พลังอำนาจเชิงวิธีการของ CVI อยู่ที่ความยืดหยุ่นในการส่องกล้องพิจารณาเครื่องมือวิจัย ทั้งในระดับจุลภาคและระดับมหภาค การคำนวณดัชนีแบ่งออกเป็น 2 กระบวนการหลักที่ต้องกระทำคู่ขนานกันเสมอ

1. ดัชนีความตรงเชิงเนื้อหาระดับรายข้อ (Item-Level CVI: I-CVI)

I-CVI ทำหน้าที่ประเมินคุณภาพของข้อคำถามแต่ละข้อโดยเอกเทศ วิธีการคำนวณไม่ได้ใช้การหาค่าเฉลี่ยเหมือน IOC แต่ใช้การหา “สัดส่วนร้อยละ” (Proportion) ของคณะผู้เชี่ยวชาญที่ลงมติเห็นพ้อง ⁴ สมการเป็นไปตามนี้

พลวัตของเกณฑ์การยอมรับ I-CVI: สิ่งที่ทำให้ CVI ได้รับการยกย่องว่ามีความรัดกุมเชิงสถิติ คือการที่เกณฑ์ขั้นต่ำไม่ได้ถูกตรึงไว้เป็นตัวเลขตายตัว แต่เป็นพลวัตที่แปรผันตามจำนวนของผู้เชี่ยวชาญ (Panel size) ⁴

หากผู้วิจัยใช้ผู้เชี่ยวชาญกลุ่มเล็ก ระหว่าง 3 ถึง 5 คน เกณฑ์ของ I-CVI จะถูกกำหนดไว้ที่ขั้นสูงสุดคือ 1.00 เท่านั้น ³ หมายความว่าผู้เชี่ยวชาญทุกคนต้องเห็นพ้อง 100% ว่าข้อคำถามนี้เกี่ยวข้อง หากมีเสียงแตกแม้แต่เสียงเดียว ข้อคำถามนั้นจะตกเกณฑ์ทันที
หากมีการขยายขนาดของคณะผู้เชี่ยวชาญเป็น 6 ถึง 10 คน ความน่าจะเป็นที่จะเกิดเสียงแตกย่อมมีสูงขึ้นตามหลักสถิติ ดังนั้น เกณฑ์ขั้นต่ำของ I-CVI จึงถูกปรับลดลงมา แต่ยังคงตั้งอยู่บนมาตรฐานที่สูงลิ่ว คือไม่ควรต่ำกว่า 0.78 (หรือ 0.83 สำหรับผู้เชี่ยวชาญ 6-8 คนในบางเอกสารอ้างอิง) ³

2. ดัชนีความตรงเชิงเนื้อหาระดับภาพรวมมาตรวัด (Scale-Level CVI: S-CVI)

ความเข้าใจผิดที่ร้ายแรงและพบได้บ่อยที่สุดในหมู่นักวิจัยคือ การประมวลผล S-CVI ที่คลาดเคลื่อน S-CVI เป็นหัวใจสำคัญที่บอกผู้อ่านว่า “โดยสรุปแล้ว เครื่องมือทั้งชุดนี้มีความเที่ยงตรงเพียงใด” Polit และ Beck (2006) ได้ชี้ให้เห็นว่า ในอดีตนักวิจัยทางการพยาบาลจำนวนมากรายงานค่า S-CVI โดยไม่ระบุวิธีการคำนวณ ทั้งที่ในความเป็นจริง S-CVI สามารถคำนวณได้ 2 วิธีการซึ่งนำไปสู่ตัวเลขที่แตกต่างกันอย่างสิ้นเชิง ³

S-CVI/UA (Universal Agreement Method): วิธีการแห่งความสมบูรณ์แบบนี้ คำนวณได้โดยการนับจำนวนข้อคำถามที่ผู้เชี่ยวชาญ ทุกคน (เน้นย้ำว่าทุกคน) เห็นพ้องร่วมกันว่าเกี่ยวข้อง (ได้ 3 หรือ 4 จากทุกคน) แล้วนำมาหารด้วยจำนวนข้อคำถามทั้งหมด วิธีการนี้สะท้อนมุมมองแบบอนุรักษ์นิยมขั้นสูงสุด (Excessively conservative) และมักจะให้ผลลัพธ์ที่น่าผิดหวัง ³ ยิ่งคณะผู้เชี่ยวชาญมีขนาดใหญ่ โอกาสที่คน 10 คนจะให้คะแนน 3 หรือ 4 ตรงกันในทุกๆ ข้อ ย่อมเข้าใกล้ศูนย์ การมีผู้เชี่ยวชาญที่สับสนหรือมีอคติเพียงคนเดียว สามารถทำลายค่า S-CVI/UA ของเครื่องมือทั้งฉบับให้พังทลายลงได้
S-CVI/Ave (Averaging Method): วิธีการนี้เป็นการหาจุดสมดุลทางระเบียบวิธี โดยคำนวณจากการนำค่า I-CVI ของข้อคำถามทุกข้อในเครื่องมือมารวมกัน แล้วหารด้วยจำนวนข้อคำถามทั้งหมด (หรือการหาค่าเฉลี่ยของ I-CVI) ³ วิธีนี้ได้รับการสนับสนุนและยกย่องจากนักวิชาการกระแสหลักว่าเป็นวิธีที่สะท้อนภาพรวมคุณภาพของเครื่องมือได้เป็นธรรมที่สุด โดยไม่ลงโทษเครื่องมืออย่างรุนแรงเพียงเพราะผู้เชี่ยวชาญส่วนน้อยมีความเห็นต่าง

เกณฑ์การยอมรับ S-CVI: สำหรับวิธี S-CVI/UA ค่าดัชนีที่ 0.80 ถือว่าอยู่ในเกณฑ์ที่ยอมรับได้ แต่สำหรับวิธีที่เป็นที่นิยมอย่าง S-CVI/Ave นักมาตรวิทยาเรียกร้องมาตรฐานแห่งความเป็นเลิศที่สูงกว่า โดยเครื่องมือวิจัยที่มีคุณภาพระดับตีพิมพ์สากลควรมีค่า S-CVI/Ave ตั้งแต่ 0.90 ขึ้นไป ³

ตารางสาธิตและบทวิเคราะห์การคำนวณ CVI เชิงลึก

เพื่อให้เกิดความเข้าใจอย่างกระจ่างแจ้งในความขัดแย้งระหว่าง S-CVI/UA และ S-CVI/Ave พิจารณาสถานการณ์ตัวอย่างจากงานวิจัยของ Polit และ Beck ที่มีการใช้คณะผู้เชี่ยวชาญ 6 ท่าน เพื่อประเมินเครื่องมือวัด 10 ข้อคำถาม ³

ลำดับข้อคำถาม	ผชช. 1	ผชช. 2	ผชช. 3	ผชช. 4	ผชช. 5	ผชช. 6	จำนวนที่เห็นพ้อง (ได้คะแนน 3 หรือ 4)	ค่า I-CVI	ดัชนีความเห็นพ้องแบบเอกฉันท์ (Universal Agreement)
ข้อที่ 1	2	4	3	4	4	4	5	0.83	0 (ไม่เอกฉันท์)
ข้อที่ 2	4	1	4	3	4	3	5	0.83	0 (ไม่เอกฉันท์)
ข้อที่ 3	3	4	2	4	4	4	5	0.83	0 (ไม่เอกฉันท์)
ข้อที่ 4	4	3	4	2	4	4	5	0.83	0 (ไม่เอกฉันท์)
ข้อที่ 5	4	4	4	4	1	3	5	0.83	0 (ไม่เอกฉันท์)
ข้อที่ 6	4	3	4	4	4	2	5	0.83	0 (ไม่เอกฉันท์)
ข้อที่ 7	4	4	3	4	4	4	6	1.00	1 (เอกฉันท์)
ข้อที่ 8	4	4	4	4	4	3	6	1.00	1 (เอกฉันท์)
ข้อที่ 9	3	4	4	3	4	4	6	1.00	1 (เอกฉันท์)
ข้อที่ 10	4	4	4	4	4	4	6	1.00	1 (เอกฉันท์)
ผลรวมการวิเคราะห์								ผลรวม I-CVI = 8.98	ข้อที่เอกฉันท์ทั้งหมด = 4 ข้อ

การประมวลผลและการตีความทางสถิติ:

จากตารางจำลองข้างต้น หากเราพิจารณาพฤติกรรมการให้คะแนน จะพบว่าผู้เชี่ยวชาญแต่ละคนให้คะแนนความเกี่ยวข้อง (3 หรือ 4) ถึง 9 ข้อ จาก 10 ข้อ มีเพียงคนละ 1 ข้อเท่านั้นที่พวกเขามองว่าไม่เกี่ยวข้อง แต่ทว่า ข้อที่พวกเขาแต่ละคนปฏิเสธ กลับเป็นข้อที่ไม่ซ้ำกันเลย (ผู้เชี่ยวชาญคนที่ 1 ปฏิเสธข้อ 1, คนที่ 2 ปฏิเสธข้อ 2 ไปเรื่อยๆ) ผลลัพธ์ของสภาวการณ์นี้สร้างแรงกระเพื่อมมหาศาลต่อการคำนวณระดับภาพรวม

คำนวณ S-CVI/UA: จำนวนข้อคำถามที่มีความเห็นพ้องแบบไร้ข้อกังขาจากผู้เชี่ยวชาญทั้ง 6 ท่าน มีเพียงข้อ 7, 8, 9 และ 10 เท่านั้น ดังนั้น S-CVI/UA = 4 / 10 = 0.40
คำนวณ S-CVI/Ave: อาศัยการหาค่าเฉลี่ยของ I-CVI ทั้งหมด คือ (0.83 * 6 ข้อ) + (1.00 * 4 ข้อ) = 8.98 นำไปหารด้วยจำนวนข้อทั้งหมด 10 ข้อ จะได้ S-CVI/Ave = 0.898 หรือปัดเป็น 0.90

การปะทะกันระหว่างตัวเลข 0.40 และ 0.90 นี้ ชี้ให้เห็นถึงอันตรายของการรายงานผลที่ไม่รัดกุม หากผู้วิจัยรายงานเพียง S-CVI/UA ที่ 0.40 เครื่องมือชิ้นนี้จะถูกวิจารณ์ว่าล้มเหลวและต้องถูกทิ้งลงถังขยะ ทั้งที่ในความเป็นจริง ข้อคำถามเกือบทั้งหมดได้รับคะแนนสนับสนุนสูงถึง 83% การเลือกใช้ S-CVI/Ave ที่ให้ค่า 0.90 จึงเป็นการสะท้อนคุณภาพองค์รวมที่เป็นธรรม สมเหตุสมผล และรักษาทรัพยากรการวิจัยไว้ได้อย่างทรงคุณค่า ³

การยกระดับความน่าเชื่อถือ: การปรับแก้ความตกลงบังเอิญด้วย Modified Kappa Statistic

แม้ดัชนี CVI จะถูกออกแบบมาอย่างรัดกุม แต่ข้อวิจารณ์เชิงระเบียบวิธีที่สำคัญที่สุดประการหนึ่งคือ CVI ไม่ได้คำนึงถึง “ความน่าจะเป็นที่ผู้เชี่ยวชาญจะเห็นพ้องตรงกันด้วยความบังเอิญ” (Probability of chance agreement) ⁴ ในสถานการณ์ที่มีผู้เชี่ยวชาญจำนวนน้อย (เช่น 3 คน) การที่ทุกคนจะให้คะแนนตกอยู่ในกลุ่ม 3 และ 4 เหมือนกันทั้งหมด ย่อมมีโอกาสเกิดขึ้นได้จากความสุ่มล้วนๆ โดยที่เนื้อหาอาจไม่ได้ตรงจริง

เพื่ออุดช่องโหว่ทางสถิตินี้ Polit และคณะ (2007) ได้เสนอแนะอย่างแข็งขันให้นักวิจัยชั้นนำคำนวณสถิติ Modified Kappa () ควบคู่ไปกับ I-CVI ทุกครั้ง ⁴ สถิติ Kappa จะทำหน้าที่หักลบสัดส่วนความบังเอิญออกจากความตกลงที่เกิดขึ้นจริง กระบวนการคำนวณประกอบด้วยสองขั้นตอนหลัก

ขั้นตอนที่ 1: การคำนวณความน่าจะเป็นของความบังเอิญ ()

โดยที่:

คือจำนวนผู้เชี่ยวชาญทั้งหมดในคณะกรรมการ
คือจำนวนผู้เชี่ยวชาญที่ลงคะแนนเห็นพ้อง (ให้ 3 หรือ 4)

ขั้นตอนที่ 2: การประเมินค่า Modified Kappa ()

การตีความค่า Modified Kappa ได้รับการจัดหมวดหมู่อย่างเป็นระบบ โดยค่า ที่สูงกว่า 0.74 ขึ้นไป จะถูกพิจารณาว่าข้อคำถามนั้นมีความตรงเชิงเนื้อหาอยู่ในระดับ “ดีเยี่ยม” (Excellent) ค่าระหว่าง 0.60 ถึง 0.74 ถือว่า “ดี” (Good) และค่าระหว่าง 0.40 ถึง 0.59 ถือว่าอยู่ในเกณฑ์ “พอใช้” (Fair) ⁴ การผนวก Kappa เข้ากับรายงานการวิจัย ถือเป็นมาตรฐานทองคำที่แสดงถึงความตระหนักรู้ทางคณิตศาสตร์ขั้นสูงของผู้วิจัย

การวิเคราะห์เปรียบเทียบเชิงโครงสร้าง: IOC ปะทะ CVI

เมื่อนำดัชนีทั้งสองมาวางเคียงคู่กันเพื่อวิเคราะห์เปรียบเทียบเชิงลึก จะพบว่าแม้ทั้งสองจะใช้ผู้เชี่ยวชาญกลุ่มเดียวกันเป็นผู้ให้ข้อมูลเชิงประจักษ์ ทว่าสถาปัตยกรรมทางแนวคิดกลับแบ่งแยกการใช้งานออกเป็น 4 มิติที่แตกต่างกันอย่างสิ้นเชิง ดังที่ปรากฏในตารางต่อไปนี้ ⁴

ตารางที่ 1: การเปรียบเทียบคุณลักษณะทางระเบียบวิธีระหว่าง IOC และ CVI

มิติการเปรียบเทียบเชิงประจักษ์	ดัชนี IOC (Index of Item-Objective Congruence)	ดัชนี CVI (Content Validity Index)
1. ระดับของการประเมิน (Level of Assessment)	ประเมินความสอดคล้องเชิงลึกแบบ ระดับรายข้อ (Item-level) เท่านั้น ไม่ถูกออกแบบมาเพื่อหาค่าเฉลี่ยรวมระดับมาตรวัดทั้งฉบับ	มีความสมบูรณ์แบบทั้งการประเมินโครงสร้างย่อย (I-CVI) และการประเมินคุณภาพของเครื่องมือในระดับภาพรวม (S-CVI)
2. จิตวิทยาของมาตรวัด (Rating Scale)	มาตราส่วน 3 ระดับ (+1, 0, -1) เคารพความกำกวมของเนื้อหา อนุญาตให้ผู้เชี่ยวชาญแสดงสภาวะไม่แน่ใจ (Neutral option)	มาตราส่วน 4 ระดับ (1 ถึง 4) บังคับให้ผู้ประเมินตัดสินใจเด็ดขาด (Forced-choice) เพื่อลดความลำเอียงสู่ค่ากลาง
3. ปรัชญาการคำนวณ (Calculation Method)	ใช้ ค่าเฉลี่ยเลขคณิต (Mean) การตอบเชิงลบ (-1) ของบุคคลหนึ่ง จะลบล้างความเห็นชอบ (+1) ของอีกบุคคลหนึ่งทันที	ใช้ สัดส่วน (Proportion) มุ่งหาปริมาณการเกาะกลุ่มของคะแนนระดับสูง โดยคะแนนต่ำไม่หักล้างคะแนนสูงทางคณิตศาสตร์
4. เกณฑ์การยอมรับขั้นต่ำ (Acceptance Criteria)	เป็นเกณฑ์แบบตายตัวแบบหลวมๆ (Static threshold) ที่ > 0.50 (หรือปรับเป็น 0.75 หากต้องการความเข้มงวด)	เป็นเกณฑ์พลวัตตามสถิติ: 1.00 สำหรับผู้เชี่ยวชาญ 3-5 คน และ 0.78 สำหรับผู้เชี่ยวชาญ 6-10 คน
5. บทบาทของการวิเคราะห์เชิงลึกขั้นสูง	ขยายผลสู่ทฤษฎีมาตรวัดพหุมิติ (Multidimensional items) สำหรับเครื่องมือวัดทรรศนะซับซ้อน	ขยายผลสู่การปรับแก้ความตกลงบังเอิญด้วย Modified Kappa Statistic

จากตารางเปรียบเทียบ จะเห็นได้อย่างเด่นชัดว่า CVI ครอบครองความเข้มงวดที่เหนือกว่าในการบังคับให้ผู้เชี่ยวชาญตัดสินใจ และให้ภาพสะท้อนทั้งสเปกตรัมของเครื่องมือ ในขณะที่ IOC เป็นเครื่องมือที่เรียบง่ายแต่ทรงพลังในการประเมินทิศทางของข้อสอบทางการศึกษาที่ผูกมัดกับตัวชี้วัดหลักสูตรอย่างตายตัว

ภูมิทัศน์ของการประยุกต์ใช้ในบริบทงานวิจัยจริง

ทฤษฎีทางมาตรวิทยาย่อมไร้ความหมายหากปราศจากการลงรากสู่การปฏิบัติจริงในภาคสนามวิจัย การศึกษาตัวอย่างการประยุกต์ใช้ดัชนี IOC และ CVI ในบริบทสาขาวิชาที่แตกต่างกัน จะช่วยเปิดมุมมองและชี้แนะกลยุทธ์การเลือกใช้เครื่องมือได้อย่างชาญฉลาด

มิติที่ 1: การขับเคลื่อน CVI ในงานวิจัยทางการพยาบาลและการปรับบริบทข้ามวัฒนธรรม

สาขาวิทยาศาสตร์สุขภาพและการพยาบาล ถือเป็นมาตุภูมิที่ผลักดันให้ CVI เติบโตจนถึงขีดสุด โครงสร้างการวิจัยในสายนี้มักเกี่ยวข้องกับตัวแปรที่จับต้องได้ยากและมีความอ่อนไหวสูง ตัวอย่างเช่น การพัฒนาแบบสอบถามปัจจัยที่มีผลต่อการเรียนรู้ทางคลินิก (Clinical Learning) ของนักศึกษาพยาบาล ¹⁷ หรือการสร้างเครื่องมือ Cotter Preceptor Selection Instrument ที่ใช้คัดกรองคุณลักษณะของพยาบาลพี่เลี้ยง ซึ่งตัวแปรอย่าง “ความสามารถในการสอน” หรือ “ความเป็นผู้นำ” มีความเป็นนามธรรมสูงมาก ¹⁸ การนำ CVI มาใช้บังคับให้ผู้เชี่ยวชาญให้คะแนน 4 ระดับ ช่วยให้ผู้วิจัยสกัดเฉพาะพฤติกรรมบ่งชี้ที่มีความเกี่ยวข้องอย่างถึงแก่นออกมาได้

อีกหนึ่งบทบาทที่โดดเด่นของ CVI คือการตรวจสอบความตรงเชิงเนื้อหาในการแปลเครื่องมือข้ามวัฒนธรรม (Cross-cultural adaptation) งานวิจัยชิ้นหนึ่งได้แปลแบบประเมินผู้ป่วยมะเร็งศีรษะและลำคอ (ePVA) จากภาษาอังกฤษเป็นภาษาสเปน ¹⁹ ผู้วิจัยได้นำระเบียบวิธี CVI มาประยุกต์ใช้เพื่อตรวจสอบถึง 2 มิติพร้อมกัน คือ “ความเกี่ยวข้องเชิงวัฒนธรรม” (Cultural relevance) และ “ความเทียบเท่าของงานแปล” (Translation equivalence) ผลการประเมินพบว่า S-CVI ในมิติวัฒนธรรมสูงถึง 0.95 และมิติการแปลเท่ากับ 0.84 อย่างไรก็ตาม กระบวนการ CVI ยังทำหน้าที่เป็นตะแกรงร่อนชั้นเยี่ยม โดยตรวจพบข้อคำถาม 9 ข้อที่มีค่า I-CVI ต่ำกว่า 0.59 ซึ่งนำไปสู่กระบวนการสัมภาษณ์เจาะลึก (Cognitive interviews) กับกลุ่มตัวอย่างชาวสเปนเพื่อปรับแก้ภาษาให้สอดคล้องกับวิถีชีวิตจริง ¹⁹ การผสาน CVI เข้ากับการวิจัยเชิงคุณภาพเช่นนี้ คือสุดยอดของการออกแบบระเบียบวิธีวิจัยแบบผสมผสาน (Mixed-methods instrument development)

มิติที่ 2: บทบาทของ IOC ในกระบวนทัศน์การศึกษาไทย

ในภูมิทัศน์ของงานวิจัยทางการศึกษา โดยเฉพาะในประเทศไทย IOC ได้ฝังรากลึกในฐานะมาตรฐานภาคบังคับ (Mandatory requirement) สำหรับการทำวิทยานิพนธ์ระดับบัณฑิตศึกษา (Thesis methodology) และการพัฒนาแบบทดสอบของรัฐ ⁹

สถาบันทดสอบทางการศึกษาแห่งชาติ (สทศ.) ของไทย ในกระบวนการพัฒนาข้อสอบ O-NET (Ordinary National Educational Test) ได้กำหนดมาตรฐานการกลั่นกรองข้อสอบโดยอาศัยดัชนี IOC อย่างเคร่งครัด ⁵ เนื่องจากข้อสอบระดับชาติทุกข้อต้องสะท้อนมาตรฐานการเรียนรู้และตัวชี้วัด (Standard and Indicators) ของกระทรวงศึกษาธิการอย่างเฉพาะเจาะจง การใช้มาตรวัด 3 ระดับของ IOC จึงตอบสนองกระบวนการทำงานของผู้เชี่ยวชาญ (Subject matter experts) ที่ทำหน้าที่ตรวจสอบว่า “ข้อสอบข้อนี้ ตีความตรงกับตัวชี้วัดข้อที่ 1.1 ใช่ (+1) หรือ ไม่ใช่ (-1)” ได้อย่างทรงประสิทธิภาพ

นอกจากนี้ ในงานวิจัยที่ซับซ้อนขึ้นอย่างการพัฒนาแบบประเมินความสามารถด้านการอ่าน (Reading Ability) ในต่างประเทศ ผู้วิจัยได้ประยุกต์ใช้ Multidimensional IOC กับข้อคำถาม 41 ข้อ เพื่อประเมินความสอดคล้องกับกระบวนการทางปัญญา 8 ด้าน ผลการวิเคราะห์ IOC ได้จำแนกข้อสอบออกเป็นสองกลุ่มอย่างชัดเจน คือกลุ่มที่ชี้วัดทักษะเดียวอย่างบริสุทธิ์ (Unidimensional congruence) และกลุ่มที่ผสมผสานหลายทักษะ (Multidimensional combinations) ซึ่งข้อมูลนี้นำไปสู่การปรับปรุงแบบทดสอบให้มีความแม่นยำทางจิตวิทยาการรู้คิดมากยิ่งขึ้น ¹⁰

ข้อพึงระวังเชิงระเบียบวิธีและมาตรฐานการรายงานผล (Methodological Caveats and Reporting Standards)

การนำพาดัชนีเหล่านี้ไปสู่การตีพิมพ์ในวารสารวิชาการระดับนานาชาติ หรือการป้องกันวิทยานิพนธ์ให้ผ่านการรับรอง เรียกร้องความโปร่งใสและมาตรฐานการรายงานที่ไร้รอยตะเข็บ ผู้วิจัยพึงระวังหลุมพรางทางระเบียบวิธีและยึดถือแนวทางปฏิบัติดังต่อไปนี้

1. ความเหนื่อยล้าของผู้ประเมินและอคติในการตอบ (Rater Fatigue and Bias)

ดัชนี CVI และ IOC จะทำงานได้อย่างเที่ยงตรงก็ต่อเมื่อคณะผู้เชี่ยวชาญให้คะแนนด้วยความตั้งใจจริง ปัญหาคลาสสิกที่พบในงานวิจัยคือ การส่งเครื่องมือที่มีความยาวมากกว่า 100 ข้อไปให้ผู้เชี่ยวชาญประเมิน ²³ ภาระทางปัญญา (Cognitive load) ที่สูงเกินไปย่อมก่อให้เกิดอาการเหนื่อยล้า นำไปสู่ปรากฏการณ์ “การลากเส้นตรง” (Straight-lining) หรือการให้คะแนน 4 รวดทุกข้อเพื่อความรวดเร็ว เมื่อคะแนนเหล่านี้เข้าสู่สมการ CVI จะส่งผลให้ค่า S-CVI สูงเกินจริงและหลอกลวง (Overestimation of validity) ผู้วิจัยต้องตระหนักว่าคุณภาพของสถิติ ย่อมผูกพันกับคุณภาพของกระบวนการเก็บข้อมูลเสมอ

2. การบูรณาการกับ Lawshe’s CVR และความตรงเชิงโครงสร้าง

ค่าความตรงเชิงเนื้อหาเป็นเพียงปฐมบทของความน่าเชื่อถือเท่านั้น มาตรฐานขั้นสูงแนะนำให้ผู้วิจัยรายงานดัชนีเหล่านี้ควบคู่กับสถิติอื่นๆ เช่น Content Validity Ratio (CVR) ของ Lawshe ⁴ ในขณะที่ CVI วัดความเกี่ยวข้อง CVR จะช่วยยืนยันระดับความ “จำเป็นอย่างขาดไม่ได้” (Essentiality) ของข้อคำถาม ยิ่งไปกว่านั้น แม้แบบสอบถามจะได้ค่า S-CVI สูงถึง 0.95 ก็ไม่ได้การันตีว่าเมื่อนำไปเก็บข้อมูลจริงแล้วจะมีความตรงเชิงโครงสร้าง (Construct Validity) ผู้วิจัยยังคงต้องนำข้อมูลที่เก็บได้ไปสกัดปัจจัยผ่านการวิเคราะห์องค์ประกอบเชิงสำรวจ (EFA) หรือเชิงยืนยัน (CFA) ต่อไป ดังที่ปรากฏในงานวิจัยการสร้างเครื่องมือปัจจัยการเรียนรู้ทางคลินิก ที่ยังคงต้องรายงานตารางน้ำหนักองค์ประกอบ (Factor Loadings) ควบคู่กับดัชนีเนื้อหา ¹⁷

3. มาตรฐานความโปร่งใสในการรายงานตารางสถิติ

เพื่อให้รอดพ้นจากการวิพากษ์วิจารณ์ของคณะกรรมการประเมินบทความ (Peer-reviewers) การจัดทำรายงานต้องปฏิบัติตามกฎเหล็กดังนี้

ห้ามรายงาน IOC เป็นค่าเฉลี่ยของทั้งเครื่องมือเด็ดขาด: การนำค่า IOC ของทุกข้อมาบวกกันแล้วหารเป็นค่า IOC ภาพรวม ถือเป็นการละเมิดปรัชญาพื้นฐานของ Rovinelli และ Hambleton อย่างร้ายแรง ⁴ ผู้วิจัยต้องรายงานค่า IOC เป็น “พิสัย” (Range) เช่น “ข้อคำถามที่ได้รับการคัดเลือกมีค่าดัชนีความสอดคล้อง (IOC) อยู่ระหว่าง 0.60 ถึง 1.00” พร้อมแนบตารางแสดงคะแนนแจกแจงรายข้อในภาคผนวก ⁴
ระบุกลไกการคำนวณ S-CVI เสมอ: หลีกเลี่ยงการเขียนลอยๆ ว่า “เครื่องมือมีค่า CVI = 0.85” ผู้วิจัยต้องชี้แจงอย่างชัดเจนว่าค่านั้นคือ I-CVI เฉลี่ย หรือ S-CVI แบบใด การเขียนรายงานที่สมบูรณ์แบบควรมีลักษณะเช่น “คณะผู้เชี่ยวชาญ 6 ท่านประเมินความตรงเชิงเนื้อหา พบว่าข้อคำถามมีค่า I-CVI ระหว่าง 0.83-1.00 และเมื่อวิเคราะห์ภาพรวมด้วยวิธี Averaging Method พบว่าเครื่องมือมีค่า S-CVI/Ave เท่ากับ 0.90 ซึ่งสูงกว่าเกณฑ์มาตรฐานระดับสากล พร้อมทั้งค่า Modified Kappa เฉลี่ยที่ 0.88 แสดงให้เห็นถึงความยอดเยี่ยมของเนื้อหา” ³

บทสรุปแห่งกระบวนทัศน์การประเมิน

การสถาปนาคุณภาพของเครื่องมือวิจัยผ่านการประเมินความตรงเชิงเนื้อหา ถือเป็นงานศิลปะที่ขับเคลื่อนด้วยกลไกทางวิทยาศาสตร์ ท่ามกลางความเป็นอัตวิสัยของมนุษย์ ดัชนี IOC และ CVI ได้ทำหน้าที่เป็นปราการด่านแรกที่กลั่นกรองและแปรสภาพวิจารณญาณเชิงคุณภาพให้เป็นประจักษ์พยานเชิงปริมาณที่น่าเชื่อถือ

หากกรอบการวิจัยมุ่งเน้นไปที่การประเมินผลสัมฤทธิ์ทางการศึกษา การสร้างชุดฝึกอบรม หรือการพัฒนาตัวชี้วัดที่ต้องอิงกับจุดประสงค์การเรียนรู้อย่างแนบแน่น ดัชนี IOC คือกระบวนทัศน์ที่เหมาะสมที่สุด ด้วยโครงสร้างที่รองรับความคลุมเครือและชี้เป้าความสอดคล้องระดับรายข้อได้อย่างคมคาย ในทางตรงกันข้าม หากงานวิจัยนั้นลึกล้ำไปในพรมแดนของจิตวิทยา การพยาบาล หรือการประเมินพฤติกรรมองค์กร ที่ต้องการตรวจวัดระดับความเกี่ยวข้องและครอบคลุมความเป็นตัวแทนของภาพรวมเครื่องมืออย่างรอบด้าน ดัชนี CVI ที่มาพร้อมกับการวิเคราะห์ I-CVI, S-CVI/Ave และ Modified Kappa ย่อมเป็นอาวุธทางระเบียบวิธีวิจัยที่ทรงอานุภาพและได้รับการเชิดชูสูงสุดในเวทีวิชาการระดับสากล การบูรณาการความเข้าใจอย่างถ่องแท้ในรากฐานทางปรัชญา คณิตศาสตร์เบื้องหลัง และศิลปะการรายงานผลของทั้งสองดัชนี จึงเป็นคุณลักษณะอันล้ำค่าที่สะท้อนให้เห็นถึงความเป็นเลิศและความซื่อสัตย์ต่อวิชาชีพของนักวิจัยอย่างแท้จริง

Works cited

Definition and Procedure of Content Validation in Psychological Research – TPM Vol, accessed April 9, 2026, https://www.tpmap.org/wp-content/uploads/2023/03/30.1.1.pdf
Nursing Practice Today, accessed April 9, 2026, https://applications.emro.who.int/imemrf/Nurs_Pract_Today/Nurs_Pract_Today_2014_1_3_163_171.pdf
The content validity index: Are you sure you know what’s being …, accessed April 9, 2026, https://faculty.ksu.edu.sa/sites/default/files/the_content_validity_index_are_you_sure_1.pdf
An In-depth Examination of Validity Assessment: Exploring Diverse …, accessed April 9, 2026, https://ageconsearch.umn.edu/record/367756/files/Ansari41102023AJAEES107022.pdf
an investigation of content validity in the o-net (english subject) for the upper secondary level – TU e-Thesis (Thammasat University), accessed April 9, 2026, http://ethesisarchive.library.tu.ac.th/thesis/2016/TU_2016_5606040110_7218_5083.pdf
SUGI 27: Computing Indices of Item Congruence for Test Development Validity Assessments – SAS Support, accessed April 9, 2026, https://support.sas.com/resources/papers/proceedings/proceedings/sugi27/p255-27.pdf
ความหมายที่แท้จริงของค่า IOC The Real Meaning of IOC – ThaiJO, accessed April 9, 2026, https://so02.tci-thaijo.org/index.php/jemmsu/article/download/174521/124950/492992
Adjusted Index of Item-0bjective Congruence Values and the Associated | Download Table, accessed April 9, 2026, https://www.researchgate.net/figure/Adjusted-Index-of-Item-0bjective-Congruence-Values-and-the-Associated_tbl2_247502723
บทที่ 3 ระเบียบวิธีการวิจัย, accessed April 9, 2026, http://cmruir.cmru.ac.th/bitstream/123456789/1320/6/Chapter%203.pdf
Item Objective Congruence Analysis for Multidimensional Items Content Validation of a Reading Test in Sri Lankan University – ERIC, accessed April 9, 2026, https://files.eric.ed.gov/fulltext/EJ1329361.pdf
(PDF) Indexes of Item-Objective Congruence for Multidimensional Items – ResearchGate, accessed April 9, 2026, https://www.researchgate.net/publication/247502723_Indexes_of_Item-Objective_Congruence_for_Multidimensional_Items
Is the CVI an acceptable indicator of content validity? Appraisal and recommendations – PubMed, accessed April 9, 2026, https://pubmed.ncbi.nlm.nih.gov/17654487/
Using Microsoft Excel to Calculate Content Validity Index (CVI) and Content Validity Ratio (CVR): A Practical Approach – Salisbury University, accessed April 9, 2026, https://www.salisbury.edu/academic-offices/education/_files/Calculating-CVR.pdf
ABC of Content Validation and Content Validity Index Calculation – Education in Medicine Journal, accessed April 9, 2026, https://eduimed.usm.my/EIMJ20191102/EIMJ20191102_06.pdf
The content validity index: are you sure you know what’s being reported? Critique and recommendations – PubMed, accessed April 9, 2026, https://pubmed.ncbi.nlm.nih.gov/16977646/
Is the CVI an acceptable indicator of content validity? Appraisal and recommendations, accessed April 9, 2026, https://www.academia.edu/33458003/Is_the_CVI_an_acceptable_indicator_of_content_validity_Appraisal_and_recommendations
Developing an instrument to measure effective factors on Clinical …, accessed April 9, 2026, https://pmc.ncbi.nlm.nih.gov/articles/PMC4927254/
Instrument Development and Testing for Selection of Nursing Preceptors – CEConnection, accessed April 9, 2026, https://nursing.ceconnection.com/ovidfiles/01709760-201807000-00004.pdf
Using content validity index methodology for cross-cultural translation of a patient-reported outcome measure for head and neck cancer – Frontiers, accessed April 9, 2026, https://www.frontiersin.org/journals/health-services/articles/10.3389/frhs.2025.1582127/full
Sample of instrument translation and content validity index rating template – ResearchGate, accessed April 9, 2026, https://www.researchgate.net/figure/Sample-of-instrument-translation-and-content-validity-index-rating-template_tbl1_49780513
การหาค่าความเที่ยงตรงของแบบสอบถาม (IOC), accessed April 9, 2026, https://www.mcu.ac.th/article/detail/14329
ระดับบัณฑิตศึกษา มหาวิทยาลัยเทคโนโลยีสุรนารี (Factors Effecting Graduation Periods of Graduate Students, Suranaree University of Technology), accessed April 9, 2026, http://sutgateway.sut.ac.th/ces/km/research/1.pdf
Developing and validating an integrated instrument for nursing assessments in adult hospitalization units: Study protocol – PMC, accessed April 9, 2026, https://pmc.ncbi.nlm.nih.gov/articles/PMC10170918/
(PDF) Application of Item Objective Congruence Index (IOC-Index) for Proper Alignment of 2020 Physics WASSCE Items with Objectives and Content – ResearchGate, accessed April 9, 2026, https://www.researchgate.net/publication/383948597_Application_of_Item_Objective_Congruence_Index_IOC-Index_for_Proper_Alignment_of_2020_Physics_WASSCE_Items_with_Objectives_and_Content

Post Views: 21

Comments

comments