การประเมินความตรงเชิงเนื้อหาด้วยดัชนี CVI และ IOC ในระเบียบวิธีวิจัยทางสังคมศาสตร์และวิทยาศาสตร์สุขภาพ

April 12, 2026 ดร.อนุศร หงษ์ขุนทด 14 Views 0 Comments

แชร์เรื่องนี้

การประเมินความตรงเชิงเนื้อหาด้วยดัชนี CVI และ IOC ในระเบียบวิธีวิจัยทางสังคมศาสตร์และวิทยาศาสตร์สุขภาพ

บทนำสู่รากฐานทางมาตรวิทยาและการประเมินความตรงเชิงเนื้อหา

ในกระบวนการวิจัยทางสังคมศาสตร์ พฤติกรรมศาสตร์ วิทยาศาสตร์สุขภาพ และการศึกษา การพัฒนาเครื่องมือวัด (Instrument Development) ถือเป็นหัวใจสำคัญที่กำหนดชะตากรรมของงานวิจัยทั้งระบบ ข้อมูลเชิงประจักษ์ที่มีคุณภาพสูงย่อมมาจากเครื่องมือที่มีความน่าเชื่อถือ (Reliability) และมีความตรง (Validity) อย่างสมบูรณ์แบบ ความตรงหรือความเที่ยงตรงหมายถึงขีดความสามารถของเครื่องมือวิจัยในการวัดคุณลักษณะ โครงสร้างทางทฤษฎี (Construct) หรือตัวแปรที่ผู้วิจัยตั้งใจจะวัดได้อย่างแม่นยำและครบถ้วน ¹ ท่ามกลางกระบวนทัศน์การตรวจสอบความตรงหลากหลายรูปแบบ ไม่ว่าจะเป็นความตรงตามโครงสร้าง (Construct Validity) หรือความตรงตามเกณฑ์สัมพันธ์ (Criterion-related Validity) การตรวจสอบความตรงเชิงเนื้อหา (Content Validity) ถือเป็นปฐมบทและด่านแรกที่เครื่องมือวิจัยทุกชิ้นต้องก้าวผ่าน ²

ความตรงเชิงเนื้อหาหมายถึงระดับที่ข้อคำถามหรือตัวบ่งชี้ในเครื่องมือวิจัยประกอบไปด้วยกลุ่มตัวอย่างของพฤติกรรมหรือเนื้อหาที่เป็นตัวแทนของโครงสร้างที่ต้องการวัดอย่างเหมาะสม ³ กระบวนการนี้ไม่ได้อาศัยการเก็บข้อมูลจากกลุ่มตัวอย่างขนาดใหญ่หรือการใช้สถิติเชิงอนุมานขั้นสูงในเบื้องต้น แต่ต้องอาศัยวิจารณญาณเชิงลึกจากผู้ทรงคุณวุฒิหรือคณะผู้เชี่ยวชาญด้านเนื้อหา (Subject Matter Experts: SMEs) ที่มีความรู้ความเข้าใจในตัวแปรนั้นอย่างถ่องแท้ ⁴ ความท้าทายทางระเบียบวิธีวิจัยที่สำคัญที่สุดในขั้นตอนนี้คือ “ความเป็นอัตวิสัย” (Subjectivity) ของมนุษย์ เนื่องจากการตัดสินใจว่าข้อคำถามหนึ่งๆ สะท้อนทฤษฎีได้ดีหรือไม่นั้น มักถูกเจือปนด้วยประสบการณ์ มุมมอง และอคติส่วนบุคคลของผู้เชี่ยวชาญแต่ละท่าน

เพื่อแก้ไขปัญหาความแปรปรวนจากดุลยพินิจส่วนบุคคล นักมาตรวิทยาจึงได้พัฒนาระเบียบวิธีทางสถิติเพื่อแปลงข้อมูลเชิงคุณภาพอันเกิดจากการประเมินของผู้เชี่ยวชาญ ให้กลายเป็นดัชนีเชิงปริมาณที่สามารถวัดผลและตั้งเกณฑ์การยอมรับได้อย่างเป็นรูปธรรม วิธีการที่ได้รับการยอมรับและถูกนำมาใช้เป็นมาตรฐานทองคำ (Gold Standard) ในแวดวงการวิจัยระดับสากลและระดับชาติ มีอยู่สองกระบวนทัศน์หลัก ได้แก่ การคำนวณดัชนีความสอดคล้องของข้อคำถามกับวัตถุประสงค์ (Index of Item-Objective Congruence: IOC) และการคำนวณดัชนีความตรงตามเนื้อหา (Content Validity Index: CVI) ⁴ แม้ว่าดัชนีทั้งสองจะมีเป้าหมายสูงสุดร่วมกันในการยืนยันความตรงเชิงเนื้อหา ทว่ารากฐานทางปรัชญา โครงสร้างของมาตรวัด คณิตศาสตร์เบื้องหลังการคำนวณ ตลอดจนข้อจำกัดและการแปลผลกลับมีความแตกต่างกันอย่างมีนัยสำคัญ รายงานการวิจัยฉบับนี้จะนำเสนอการวิเคราะห์เจาะลึกอย่างละเอียดถี่ถ้วนในทุกมิติของดัชนี IOC และ CVI เพื่อสร้างความกระจ่างและเป็นแนวทางปฏิบัติที่ถูกต้องสำหรับนักวิจัยระดับมืออาชีพ

ดัชนีความสอดคล้องของข้อคำถามกับวัตถุประสงค์ (Index of Item-Objective Congruence: IOC)

ดัชนีความสอดคล้องของข้อคำถามกับวัตถุประสงค์ หรือที่รู้จักกันอย่างกว้างขวางในนาม IOC เป็นระเบียบวิธีทางสถิติที่ถูกนำเสนอและพัฒนาขึ้นครั้งแรกโดย Rovinelli และ Hambleton ในปี ค.ศ. 1976/1977 ⁴ ปฐมบทของการพัฒนา IOC เกิดขึ้นในบริบทของการสร้างแบบทดสอบแบบอิงเกณฑ์ (Criterion-Referenced Tests) ซึ่งเป็นกระบวนทัศน์การวัดผลทางการศึกษาที่ต้องการความแม่นยำสูงสุดว่า ข้อสอบแต่ละข้อนั้นผูกติดและสามารถวัดวัตถุประสงค์เชิงพฤติกรรม (Behavioral Objectives) หรือจุดประสงค์การเรียนรู้ที่หลักสูตรกำหนดไว้ได้อย่างไร้ข้อกังขา ⁷

จุดเน้นสำคัญที่สุดของปรัชญาแบบ IOC คือการมุ่งตรวจสอบ “ความสอดคล้อง” (Congruence) แบบเจาะจงระหว่างข้อคำถามกับวัตถุประสงค์ ⁴ โดยไม่ได้ให้ความสำคัญกับความเป็นตัวแทนของภาพรวมเครื่องมือมากเท่ากับการจับคู่แบบหนึ่งต่อหนึ่ง (One-to-one mapping) ซึ่งทำให้ IOC กลายเป็นเครื่องมือระดับจุลทรรศน์ที่ทรงพลังในการสแกนข้อคำถามแต่ละข้อในระยะเริ่มต้นของการพัฒนาเครื่องมือวัด ⁶

โครงสร้างมาตรวัดและกลไกเชิงจิตวิทยาของ IOC

กลไกการทำงานของ IOC อาศัยดุลยพินิจของคณะผู้เชี่ยวชาญผ่านโครงสร้างมาตรวัดแบบ 3 ระดับ (3-Point Scale) ซึ่งถือเป็นมาตรวัดที่มีลักษณะเปิดกว้างและเคารพต่อความกำกวมของภาษา ⁴ โครงสร้างของมาตรวัดถูกกำหนดไว้อย่างชัดเจนดังนี้

+1 (สอดคล้อง/เห็นด้วย): ผู้เชี่ยวชาญจะเลือกคะแนนนี้เมื่อมีความมั่นใจอย่างเต็มที่ว่าข้อคำถามที่ผู้วิจัยสร้างขึ้นนั้น สามารถวัดพฤติกรรมหรือเนื้อหาที่ระบุไว้ในวัตถุประสงค์ได้อย่างชัดเจน ตรงประเด็น และไม่มีความคลาดเคลื่อน
0 (ไม่แน่ใจ/ไม่สามารถตัดสินได้): คะแนนนี้เป็นกลไกเชิงจิตวิทยาที่เปิดโอกาสให้ผู้เชี่ยวชาญแสดงความลังเล ซึ่งมักเกิดขึ้นเมื่อข้อคำถามถูกเขียนด้วยภาษาที่คลุมเครือ ตีความได้หลายนัยยะ หรือเมื่อผู้เชี่ยวชาญรู้สึกว่าข้อคำถามอาจวัดวัตถุประสงค์นั้นเพียงบางส่วน แต่ไม่ชัดเจนพอที่จะให้คะแนนบวก
-1 (ไม่สอดคล้อง/ไม่เห็นด้วย): ผู้เชี่ยวชาญจะให้คะแนนนี้เมื่อแน่ใจว่าข้อคำถามนั้นหลงทิศทาง ไม่เกี่ยวข้อง หรือไม่สามารถใช้วัดวัตถุประสงค์ที่กำหนดไว้ได้เลย

การอนุญาตให้มีตัวเลือก “0” สะท้อนให้เห็นถึงความเข้าใจของ Rovinelli และ Hambleton ต่อธรรมชาติของการร่างข้อคำถาม ที่มักจะมีความไม่สมบูรณ์ในระยะแรก การตอบ 0 จึงเปรียบเสมือนรหัสสัญญาณเตือนให้นักวิจัยทราบว่าข้อคำถามนั้นไม่ได้ผิดพลาดโดยสิ้นเชิง แต่จำเป็นต้องได้รับการขัดเกลาทางภาษาหรือการปรับปรุงโครงสร้างประโยคใหม่ ⁵

กระบวนการทางคณิตศาสตร์และการคำนวณดัชนี IOC

การคำนวณค่าดัชนี IOC สำหรับข้อคำถามแบบมิติเดียว (Unidimensional items) ตั้งอยู่บนหลักการของคณิตศาสตร์พื้นฐาน คือการหาค่าเฉลี่ยเลขคณิต (Arithmetic Mean) ของผลรวมคะแนนจากผู้เชี่ยวชาญทั้งหมดในคณะกรรมการ ⁴ สมการพื้นฐานมีดังนี้

โดยที่ เป็นผลรวมของคะแนนที่คณะผู้เชี่ยวชาญทุกคนมอบให้กับข้อคำถามนั้น (ซึ่งอาจเป็นไปได้ทั้งค่าบวก ค่าศูนย์ หรือค่าลบ) และ

คือจำนวนของผู้เชี่ยวชาญทั้งหมดที่เข้าร่วมกระบวนการประเมิน ⁷

เพื่อให้เห็นภาพการทำงานของสมการอย่างเป็นรูปธรรม พิจารณาสถานการณ์จำลองในงานวิจัยด้านการจัดการธุรกิจ ซึ่งผู้วิจัยต้องการตรวจสอบข้อคำถามเกี่ยวกับ “กลยุทธ์การตลาดเชิงพันธมิตร” โดยเชิญผู้ทรงคุณวุฒิจำนวน 5 ท่านมาร่วมประเมิน ⁹ ผลการประเมินปรากฏดังนี้

ข้อคำถามที่ 1: ผู้เชี่ยวชาญคนที่ 1 ให้ +1, คนที่ 2 ให้ 0, คนที่ 3 ให้ +1, คนที่ 4 ให้ +1, คนที่ 5 ให้ +1
ผลรวมคะแนน () = 1 + 0 + 1 + 1 + 1 = 4
จำนวนผู้เชี่ยวชาญ () = 5
ค่าดัชนี IOC = 4 / 5 = 0.80

ในกรณีนี้ ค่า IOC เท่ากับ 0.80 ชี้ให้เห็นว่าข้อคำถามมีความสอดคล้องกับวัตถุประสงค์ในระดับที่สูงมาก โดยมีผู้เชี่ยวชาญเพียงท่านเดียวที่มีความลังเล (0) และไม่มีผู้ใดปฏิเสธความสอดคล้องเลย

ตรรกะเบื้องหลังเกณฑ์การยอมรับขั้นต่ำที่ 0.50

ประเด็นที่เป็นที่ถกเถียงกันในหมู่นักวิจัยคือ การกำหนดเกณฑ์ตัดผ่าน (Cut-off score) ของ IOC ซึ่งโดยมาตรฐานทั่วไปมักกำหนดไว้ที่ 0.50 หรือมากกว่าขึ้นไป ⁴ ข้อคำถามที่มีค่า IOC ตั้งแต่ 0.50 ถึง 1.00 จะถูกคัดเลือกไว้ใช้งาน ส่วนข้อที่ได้ต่ำกว่า 0.50 จะต้องถูกนำมาพิจารณาปรับปรุงแก้ไขอย่างหนักหรือตัดทิ้งออกไปจากเครื่องมือ ⁴

ตัวเลข 0.50 นี้ไม่ได้ถูกสร้างขึ้นมาโดยปราศจากรากฐาน Rovinelli และ Hambleton (1977) ได้วางกรอบตรรกะเชิงปริมาณไว้ว่า หากคณะผู้เชี่ยวชาญครึ่งหนึ่ง (ร้อยละ 50) ยืนยันอย่างหนักแน่นว่าข้อคำถามนั้นจับคู่กับวัตถุประสงค์ได้อย่างสมบูรณ์แบบ (+1) ในขณะที่ผู้เชี่ยวชาญอีกครึ่งหนึ่งไม่สามารถตัดสินใจได้และเลือกที่จะสงวนท่าที (0) ผลลัพธ์ของการคำนวณค่าเฉลี่ยจะออกมาเท่ากับ 0.50 พอดี ⁴

ดังนั้น ค่า 0.50 จึงไม่ใช่เพียงแค่คะแนนสอบผ่านคาบเส้น แต่เป็น “เครื่องรับประกันขั้นต่ำ” ทางระเบียบวิธีวิจัยว่า อย่างน้อยครึ่งหนึ่งของคณะกรรมการให้การยอมรับโดยปราศจากข้อกังขา และที่สำคัญคือต้องไม่มีผู้เชี่ยวชาญท่านใดเลยที่ลงคะแนนคัดค้านรุนแรง (-1) เพราะหากมีเพียงหนึ่งเสียงที่ให้ -1 ค่าเฉลี่ยจะถูกฉุดร่วงลงต่ำกว่า 0.50 ทันที อย่างไรก็ตาม สำหรับงานวิจัยที่มีความเสี่ยงสูงหรือมีผลกระทบระดับนโยบาย (High-stakes testing) ผู้วิจัยมักจะปรับเพิ่มเกณฑ์ความเข้มงวดนี้ขึ้นเป็น 0.75 เพื่อสร้างความมั่นใจสูงสุดต่อคุณภาพของเครื่องมือ ⁴

นวัตกรรมขั้นสูง: ดัชนี IOC สำหรับเครื่องมือพหุมิติ (Multidimensional IOC)

ข้อจำกัดประการหนึ่งของดัชนี IOC ดั้งเดิมคือ มันถูกออกแบบมาเพื่อรองรับข้อคำถามที่ทำหน้าที่วัดวัตถุประสงค์เพียงประการเดียวเท่านั้น (Unidimensionality) ⁶ แต่ในความเป็นจริงของการวิจัยทางจิตวิทยาและพฤติกรรมศาสตร์ โครงสร้างของตัวแปรมักมีความซับซ้อนและทับซ้อนกัน ข้อคำถามบางข้ออาจถูกออกแบบมาให้ทำหน้าที่ประเมินหลายทักษะไปพร้อมๆ กัน (Multidimensional assessments) ⁶

เพื่ออุดช่องโหว่นี้ Crocker และ Algina (1986) ได้ขยายขอบเขตทางคณิตศาสตร์ของสมการ Rovinelli และ Hambleton โดยนำเสนอสูตรการคำนวณดัชนี IOC สำหรับข้อคำถามพหุมิติ ⁴ สูตรนี้มีความซับซ้อนขึ้นเนื่องจากต้องเปรียบเทียบค่าเฉลี่ยที่ผู้เชี่ยวชาญมอบให้กับ “วัตถุประสงค์ที่ถูกต้อง” (Valid objectives) กับค่าเฉลี่ยที่มอบให้กับ “วัตถุประสงค์อื่นๆ ที่ไม่เกี่ยวข้อง” (Invalid objectives) สมการที่ปรับปรุงแล้วแสดงได้ดังนี้

โดยที่ คือดัชนีความสอดคล้องของข้อคำถามพหุมิติ, คือจำนวนวัตถุประสงค์ทั้งหมดในกรอบแนวคิด, คือจำนวนวัตถุประสงค์ที่ข้อคำถามนั้นตั้งใจจะวัดอย่างถูกต้อง, คือค่าเฉลี่ยคะแนนจากผู้ประเมินสำหรับวัตถุประสงค์ที่ถูกต้อง และ คือค่าเฉลี่ยคะแนนสำหรับวัตถุประสงค์ที่ไม่เกี่ยวข้อง ¹⁰

การนำระเบียบวิธีนี้ไปประยุกต์ใช้ปรากฏชัดเจนในงานวิจัยด้านการพัฒนาแบบทดสอบความสามารถด้านการอ่าน (Reading Ability) ในประเทศศรีลังกา ¹⁰ ซึ่งผู้วิจัยใช้ผู้เชี่ยวชาญถึง 12 ท่านในการประเมินข้อสอบ 41 ข้อเทียบกับกระบวนการทางปัญญา (Cognitive processing) 8 ด้าน การใช้สูตร Multidimensional IOC ช่วยให้นักวิจัยสามารถแยกแยะได้อย่างแม่นยำว่า ข้อสอบข้อใดที่ชี้วัดทักษะเดียวอย่างเฉียบคม และข้อสอบข้อใดที่ครอบคลุมกระบวนการทางปัญญาหลายระดับผสมผสานกัน ซึ่งเป็นข้อมูลเชิงประจักษ์ที่มีค่ามหาศาลต่อการพัฒนาแบบทดสอบมาตรฐาน

ดัชนีความตรงตามเนื้อหา (Content Validity Index: CVI)

ในขณะที่ IOC ครองความนิยมในแวดวงการประเมินผลทางการศึกษา ดัชนีความตรงตามเนื้อหา (Content Validity Index) หรือ CVI กลับกลายเป็นเครื่องมือที่ทรงอิทธิพลและถูกใช้งานอย่างแพร่หลายที่สุดในแวดวงการวิจัยทางการพยาบาล วิทยาศาสตร์สุขภาพ และการสร้างมาตรวัดทางคลินิก ³ ระเบียบวิธีนี้ได้รับการวางรากฐานอย่างเป็นระบบโดยนักวิชาการชั้นนำ เช่น Lynn (1986) และต่อมาได้รับการขยายความและปรับปรุงเชิงคณิตศาสตร์อย่างละเอียดโดย Polit, Beck, และ Owen (2007) ³

ปรัชญาของ CVI แตกต่างจาก IOC อย่างมีนัยยะสำคัญ ในขณะที่ IOC สนใจเพียงการทาบข้อคำถามกับวัตถุประสงค์ CVI มุ่งเน้นการประเมิน “ความเกี่ยวข้อง” (Relevance) และ “ความเป็นตัวแทน” (Representativeness) ของกลุ่มข้อคำถามทั้งหมดที่มีต่อโครงสร้างระดับมหภาค (Macro-construct) ³ นอกจากนี้ CVI ยังเป็นดัชนีที่มีความสมบูรณ์แบบในตัวเอง เนื่องจากถูกออกแบบมาให้สามารถคำนวณและรายงานผลได้ทั้งในระดับโครงสร้างย่อยของแต่ละข้อคำถาม และระดับภาพรวมของมาตรวัดทั้งฉบับ

จิตวิทยาของมาตรวัดแบบ 4 ระดับ (The 4-Point Forced-Choice Scale)

นวัตกรรมที่สำคัญของ CVI คือการปฏิเสธทางเลือกสายกลาง โดยนิยมใช้มาตรวัดแบบ 4 ระดับ (4-Point Likert Scale) ซึ่งเป็นการบังคับให้ผู้เชี่ยวชาญต้องตัดสินใจเลือกทิศทางอย่างชัดเจน (Forced-choice option) ว่าสอดคล้องหรือไม่สอดคล้อง ⁴ โครงสร้างของมาตรวัด 4 ระดับที่ได้รับการยอมรับในระดับสากล มีการกำหนดความหมายทางพฤติกรรมดังนี้

1 = ไม่เกี่ยวข้อง (Not relevant): ข้อคำถามนี้ไม่สามารถสะท้อนโครงสร้างที่ต้องการวัดได้เลย และควรถูกตัดทิ้ง
2 = ค่อนข้างไม่เกี่ยวข้อง หรือ ต้องการการปรับปรุงอย่างหนัก (Somewhat relevant / Unable to assess relevance without major revision): ข้อคำถามมีเค้าโครงของความเกี่ยวข้องอยู่บ้าง แต่ภาษาหรือเนื้อหาล้มเหลวในการสื่อความหมาย จำเป็นต้องรื้อโครงสร้างใหม่
3 = ค่อนข้างเกี่ยวข้อง หรือ ต้องการการปรับปรุงเพียงเล็กน้อย (Quite relevant / Needs minor revision): ข้อคำถามวัดได้ตรงประเด็น แต่ผู้วิจัยอาจต้องขัดเกลาคำศัพท์หรือไวยากรณ์เล็กน้อยเพื่อให้เกิดความสมบูรณ์
4 = เกี่ยวข้องมากที่สุด หรือ สอดคล้องอย่างยิ่ง (Highly relevant): ข้อคำถามทำหน้าที่เป็นตัวแทนของทฤษฎีได้อย่างไร้ที่ติ

กระบวนการทางสถิติของ CVI จะเริ่มต้นจากการนำคะแนนเหล่านี้มาจัดกลุ่มเป็นสองขั้ว (Dichotomization) โดยคะแนนระดับ 3 และ 4 จะถูกควบรวมกันและตีความว่า “ผู้เชี่ยวชาญเห็นพ้องว่าเกี่ยวข้อง” ส่วนคะแนนระดับ 1 และ 2 จะถูกยุบรวมกันเป็น “ผู้เชี่ยวชาญประเมินว่าไม่เกี่ยวข้อง” ³ การบังคับเลือกเช่นนี้ช่วยขจัดอคติที่ผู้ประเมินมักหลีกเลี่ยงการเผชิญหน้าและเลือกตอบตรงกลาง (Central tendency bias) ทำให้ผู้วิจัยได้ผลลัพธ์ที่เด็ดขาดและสะท้อนคุณภาพที่แท้จริง

การสกัดคุณค่าเชิงปริมาณ: ระดับรายข้อ (I-CVI) และภาพรวมทั้งฉบับ (S-CVI)

พลังอำนาจเชิงวิธีการของ CVI อยู่ที่ความยืดหยุ่นในการส่องกล้องพิจารณาเครื่องมือวิจัย ทั้งในระดับจุลภาคและระดับมหภาค การคำนวณดัชนีแบ่งออกเป็น 2 กระบวนการหลักที่ต้องกระทำคู่ขนานกันเสมอ

1. ดัชนีความตรงเชิงเนื้อหาระดับรายข้อ (Item-Level CVI: I-CVI)

I-CVI ทำหน้าที่ประเมินคุณภาพของข้อคำถามแต่ละข้อโดยเอกเทศ วิธีการคำนวณไม่ได้ใช้การหาค่าเฉลี่ยเหมือน IOC แต่ใช้การหา “สัดส่วนร้อยละ” (Proportion) ของคณะผู้เชี่ยวชาญที่ลงมติเห็นพ้อง ⁴ สมการเป็นไปตามนี้

พลวัตของเกณฑ์การยอมรับ I-CVI: สิ่งที่ทำให้ CVI ได้รับการยกย่องว่ามีความรัดกุมเชิงสถิติ คือการที่เกณฑ์ขั้นต่ำไม่ได้ถูกตรึงไว้เป็นตัวเลขตายตัว แต่เป็นพลวัตที่แปรผันตามจำนวนของผู้เชี่ยวชาญ (Panel size) ⁴

หากผู้วิจัยใช้ผู้เชี่ยวชาญกลุ่มเล็ก ระหว่าง 3 ถึง 5 คน เกณฑ์ของ I-CVI จะถูกกำหนดไว้ที่ขั้นสูงสุดคือ 1.00 เท่านั้น ³ หมายความว่าผู้เชี่ยวชาญทุกคนต้องเห็นพ้อง 100% ว่าข้อคำถามนี้เกี่ยวข้อง หากมีเสียงแตกแม้แต่เสียงเดียว ข้อคำถามนั้นจะตกเกณฑ์ทันที
หากมีการขยายขนาดของคณะผู้เชี่ยวชาญเป็น 6 ถึง 10 คน ความน่าจะเป็นที่จะเกิดเสียงแตกย่อมมีสูงขึ้นตามหลักสถิติ ดังนั้น เกณฑ์ขั้นต่ำของ I-CVI จึงถูกปรับลดลงมา แต่ยังคงตั้งอยู่บนมาตรฐานที่สูงลิ่ว คือไม่ควรต่ำกว่า 0.78 (หรือ 0.83 สำหรับผู้เชี่ยวชาญ 6-8 คนในบางเอกสารอ้างอิง) ³

2. ดัชนีความตรงเชิงเนื้อหาระดับภาพรวมมาตรวัด (Scale-Level CVI: S-CVI)

ความเข้าใจผิดที่ร้ายแรงและพบได้บ่อยที่สุดในหมู่นักวิจัยคือ การประมวลผล S-CVI ที่คลาดเคลื่อน S-CVI เป็นหัวใจสำคัญที่บอกผู้อ่านว่า “โดยสรุปแล้ว เครื่องมือทั้งชุดนี้มีความเที่ยงตรงเพียงใด” Polit และ Beck (2006) ได้ชี้ให้เห็นว่า ในอดีตนักวิจัยทางการพยาบาลจำนวนมากรายงานค่า S-CVI โดยไม่ระบุวิธีการคำนวณ ทั้งที่ในความเป็นจริง S-CVI สามารถคำนวณได้ 2 วิธีการซึ่งนำไปสู่ตัวเลขที่แตกต่างกันอย่างสิ้นเชิง ³

S-CVI/UA (Universal Agreement Method): วิธีการแห่งความสมบูรณ์แบบนี้ คำนวณได้โดยการนับจำนวนข้อคำถามที่ผู้เชี่ยวชาญ ทุกคน (เน้นย้ำว่าทุกคน) เห็นพ้องร่วมกันว่าเกี่ยวข้อง (ได้ 3 หรือ 4 จากทุกคน) แล้วนำมาหารด้วยจำนวนข้อคำถามทั้งหมด วิธีการนี้สะท้อนมุมมองแบบอนุรักษ์นิยมขั้นสูงสุด (Excessively conservative) และมักจะให้ผลลัพธ์ที่น่าผิดหวัง ³ ยิ่งคณะผู้เชี่ยวชาญมีขนาดใหญ่ โอกาสที่คน 10 คนจะให้คะแนน 3 หรือ 4 ตรงกันในทุกๆ ข้อ ย่อมเข้าใกล้ศูนย์ การมีผู้เชี่ยวชาญที่สับสนหรือมีอคติเพียงคนเดียว สามารถทำลายค่า S-CVI/UA ของเครื่องมือทั้งฉบับให้พังทลายลงได้
S-CVI/Ave (Averaging Method): วิธีการนี้เป็นการหาจุดสมดุลทางระเบียบวิธี โดยคำนวณจากการนำค่า I-CVI ของข้อคำถามทุกข้อในเครื่องมือมารวมกัน แล้วหารด้วยจำนวนข้อคำถามทั้งหมด (หรือการหาค่าเฉลี่ยของ I-CVI) ³ วิธีนี้ได้รับการสนับสนุนและยกย่องจากนักวิชาการกระแสหลักว่าเป็นวิธีที่สะท้อนภาพรวมคุณภาพของเครื่องมือได้เป็นธรรมที่สุด โดยไม่ลงโทษเครื่องมืออย่างรุนแรงเพียงเพราะผู้เชี่ยวชาญส่วนน้อยมีความเห็นต่าง

เกณฑ์การยอมรับ S-CVI: สำหรับวิธี S-CVI/UA ค่าดัชนีที่ 0.80 ถือว่าอยู่ในเกณฑ์ที่ยอมรับได้ แต่สำหรับวิธีที่เป็นที่นิยมอย่าง S-CVI/Ave นักมาตรวิทยาเรียกร้องมาตรฐานแห่งความเป็นเลิศที่สูงกว่า โดยเครื่องมือวิจัยที่มีคุณภาพระดับตีพิมพ์สากลควรมีค่า S-CVI/Ave ตั้งแต่ 0.90 ขึ้นไป ³

ตารางสาธิตและบทวิเคราะห์การคำนวณ CVI เชิงลึก

เพื่อให้เกิดความเข้าใจอย่างกระจ่างแจ้งในความขัดแย้งระหว่าง S-CVI/UA และ S-CVI/Ave พิจารณาสถานการณ์ตัวอย่างจากงานวิจัยของ Polit และ Beck ที่มีการใช้คณะผู้เชี่ยวชาญ 6 ท่าน เพื่อประเมินเครื่องมือวัด 10 ข้อคำถาม ³

ลำดับข้อคำถาม	ผชช. 1	ผชช. 2	ผชช. 3	ผชช. 4	ผชช. 5	ผชช. 6	จำนวนที่เห็นพ้อง (ได้คะแนน 3 หรือ 4)	ค่า I-CVI	ดัชนีความเห็นพ้องแบบเอกฉันท์ (Universal Agreement)
ข้อที่ 1	2	4	3	4	4	4	5	0.83	0 (ไม่เอกฉันท์)
ข้อที่ 2	4	1	4	3	4	3	5	0.83	0 (ไม่เอกฉันท์)
ข้อที่ 3	3	4	2	4	4	4	5	0.83	0 (ไม่เอกฉันท์)
ข้อที่ 4	4	3	4	2	4	4	5	0.83	0 (ไม่เอกฉันท์)
ข้อที่ 5	4	4	4	4	1	3	5	0.83	0 (ไม่เอกฉันท์)
ข้อที่ 6	4	3	4	4	4	2	5	0.83	0 (ไม่เอกฉันท์)
ข้อที่ 7	4	4	3	4	4	4	6	1.00	1 (เอกฉันท์)
ข้อที่ 8	4	4	4	4	4	3	6	1.00	1 (เอกฉันท์)
ข้อที่ 9	3	4	4	3	4	4	6	1.00	1 (เอกฉันท์)
ข้อที่ 10	4	4	4	4	4	4	6	1.00	1 (เอกฉันท์)
ผลรวมการวิเคราะห์								ผลรวม I-CVI = 8.98	ข้อที่เอกฉันท์ทั้งหมด = 4 ข้อ

การประมวลผลและการตีความทางสถิติ:

จากตารางจำลองข้างต้น หากเราพิจารณาพฤติกรรมการให้คะแนน จะพบว่าผู้เชี่ยวชาญแต่ละคนให้คะแนนความเกี่ยวข้อง (3 หรือ 4) ถึง 9 ข้อ จาก 10 ข้อ มีเพียงคนละ 1 ข้อเท่านั้นที่พวกเขามองว่าไม่เกี่ยวข้อง แต่ทว่า ข้อที่พวกเขาแต่ละคนปฏิเสธ กลับเป็นข้อที่ไม่ซ้ำกันเลย (ผู้เชี่ยวชาญคนที่ 1 ปฏิเสธข้อ 1, คนที่ 2 ปฏิเสธข้อ 2 ไปเรื่อยๆ) ผลลัพธ์ของสภาวการณ์นี้สร้างแรงกระเพื่อมมหาศาลต่อการคำนวณระดับภาพรวม

คำนวณ S-CVI/UA: จำนวนข้อคำถามที่มีความเห็นพ้องแบบไร้ข้อกังขาจากผู้เชี่ยวชาญทั้ง 6 ท่าน มีเพียงข้อ 7, 8, 9 และ 10 เท่านั้น ดังนั้น S-CVI/UA = 4 / 10 = 0.40
คำนวณ S-CVI/Ave: อาศัยการหาค่าเฉลี่ยของ I-CVI ทั้งหมด คือ (0.83 * 6 ข้อ) + (1.00 * 4 ข้อ) = 8.98 นำไปหารด้วยจำนวนข้อทั้งหมด 10 ข้อ จะได้ S-CVI/Ave = 0.898 หรือปัดเป็น 0.90

การปะทะกันระหว่างตัวเลข 0.40 และ 0.90 นี้ ชี้ให้เห็นถึงอันตรายของการรายงานผลที่ไม่รัดกุม หากผู้วิจัยรายงานเพียง S-CVI/UA ที่ 0.40 เครื่องมือชิ้นนี้จะถูกวิจารณ์ว่าล้มเหลวและต้องถูกทิ้งลงถังขยะ ทั้งที่ในความเป็นจริง ข้อคำถามเกือบทั้งหมดได้รับคะแนนสนับสนุนสูงถึง 83% การเลือกใช้ S-CVI/Ave ที่ให้ค่า 0.90 จึงเป็นการสะท้อนคุณภาพองค์รวมที่เป็นธรรม สมเหตุสมผล และรักษาทรัพยากรการวิจัยไว้ได้อย่างทรงคุณค่า ³

การยกระดับความน่าเชื่อถือ: การปรับแก้ความตกลงบังเอิญด้วย Modified Kappa Statistic

แม้ดัชนี CVI จะถูกออกแบบมาอย่างรัดกุม แต่ข้อวิจารณ์เชิงระเบียบวิธีที่สำคัญที่สุดประการหนึ่งคือ CVI ไม่ได้คำนึงถึง “ความน่าจะเป็นที่ผู้เชี่ยวชาญจะเห็นพ้องตรงกันด้วยความบังเอิญ” (Probability of chance agreement) ⁴ ในสถานการณ์ที่มีผู้เชี่ยวชาญจำนวนน้อย (เช่น 3 คน) การที่ทุกคนจะให้คะแนนตกอยู่ในกลุ่ม 3 และ 4 เหมือนกันทั้งหมด ย่อมมีโอกาสเกิดขึ้นได้จากความสุ่มล้วนๆ โดยที่เนื้อหาอาจไม่ได้ตรงจริง

เพื่ออุดช่องโหว่ทางสถิตินี้ Polit และคณะ (2007) ได้เสนอแนะอย่างแข็งขันให้นักวิจัยชั้นนำคำนวณสถิติ Modified Kappa () ควบคู่ไปกับ I-CVI ทุกครั้ง ⁴ สถิติ Kappa จะทำหน้าที่หักลบสัดส่วนความบังเอิญออกจากความตกลงที่เกิดขึ้นจริง กระบวนการคำนวณประกอบด้วยสองขั้นตอนหลัก

ขั้นตอนที่ 1: การคำนวณความน่าจะเป็นของความบังเอิญ ()

โดยที่:

คือจำนวนผู้เชี่ยวชาญทั้งหมดในคณะกรรมการ
คือจำนวนผู้เชี่ยวชาญที่ลงคะแนนเห็นพ้อง (ให้ 3 หรือ 4)

ขั้นตอนที่ 2: การประเมินค่า Modified Kappa ()

การตีความค่า Modified Kappa ได้รับการจัดหมวดหมู่อย่างเป็นระบบ โดยค่า ที่สูงกว่า 0.74 ขึ้นไป จะถูกพิจารณาว่าข้อคำถามนั้นมีความตรงเชิงเนื้อหาอยู่ในระดับ “ดีเยี่ยม” (Excellent) ค่าระหว่าง 0.60 ถึง 0.74 ถือว่า “ดี” (Good) และค่าระหว่าง 0.40 ถึง 0.59 ถือว่าอยู่ในเกณฑ์ “พอใช้” (Fair) ⁴ การผนวก Kappa เข้ากับรายงานการวิจัย ถือเป็นมาตรฐานทองคำที่แสดงถึงความตระหนักรู้ทางคณิตศาสตร์ขั้นสูงของผู้วิจัย

การวิเคราะห์เปรียบเทียบเชิงโครงสร้าง: IOC ปะทะ CVI

เมื่อนำดัชนีทั้งสองมาวางเคียงคู่กันเพื่อวิเคราะห์เปรียบเทียบเชิงลึก จะพบว่าแม้ทั้งสองจะใช้ผู้เชี่ยวชาญกลุ่มเดียวกันเป็นผู้ให้ข้อมูลเชิงประจักษ์ ทว่าสถาปัตยกรรมทางแนวคิดกลับแบ่งแยกการใช้งานออกเป็น 4 มิติที่แตกต่างกันอย่างสิ้นเชิง ดังที่ปรากฏในตารางต่อไปนี้ ⁴

ตารางที่ 1: การเปรียบเทียบคุณลักษณะทางระเบียบวิธีระหว่าง IOC และ CVI

มิติการเปรียบเทียบเชิงประจักษ์	ดัชนี IOC (Index of Item-Objective Congruence)	ดัชนี CVI (Content Validity Index)
1. ระดับของการประเมิน (Level of Assessment)	ประเมินความสอดคล้องเชิงลึกแบบ ระดับรายข้อ (Item-level) เท่านั้น ไม่ถูกออกแบบมาเพื่อหาค่าเฉลี่ยรวมระดับมาตรวัดทั้งฉบับ	มีความสมบูรณ์แบบทั้งการประเมินโครงสร้างย่อย (I-CVI) และการประเมินคุณภาพของเครื่องมือในระดับภาพรวม (S-CVI)
2. จิตวิทยาของมาตรวัด (Rating Scale)	มาตราส่วน 3 ระดับ (+1, 0, -1) เคารพความกำกวมของเนื้อหา อนุญาตให้ผู้เชี่ยวชาญแสดงสภาวะไม่แน่ใจ (Neutral option)	มาตราส่วน 4 ระดับ (1 ถึง 4) บังคับให้ผู้ประเมินตัดสินใจเด็ดขาด (Forced-choice) เพื่อลดความลำเอียงสู่ค่ากลาง
3. ปรัชญาการคำนวณ (Calculation Method)	ใช้ ค่าเฉลี่ยเลขคณิต (Mean) การตอบเชิงลบ (-1) ของบุคคลหนึ่ง จะลบล้างความเห็นชอบ (+1) ของอีกบุคคลหนึ่งทันที	ใช้ สัดส่วน (Proportion) มุ่งหาปริมาณการเกาะกลุ่มของคะแนนระดับสูง โดยคะแนนต่ำไม่หักล้างคะแนนสูงทางคณิตศาสตร์
4. เกณฑ์การยอมรับขั้นต่ำ (Acceptance Criteria)	เป็นเกณฑ์แบบตายตัวแบบหลวมๆ (Static threshold) ที่ > 0.50 (หรือปรับเป็น 0.75 หากต้องการความเข้มงวด)	เป็นเกณฑ์พลวัตตามสถิติ: 1.00 สำหรับผู้เชี่ยวชาญ 3-5 คน และ 0.78 สำหรับผู้เชี่ยวชาญ 6-10 คน
5. บทบาทของการวิเคราะห์เชิงลึกขั้นสูง	ขยายผลสู่ทฤษฎีมาตรวัดพหุมิติ (Multidimensional items) สำหรับเครื่องมือวัดทรรศนะซับซ้อน	ขยายผลสู่การปรับแก้ความตกลงบังเอิญด้วย Modified Kappa Statistic

จากตารางเปรียบเทียบ จะเห็นได้อย่างเด่นชัดว่า CVI ครอบครองความเข้มงวดที่เหนือกว่าในการบังคับให้ผู้เชี่ยวชาญตัดสินใจ และให้ภาพสะท้อนทั้งสเปกตรัมของเครื่องมือ ในขณะที่ IOC เป็นเครื่องมือที่เรียบง่ายแต่ทรงพลังในการประเมินทิศทางของข้อสอบทางการศึกษาที่ผูกมัดกับตัวชี้วัดหลักสูตรอย่างตายตัว

ภูมิทัศน์ของการประยุกต์ใช้ในบริบทงานวิจัยจริง

ทฤษฎีทางมาตรวิทยาย่อมไร้ความหมายหากปราศจากการลงรากสู่การปฏิบัติจริงในภาคสนามวิจัย การศึกษาตัวอย่างการประยุกต์ใช้ดัชนี IOC และ CVI ในบริบทสาขาวิชาที่แตกต่างกัน จะช่วยเปิดมุมมองและชี้แนะกลยุทธ์การเลือกใช้เครื่องมือได้อย่างชาญฉลาด

มิติที่ 1: การขับเคลื่อน CVI ในงานวิจัยทางการพยาบาลและการปรับบริบทข้ามวัฒนธรรม

สาขาวิทยาศาสตร์สุขภาพและการพยาบาล ถือเป็นมาตุภูมิที่ผลักดันให้ CVI เติบโตจนถึงขีดสุด โครงสร้างการวิจัยในสายนี้มักเกี่ยวข้องกับตัวแปรที่จับต้องได้ยากและมีความอ่อนไหวสูง ตัวอย่างเช่น การพัฒนาแบบสอบถามปัจจัยที่มีผลต่อการเรียนรู้ทางคลินิก (Clinical Learning) ของนักศึกษาพยาบาล ¹⁷ หรือการสร้างเครื่องมือ Cotter Preceptor Selection Instrument ที่ใช้คัดกรองคุณลักษณะของพยาบาลพี่เลี้ยง ซึ่งตัวแปรอย่าง “ความสามารถในการสอน” หรือ “ความเป็นผู้นำ” มีความเป็นนามธรรมสูงมาก ¹⁸ การนำ CVI มาใช้บังคับให้ผู้เชี่ยวชาญให้คะแนน 4 ระดับ ช่วยให้ผู้วิจัยสกัดเฉพาะพฤติกรรมบ่งชี้ที่มีความเกี่ยวข้องอย่างถึงแก่นออกมาได้

อีกหนึ่งบทบาทที่โดดเด่นของ CVI คือการตรวจสอบความตรงเชิงเนื้อหาในการแปลเครื่องมือข้ามวัฒนธรรม (Cross-cultural adaptation) งานวิจัยชิ้นหนึ่งได้แปลแบบประเมินผู้ป่วยมะเร็งศีรษะและลำคอ (ePVA) จากภาษาอังกฤษเป็นภาษาสเปน ¹⁹ ผู้วิจัยได้นำระเบียบวิธี CVI มาประยุกต์ใช้เพื่อตรวจสอบถึง 2 มิติพร้อมกัน คือ “ความเกี่ยวข้องเชิงวัฒนธรรม” (Cultural relevance) และ “ความเทียบเท่าของงานแปล” (Translation equivalence) ผลการประเมินพบว่า S-CVI ในมิติวัฒนธรรมสูงถึง 0.95 และมิติการแปลเท่ากับ 0.84 อย่างไรก็ตาม กระบวนการ CVI ยังทำหน้าที่เป็นตะแกรงร่อนชั้นเยี่ยม โดยตรวจพบข้อคำถาม 9 ข้อที่มีค่า I-CVI ต่ำกว่า 0.59 ซึ่งนำไปสู่กระบวนการสัมภาษณ์เจาะลึก (Cognitive interviews) กับกลุ่มตัวอย่างชาวสเปนเพื่อปรับแก้ภาษาให้สอดคล้องกับวิถีชีวิตจริง ¹⁹ การผสาน CVI เข้ากับการวิจัยเชิงคุณภาพเช่นนี้ คือสุดยอดของการออกแบบระเบียบวิธีวิจัยแบบผสมผสาน (Mixed-methods instrument development)

มิติที่ 2: บทบาทของ IOC ในกระบวนทัศน์การศึกษาไทย

ในภูมิทัศน์ของงานวิจัยทางการศึกษา โดยเฉพาะในประเทศไทย IOC ได้ฝังรากลึกในฐานะมาตรฐานภาคบังคับ (Mandatory requirement) สำหรับการทำวิทยานิพนธ์ระดับบัณฑิตศึกษา (Thesis methodology) และการพัฒนาแบบทดสอบของรัฐ ⁹

สถาบันทดสอบทางการศึกษาแห่งชาติ (สทศ.) ของไทย ในกระบวนการพัฒนาข้อสอบ O-NET (Ordinary National Educational Test) ได้กำหนดมาตรฐานการกลั่นกรองข้อสอบโดยอาศัยดัชนี IOC อย่างเคร่งครัด ⁵ เนื่องจากข้อสอบระดับชาติทุกข้อต้องสะท้อนมาตรฐานการเรียนรู้และตัวชี้วัด (Standard and Indicators) ของกระทรวงศึกษาธิการอย่างเฉพาะเจาะจง การใช้มาตรวัด 3 ระดับของ IOC จึงตอบสนองกระบวนการทำงานของผู้เชี่ยวชาญ (Subject matter experts) ที่ทำหน้าที่ตรวจสอบว่า “ข้อสอบข้อนี้ ตีความตรงกับตัวชี้วัดข้อที่ 1.1 ใช่ (+1) หรือ ไม่ใช่ (-1)” ได้อย่างทรงประสิทธิภาพ

นอกจากนี้ ในงานวิจัยที่ซับซ้อนขึ้นอย่างการพัฒนาแบบประเมินความสามารถด้านการอ่าน (Reading Ability) ในต่างประเทศ ผู้วิจัยได้ประยุกต์ใช้ Multidimensional IOC กับข้อคำถาม 41 ข้อ เพื่อประเมินความสอดคล้องกับกระบวนการทางปัญญา 8 ด้าน ผลการวิเคราะห์ IOC ได้จำแนกข้อสอบออกเป็นสองกลุ่มอย่างชัดเจน คือกลุ่มที่ชี้วัดทักษะเดียวอย่างบริสุทธิ์ (Unidimensional congruence) และกลุ่มที่ผสมผสานหลายทักษะ (Multidimensional combinations) ซึ่งข้อมูลนี้นำไปสู่การปรับปรุงแบบทดสอบให้มีความแม่นยำทางจิตวิทยาการรู้คิดมากยิ่งขึ้น ¹⁰

ข้อพึงระวังเชิงระเบียบวิธีและมาตรฐานการรายงานผล (Methodological Caveats and Reporting Standards)

การนำพาดัชนีเหล่านี้ไปสู่การตีพิมพ์ในวารสารวิชาการระดับนานาชาติ หรือการป้องกันวิทยานิพนธ์ให้ผ่านการรับรอง เรียกร้องความโปร่งใสและมาตรฐานการรายงานที่ไร้รอยตะเข็บ ผู้วิจัยพึงระวังหลุมพรางทางระเบียบวิธีและยึดถือแนวทางปฏิบัติดังต่อไปนี้

1. ความเหนื่อยล้าของผู้ประเมินและอคติในการตอบ (Rater Fatigue and Bias)

ดัชนี CVI และ IOC จะทำงานได้อย่างเที่ยงตรงก็ต่อเมื่อคณะผู้เชี่ยวชาญให้คะแนนด้วยความตั้งใจจริง ปัญหาคลาสสิกที่พบในงานวิจัยคือ การส่งเครื่องมือที่มีความยาวมากกว่า 100 ข้อไปให้ผู้เชี่ยวชาญประเมิน ²³ ภาระทางปัญญา (Cognitive load) ที่สูงเกินไปย่อมก่อให้เกิดอาการเหนื่อยล้า นำไปสู่ปรากฏการณ์ “การลากเส้นตรง” (Straight-lining) หรือการให้คะแนน 4 รวดทุกข้อเพื่อความรวดเร็ว เมื่อคะแนนเหล่านี้เข้าสู่สมการ CVI จะส่งผลให้ค่า S-CVI สูงเกินจริงและหลอกลวง (Overestimation of validity) ผู้วิจัยต้องตระหนักว่าคุณภาพของสถิติ ย่อมผูกพันกับคุณภาพของกระบวนการเก็บข้อมูลเสมอ

2. การบูรณาการกับ Lawshe’s CVR และความตรงเชิงโครงสร้าง

ค่าความตรงเชิงเนื้อหาเป็นเพียงปฐมบทของความน่าเชื่อถือเท่านั้น มาตรฐานขั้นสูงแนะนำให้ผู้วิจัยรายงานดัชนีเหล่านี้ควบคู่กับสถิติอื่นๆ เช่น Content Validity Ratio (CVR) ของ Lawshe ⁴ ในขณะที่ CVI วัดความเกี่ยวข้อง CVR จะช่วยยืนยันระดับความ “จำเป็นอย่างขาดไม่ได้” (Essentiality) ของข้อคำถาม ยิ่งไปกว่านั้น แม้แบบสอบถามจะได้ค่า S-CVI สูงถึง 0.95 ก็ไม่ได้การันตีว่าเมื่อนำไปเก็บข้อมูลจริงแล้วจะมีความตรงเชิงโครงสร้าง (Construct Validity) ผู้วิจัยยังคงต้องนำข้อมูลที่เก็บได้ไปสกัดปัจจัยผ่านการวิเคราะห์องค์ประกอบเชิงสำรวจ (EFA) หรือเชิงยืนยัน (CFA) ต่อไป ดังที่ปรากฏในงานวิจัยการสร้างเครื่องมือปัจจัยการเรียนรู้ทางคลินิก ที่ยังคงต้องรายงานตารางน้ำหนักองค์ประกอบ (Factor Loadings) ควบคู่กับดัชนีเนื้อหา ¹⁷

3. มาตรฐานความโปร่งใสในการรายงานตารางสถิติ

เพื่อให้รอดพ้นจากการวิพากษ์วิจารณ์ของคณะกรรมการประเมินบทความ (Peer-reviewers) การจัดทำรายงานต้องปฏิบัติตามกฎเหล็กดังนี้

ห้ามรายงาน IOC เป็นค่าเฉลี่ยของทั้งเครื่องมือเด็ดขาด: การนำค่า IOC ของทุกข้อมาบวกกันแล้วหารเป็นค่า IOC ภาพรวม ถือเป็นการละเมิดปรัชญาพื้นฐานของ Rovinelli และ Hambleton อย่างร้ายแรง ⁴ ผู้วิจัยต้องรายงานค่า IOC เป็น “พิสัย” (Range) เช่น “ข้อคำถามที่ได้รับการคัดเลือกมีค่าดัชนีความสอดคล้อง (IOC) อยู่ระหว่าง 0.60 ถึง 1.00” พร้อมแนบตารางแสดงคะแนนแจกแจงรายข้อในภาคผนวก ⁴
ระบุกลไกการคำนวณ S-CVI เสมอ: หลีกเลี่ยงการเขียนลอยๆ ว่า “เครื่องมือมีค่า CVI = 0.85” ผู้วิจัยต้องชี้แจงอย่างชัดเจนว่าค่านั้นคือ I-CVI เฉลี่ย หรือ S-CVI แบบใด การเขียนรายงานที่สมบูรณ์แบบควรมีลักษณะเช่น “คณะผู้เชี่ยวชาญ 6 ท่านประเมินความตรงเชิงเนื้อหา พบว่าข้อคำถามมีค่า I-CVI ระหว่าง 0.83-1.00 และเมื่อวิเคราะห์ภาพรวมด้วยวิธี Averaging Method พบว่าเครื่องมือมีค่า S-CVI/Ave เท่ากับ 0.90 ซึ่งสูงกว่าเกณฑ์มาตรฐานระดับสากล พร้อมทั้งค่า Modified Kappa เฉลี่ยที่ 0.88 แสดงให้เห็นถึงความยอดเยี่ยมของเนื้อหา” ³

บทสรุปแห่งกระบวนทัศน์การประเมิน

การสถาปนาคุณภาพของเครื่องมือวิจัยผ่านการประเมินความตรงเชิงเนื้อหา ถือเป็นงานศิลปะที่ขับเคลื่อนด้วยกลไกทางวิทยาศาสตร์ ท่ามกลางความเป็นอัตวิสัยของมนุษย์ ดัชนี IOC และ CVI ได้ทำหน้าที่เป็นปราการด่านแรกที่กลั่นกรองและแปรสภาพวิจารณญาณเชิงคุณภาพให้เป็นประจักษ์พยานเชิงปริมาณที่น่าเชื่อถือ

หากกรอบการวิจัยมุ่งเน้นไปที่การประเมินผลสัมฤทธิ์ทางการศึกษา การสร้างชุดฝึกอบรม หรือการพัฒนาตัวชี้วัดที่ต้องอิงกับจุดประสงค์การเรียนรู้อย่างแนบแน่น ดัชนี IOC คือกระบวนทัศน์ที่เหมาะสมที่สุด ด้วยโครงสร้างที่รองรับความคลุมเครือและชี้เป้าความสอดคล้องระดับรายข้อได้อย่างคมคาย ในทางตรงกันข้าม หากงานวิจัยนั้นลึกล้ำไปในพรมแดนของจิตวิทยา การพยาบาล หรือการประเมินพฤติกรรมองค์กร ที่ต้องการตรวจวัดระดับความเกี่ยวข้องและครอบคลุมความเป็นตัวแทนของภาพรวมเครื่องมืออย่างรอบด้าน ดัชนี CVI ที่มาพร้อมกับการวิเคราะห์ I-CVI, S-CVI/Ave และ Modified Kappa ย่อมเป็นอาวุธทางระเบียบวิธีวิจัยที่ทรงอานุภาพและได้รับการเชิดชูสูงสุดในเวทีวิชาการระดับสากล การบูรณาการความเข้าใจอย่างถ่องแท้ในรากฐานทางปรัชญา คณิตศาสตร์เบื้องหลัง และศิลปะการรายงานผลของทั้งสองดัชนี จึงเป็นคุณลักษณะอันล้ำค่าที่สะท้อนให้เห็นถึงความเป็นเลิศและความซื่อสัตย์ต่อวิชาชีพของนักวิจัยอย่างแท้จริง

Works cited

Definition and Procedure of Content Validation in Psychological Research – TPM Vol, accessed April 9, 2026, https://www.tpmap.org/wp-content/uploads/2023/03/30.1.1.pdf
Nursing Practice Today, accessed April 9, 2026, https://applications.emro.who.int/imemrf/Nurs_Pract_Today/Nurs_Pract_Today_2014_1_3_163_171.pdf
The content validity index: Are you sure you know what’s being …, accessed April 9, 2026, https://faculty.ksu.edu.sa/sites/default/files/the_content_validity_index_are_you_sure_1.pdf
An In-depth Examination of Validity Assessment: Exploring Diverse …, accessed April 9, 2026, https://ageconsearch.umn.edu/record/367756/files/Ansari41102023AJAEES107022.pdf
an investigation of content validity in the o-net (english subject) for the upper secondary level – TU e-Thesis (Thammasat University), accessed April 9, 2026, http://ethesisarchive.library.tu.ac.th/thesis/2016/TU_2016_5606040110_7218_5083.pdf
SUGI 27: Computing Indices of Item Congruence for Test Development Validity Assessments – SAS Support, accessed April 9, 2026, https://support.sas.com/resources/papers/proceedings/proceedings/sugi27/p255-27.pdf
ความหมายที่แท้จริงของค่า IOC The Real Meaning of IOC – ThaiJO, accessed April 9, 2026, https://so02.tci-thaijo.org/index.php/jemmsu/article/download/174521/124950/492992
Adjusted Index of Item-0bjective Congruence Values and the Associated | Download Table, accessed April 9, 2026, https://www.researchgate.net/figure/Adjusted-Index-of-Item-0bjective-Congruence-Values-and-the-Associated_tbl2_247502723
บทที่ 3 ระเบียบวิธีการวิจัย, accessed April 9, 2026, http://cmruir.cmru.ac.th/bitstream/123456789/1320/6/Chapter%203.pdf
Item Objective Congruence Analysis for Multidimensional Items Content Validation of a Reading Test in Sri Lankan University – ERIC, accessed April 9, 2026, https://files.eric.ed.gov/fulltext/EJ1329361.pdf
(PDF) Indexes of Item-Objective Congruence for Multidimensional Items – ResearchGate, accessed April 9, 2026, https://www.researchgate.net/publication/247502723_Indexes_of_Item-Objective_Congruence_for_Multidimensional_Items
Is the CVI an acceptable indicator of content validity? Appraisal and recommendations – PubMed, accessed April 9, 2026, https://pubmed.ncbi.nlm.nih.gov/17654487/
Using Microsoft Excel to Calculate Content Validity Index (CVI) and Content Validity Ratio (CVR): A Practical Approach – Salisbury University, accessed April 9, 2026, https://www.salisbury.edu/academic-offices/education/_files/Calculating-CVR.pdf
ABC of Content Validation and Content Validity Index Calculation – Education in Medicine Journal, accessed April 9, 2026, https://eduimed.usm.my/EIMJ20191102/EIMJ20191102_06.pdf
The content validity index: are you sure you know what’s being reported? Critique and recommendations – PubMed, accessed April 9, 2026, https://pubmed.ncbi.nlm.nih.gov/16977646/
Is the CVI an acceptable indicator of content validity? Appraisal and recommendations, accessed April 9, 2026, https://www.academia.edu/33458003/Is_the_CVI_an_acceptable_indicator_of_content_validity_Appraisal_and_recommendations
Developing an instrument to measure effective factors on Clinical …, accessed April 9, 2026, https://pmc.ncbi.nlm.nih.gov/articles/PMC4927254/
Instrument Development and Testing for Selection of Nursing Preceptors – CEConnection, accessed April 9, 2026, https://nursing.ceconnection.com/ovidfiles/01709760-201807000-00004.pdf
Using content validity index methodology for cross-cultural translation of a patient-reported outcome measure for head and neck cancer – Frontiers, accessed April 9, 2026, https://www.frontiersin.org/journals/health-services/articles/10.3389/frhs.2025.1582127/full
Sample of instrument translation and content validity index rating template – ResearchGate, accessed April 9, 2026, https://www.researchgate.net/figure/Sample-of-instrument-translation-and-content-validity-index-rating-template_tbl1_49780513
การหาค่าความเที่ยงตรงของแบบสอบถาม (IOC), accessed April 9, 2026, https://www.mcu.ac.th/article/detail/14329
ระดับบัณฑิตศึกษา มหาวิทยาลัยเทคโนโลยีสุรนารี (Factors Effecting Graduation Periods of Graduate Students, Suranaree University of Technology), accessed April 9, 2026, http://sutgateway.sut.ac.th/ces/km/research/1.pdf
Developing and validating an integrated instrument for nursing assessments in adult hospitalization units: Study protocol – PMC, accessed April 9, 2026, https://pmc.ncbi.nlm.nih.gov/articles/PMC10170918/
(PDF) Application of Item Objective Congruence Index (IOC-Index) for Proper Alignment of 2020 Physics WASSCE Items with Objectives and Content – ResearchGate, accessed April 9, 2026, https://www.researchgate.net/publication/383948597_Application_of_Item_Objective_Congruence_Index_IOC-Index_for_Proper_Alignment_of_2020_Physics_WASSCE_Items_with_Objectives_and_Content

Post Views: 18

Comments

comments

การประเมินความตรงเชิงเนื้อหาด้วยดัชนี CVI และ IOC ในระเบียบวิธีวิจัยทางสังคมศาสตร์และวิทยาศาสตร์สุขภาพ

การประเมินความตรงเชิงเนื้อหาด้วยดัชนี CVI และ IOC ในระเบียบวิธีวิจัยทางสังคมศาสตร์และวิทยาศาสตร์สุขภาพ

บทนำสู่รากฐานทางมาตรวิทยาและการประเมินความตรงเชิงเนื้อหา

ดัชนีความสอดคล้องของข้อคำถามกับวัตถุประสงค์ (Index of Item-Objective Congruence: IOC)

โครงสร้างมาตรวัดและกลไกเชิงจิตวิทยาของ IOC

กระบวนการทางคณิตศาสตร์และการคำนวณดัชนี IOC

ตรรกะเบื้องหลังเกณฑ์การยอมรับขั้นต่ำที่ 0.50

นวัตกรรมขั้นสูง: ดัชนี IOC สำหรับเครื่องมือพหุมิติ (Multidimensional IOC)

ดัชนีความตรงตามเนื้อหา (Content Validity Index: CVI)

จิตวิทยาของมาตรวัดแบบ 4 ระดับ (The 4-Point Forced-Choice Scale)

การสกัดคุณค่าเชิงปริมาณ: ระดับรายข้อ (I-CVI) และภาพรวมทั้งฉบับ (S-CVI)

1. ดัชนีความตรงเชิงเนื้อหาระดับรายข้อ (Item-Level CVI: I-CVI)

2. ดัชนีความตรงเชิงเนื้อหาระดับภาพรวมมาตรวัด (Scale-Level CVI: S-CVI)

ตารางสาธิตและบทวิเคราะห์การคำนวณ CVI เชิงลึก

การยกระดับความน่าเชื่อถือ: การปรับแก้ความตกลงบังเอิญด้วย Modified Kappa Statistic

การวิเคราะห์เปรียบเทียบเชิงโครงสร้าง: IOC ปะทะ CVI

ตารางที่ 1: การเปรียบเทียบคุณลักษณะทางระเบียบวิธีระหว่าง IOC และ CVI

ภูมิทัศน์ของการประยุกต์ใช้ในบริบทงานวิจัยจริง

มิติที่ 1: การขับเคลื่อน CVI ในงานวิจัยทางการพยาบาลและการปรับบริบทข้ามวัฒนธรรม

มิติที่ 2: บทบาทของ IOC ในกระบวนทัศน์การศึกษาไทย

ข้อพึงระวังเชิงระเบียบวิธีและมาตรฐานการรายงานผล (Methodological Caveats and Reporting Standards)

1. ความเหนื่อยล้าของผู้ประเมินและอคติในการตอบ (Rater Fatigue and Bias)

2. การบูรณาการกับ Lawshe’s CVR และความตรงเชิงโครงสร้าง

3. มาตรฐานความโปร่งใสในการรายงานตารางสถิติ

บทสรุปแห่งกระบวนทัศน์การประเมิน

Works cited

Related

Comments

Leave a Reply

การประเมินความตรงเชิงเนื้อหาด้วยดัชนี CVI และ IOC ในระเบียบวิธีวิจัยทางสังคมศาสตร์และวิทยาศาสตร์สุขภาพ

บทนำสู่รากฐานทางมาตรวิทยาและการประเมินความตรงเชิงเนื้อหา

ดัชนีความสอดคล้องของข้อคำถามกับวัตถุประสงค์ (Index of Item-Objective Congruence: IOC)

โครงสร้างมาตรวัดและกลไกเชิงจิตวิทยาของ IOC

กระบวนการทางคณิตศาสตร์และการคำนวณดัชนี IOC

ตรรกะเบื้องหลังเกณฑ์การยอมรับขั้นต่ำที่ 0.50

นวัตกรรมขั้นสูง: ดัชนี IOC สำหรับเครื่องมือพหุมิติ (Multidimensional IOC)

ดัชนีความตรงตามเนื้อหา (Content Validity Index: CVI)

จิตวิทยาของมาตรวัดแบบ 4 ระดับ (The 4-Point Forced-Choice Scale)

การสกัดคุณค่าเชิงปริมาณ: ระดับรายข้อ (I-CVI) และภาพรวมทั้งฉบับ (S-CVI)

1. ดัชนีความตรงเชิงเนื้อหาระดับรายข้อ (Item-Level CVI: I-CVI)

2. ดัชนีความตรงเชิงเนื้อหาระดับภาพรวมมาตรวัด (Scale-Level CVI: S-CVI)

ตารางสาธิตและบทวิเคราะห์การคำนวณ CVI เชิงลึก

การยกระดับความน่าเชื่อถือ: การปรับแก้ความตกลงบังเอิญด้วย Modified Kappa Statistic

การวิเคราะห์เปรียบเทียบเชิงโครงสร้าง: IOC ปะทะ CVI

ตารางที่ 1: การเปรียบเทียบคุณลักษณะทางระเบียบวิธีระหว่าง IOC และ CVI

ภูมิทัศน์ของการประยุกต์ใช้ในบริบทงานวิจัยจริง

มิติที่ 1: การขับเคลื่อน CVI ในงานวิจัยทางการพยาบาลและการปรับบริบทข้ามวัฒนธรรม

มิติที่ 2: บทบาทของ IOC ในกระบวนทัศน์การศึกษาไทย

ข้อพึงระวังเชิงระเบียบวิธีและมาตรฐานการรายงานผล (Methodological Caveats and Reporting Standards)

1. ความเหนื่อยล้าของผู้ประเมินและอคติในการตอบ (Rater Fatigue and Bias)

2. การบูรณาการกับ Lawshe’s CVR และความตรงเชิงโครงสร้าง

3. มาตรฐานความโปร่งใสในการรายงานตารางสถิติ

บทสรุปแห่งกระบวนทัศน์การประเมิน

Works cited

Related

Comments

You May Also Like

แนวทางการวิเคราะห์และสังเคราะห์การออกแบบสื่อการสอนด้วย ADDIE Model สำหรับ OBEC Content Center

12 แบบจำลองการตัดสินใจที่จำเป็นสำหรับงานวิจัยและการนิเทศการศึกษา

เอกสารประกอบการบรรยายภาคปฏิบัติ: การออกแบบบทเรียนดิจิทัลเชิงบูรณาการด้วย TPACK & SAMR Model

Leave a Reply