Grok 4 vs GPT-5 — ตัวไหนค้นคว้าวิจัยได้ดีกว่ากัน

Grok 4 vs GPT-5 — ตัวไหนค้นคว้าวิจัยได้ดีกว่ากัน

ภาษาอื่น / Other language: English · ไทย

วันนี้พอดีมี GPT-5 มาให้ลอง ก็เลยต้องมาทดสอบความสามารถมัน
เนื่องจากปกติเรามักจะให้มันค้นโน่นนี่ รวบรวมข้อมูล แล้วสรุปรายงานออกมา การเปรียบเทียบนี้จะเน้นเรื่องนี้ค่ะ

วิธีการทดสอบ

ผู้ร่วมทดสอบ: Vanilla Grok 4 vs Vanilla GPT-5
ผู้ประเมิน: GPT-5, Grok 4, Gemini, Claude, DeepSeek
สิ่งที่ให้ประเมิน: Research 1 (Grok 4) & Research 2 (GPT-5)

ขั้นตอน

  1. แจกงานเหมือนกัน ใช้ prompt เดียวกัน และ custom instruction เหมือนกัน
    (งานคือค้นอินเทอร์เน็ตแล้วสรุปตลาดน้ำมัน)
  2. ให้ LLM ทั้ง 5 ตัวเป็นผู้ประเมินว่าอันไหนดีกว่ากัน
  3. ให้ GPT-5 สรุปผลให้ (สรุปเต็มอยู่ในภาพประกอบ)

💡 จากที่ได้ลองใช้มาหลายชั่วโมง — ทั้งคู่ใช้เวลาคิดนานกว่ารุ่นเก่าค่ะ
แต่ GPT-5 ทำได้ดีกว่า Grok 4 แบบมติเอกฉันท์

แบบนี้ เดือนหน้าเราคงไม่ได้ต่อ Supergrok แล้วค่ะ


📊 รายงานสรุปผลการ Peer Review: Grok-4 (Research 1) vs GPT-5 (Research 2)

By GPT-5

✅ จุดที่ทุกฝ่ายเห็นตรงกัน

  • Research 2 เหนือกว่าในด้านการอ้างอิงแหล่งข้อมูลชัดเจน พร้อมจัดระดับความน่าเชื่อถือ
  • Research 2 มีข้อมูลละเอียดและทันสมัยกว่า เช่น ตัวเลขรายเดือนปี 2024 และแนวโน้ม H1-2025
  • Research 2 ใช้โครงสร้างการเปรียบเทียบสิงคโปร์/ฮ่องกงที่สมมาตรและเทียบได้ง่าย
  • Research 2 พร้อมใช้งานเชิงปฏิบัติ เช่น Benchmark, Supplier list, Appendix
  • Research 1 เด่นเรื่องการตรวจสอบอคติและความโปร่งใส ด้วย Confidence tier และ Reflective pause
  • Research 1 กระชับและคมกว่าในภาษานำเสนอ

📊 การประเมินเชิงคะแนน

  • Research 2: ได้คะแนนสูงสุดในด้านการอ้างอิง, ความละเอียด/ความใหม่ของข้อมูล, โครงสร้างการเปรียบเทียบ, และความพร้อมใช้งาน
  • Research 1: ได้คะแนนสูงในด้านความโปร่งใสทางระเบียบวิธีและการควบคุมอคติ

คะแนนรวมถ่วงน้ำหนัก:

  • Research 2 ≈ 4.65/5
  • Research 1 ≈ 3.50/5

แม้เพิ่มน้ำหนักให้มิติ “Bias Control” — Research 2 ก็ยังคงนำอยู่


🏆 ข้อสรุป

  • ผู้ชนะ: Research 2 (GPT-5) — ละเอียดกว่า, ข้อมูลใหม่กว่า, ตรวจสอบย้อนกลับง่าย, พร้อมใช้งานเชิงปฏิบัติ
  • Research 1 (Grok 4) เหมาะเมื่อเน้นความโปร่งใสและความกระชับ แต่เสียเปรียบด้านความใหม่และปริมาณตัวเลขล่าสุด


โพสต์นี้รีบทำเพราะเป็นวันเปิดตัว อยากทดสอบและเก็บผลไว้ว่า “วันแรก” เป็นอย่างไร จึงอาจมีข้อจำกัดเรื่องปริมาณและความครอบคลุมของข้อมูล ให้คิดเสียว่าเป็นสแนปช็อตเชิงประวัติศาสตร์สำหรับอ้างอิงในอนาคตค่ะ

First Published: 8 Aug 2025

ภาษาอื่น / Other language: English · ไทย