GPT-5 แก้ปัญหา Hallucination ได้แค่ไหน?

GPT-5 แก้ปัญหา Hallucination ได้แค่ไหน?

ภาษาอื่น / Other language: English · ไทย

เนื่องจาก GPT-5 โฆษณาว่า Hallucinations ลดลงมาก … เรื่องนี้ต้องพิสูจน์ค่ะ

ถ้าจะถามข้อมูลที่เป็น fact (ไม่ได้แกล้งถาม fanfic) โดยที่เอาแบบ prompt เดียวแล้วเห็นกันเลยว่ามั่วไหม เราคิดว่าการให้ต่อ quote หรือบอกว่าอันนี้ของใคร สามารถดึงความมั่วได้ง่ายติดอันดับเลยค่ะ


มาดูกันค่ะ ว่า GPT-5 จะทำได้ดีกว่า GPT-4 และผองเพื่อนในการต่อ Quotes หรือไม่

ส่วนตัวเราคิดว่า 2 quotes นี้ก็น่าจะเป็นที่รู้จักดีระดับหนึ่งถ้าเรียนวรรณกรรมอังกฤษมานะคะ แค่ google ดูก็เจอเยอะแยะค่ะ

เนื่องจากแอพไอแพดเรายังเป็น GPT4o ส่วนในซาฟารีเป็น GPT-5 เลยลองให้หมดเลยค่ะ
ผู้ร่วมทดสอบ: GPT-5, GPT-4, Grok4, Grok 3, Claude Sonnet 4, Gemini 2.5 Flash, DeepSeek


🔹 Test 1: Continue this quote

Continue this quote: I count examinations, even for Oxford and Cambridge, as the enemy of education….
  • GPT-5 ✅, GPT-4 ❌
  • Grok 4 ✅, Grok 3 ❌
  • Claude Sonnet 4: บอกว่าไม่รู้ จะให้ search ไหม ➡️ หลังจาก search ตอบถูกค่ะ ✅
  • Gemini ❌, DeepSeek ❌
    (รูป 1–7)

คำตอบคือ:

"I count examinations, even for Oxford and Cambridge, as the enemy of education.
Which is not to say that I don’t regard education as the enemy of education, too."

Source: The History Boys by Alan Bennett

📌 สรุป: เรือธงที่ออกใหม่รอดทั้งคู่ค่ะ ผ่าน ✅✅


🔹 Test 2: Finish this quote

Finish this quote: I took a deep breath and listened to the old brag….
By whom?
  • GPT-5 ❌, GPT-4 ✅ (ใช่ค่ะ ดูไม่ผิดหรอกค่ะ เดิมเคยตอบถูกค่ะ แต่ตอนนี้ตอบผิด และมันมั่นใจมากด้วยค่ะ)
  • Grok 4 ✅, Grok 3 ✅
  • Claude Sonnet 4 ❌
  • Gemini ✅, DeepSeek ✅
    (รูป 8–14)

คำตอบคือ:

"I took a deep breath and listened to the old brag of my heart: I am, I am, I am."

Author: Sylvia Plath
Source: The Bell Jar (1963)


🔹 สรุปผล

GPT-5 แก้ได้บางอย่างค่ะ เรียกว่าทำได้ดีขึ้นอย่างน่าตกใจ เพราะแต่ก่อน Quote จากโจทย์แรก (Hector จาก The History Boys) เราเคยเทสมาก่อน ผิดหมดทุกตัว ไม่มีรอด… แต่วันนี้มันตอบถูกแล้วค่ะ ✅

ภาษาอื่น / Other language: English · ไทย