Skip to main content
AI & Technology

OSWorld — Benchmark ที่พิสูจน์ว่า AI ยังใช้คอมพิวเตอร์ได้แค่ไหน (และทำไมมันสำคัญกับทุกองค์กร)

OSWorld คือ Benchmark แรกที่ทดสอบ AI Agent บนคอมพิวเตอร์จริง ไม่ใช่แค่ตอบคำถาม — ผลลัพธ์เผยว่า AI ที่ดีที่สุดทำได้ราว 60% ขณะที่มนุษย์ทำได้ 72% และช่องว่างนี้กำลังปิดลงเร็วกว่าที่คิด

13 Mar 20268 minOSWorld
AI BenchmarkOSWorldComputer UseMultimodal AIAI AgentAgentic AI

AI ยังใช้คอมพิวเตอร์ไม่เก่งอย่างที่คิด — แต่กำลังดีขึ้นเร็วมาก

ถ้าคุณเคยดู Demo ของ AI ที่เปิดเบราว์เซอร์ กรอกฟอร์ม ย้ายไฟล์ หรือแก้ไขเอกสารได้ด้วยตัวเอง คุณอาจคิดว่า AI ใกล้จะทำงานบนคอมพิวเตอร์ได้เหมือนมนุษย์แล้ว

แต่จะรู้ได้อย่างไรว่า AI "เก่งจริง" หรือแค่ "ดูเก่ง" ใน Demo ที่จัดฉากมา?

คำตอบอยู่ที่ Benchmark — และ Benchmark ที่น่าเชื่อถือที่สุดสำหรับการทดสอบ AI บนคอมพิวเตอร์จริงคือ OSWorld ซึ่งได้รับการตีพิมพ์ในงาน NeurIPS 2024 และกลายเป็นมาตรฐานที่ทั้งอุตสาหกรรม AI ใช้วัดผลกันอยู่ในปัจจุบัน


OSWorld คืออะไร?

OSWorld (Open-ended tasks in real computer environments) เป็น Benchmark ที่ออกแบบมาเพื่อทดสอบ AI Agent บน คอมพิวเตอร์จริง — ไม่ใช่สภาพแวดล้อมจำลอง ไม่ใช่แค่ตอบคำถาม Choice หรือเขียนโค้ดในกล่องทดสอบ แต่ต้อง ลงมือทำงานจริง บนหน้าจอคอมพิวเตอร์เหมือนที่มนุษย์ทำ

OSWorld Task Demonstration — ตัวอย่างงานที่ AI ต้องทำจริงบนคอมพิวเตอร์

ทำไมถึงต่างจาก Benchmark อื่น?

Benchmark ส่วนใหญ่ทดสอบ AI แบบ "ถาม-ตอบ" — ให้โจทย์แล้วดูว่า AI ตอบถูกหรือไม่ แต่ OSWorld ทดสอบแบบ "ลงมือทำ" — ให้เป้าหมาย แล้ว AI ต้อง:

  • มองเห็นหน้าจอ (Screenshot หรือ Accessibility Tree)
  • คิดว่าต้องทำอะไร เพื่อบรรลุเป้าหมาย
  • ควบคุมเมาส์และคีย์บอร์ด เพื่อดำเนินการ
  • ตรวจสอบผลลัพธ์ ว่าสำเร็จหรือไม่ แล้วปรับแผนถ้าจำเป็น

ทั้งหมดนี้เกิดขึ้นบนระบบปฏิบัติการจริง — Ubuntu, Windows และ macOS


Benchmark ที่ครอบคลุมแค่ไหน?

OSWorld ประกอบด้วย 369 งาน ที่ครอบคลุม 4 ประเภทหลัก:

OSWorld Statistics — ภาพรวมข้อมูลและการกระจายของงานทดสอบ

  • Web Application — ค้นหาข้อมูล กรอกฟอร์ม จัดการอีเมล
  • Desktop Application — แก้ไขเอกสาร สร้าง Spreadsheet ปรับแต่งรูปภาพ
  • OS File I/O — จัดการไฟล์ ย้ายโฟลเดอร์ เปลี่ยนการตั้งค่าระบบ
  • Cross-Application Workflow — งานที่ต้องใช้หลายแอปร่วมกัน เช่น ดึงข้อมูลจากเว็บมาใส่ใน Spreadsheet แล้วสร้างกราฟ

OSWorld Task Distribution — สัดส่วนประเภทงานและ Domain ที่ทดสอบ

แต่ละงานมี สคริปต์ตั้งค่าเริ่มต้น (ทำให้ทุกการทดสอบเริ่มจากจุดเดียวกัน) และ สคริปต์ประเมินผลแบบ Execution-based (ไม่ได้แค่ดูว่าคลิกถูกตำแหน่ง แต่ตรวจสอบว่าผลลัพธ์สุดท้ายถูกต้องจริงหรือไม่)


ผลลัพธ์ที่น่าตกใจ — และพัฒนาการที่น่าจับตา

จุดเริ่มต้น (2024): AI ทำได้แค่ 12%

เมื่อ OSWorld เปิดตัวในปี 2024 ผลลัพธ์ทำให้ทั้งวงการตื่นตัว — AI ที่ดีที่สุดทำสำเร็จเพียง 12.24% ของงานทั้งหมด ขณะที่มนุษย์ทำได้ 72.36%

ช่องว่าง 60 จุดนี้บอกให้รู้ว่า แม้ AI จะเก่งเรื่องตอบคำถามและเขียนโค้ด แต่การ "ใช้คอมพิวเตอร์" จริงๆ ยังห่างไกลจากมนุษย์มาก

ปัจจุบัน (2026): ช่องว่างกำลังปิดลง

สองปีผ่านไป ภาพเปลี่ยนไปอย่างมาก บน OSWorld-Verified (เวอร์ชันปรับปรุงที่แก้ไขปัญหาและเพิ่มความน่าเชื่อถือ):

อันดับ ระบบ คะแนน
1 CoACT-1 60.76%
2 Agent S2.5 (w/ o3) 56.0%
3 UiPath Screen Agent (Claude Opus 4.5) 53.6%
4 GTA1 (w/ o3) 53.1%
5 Claude Sonnet 4.5 43.9%
6 UI-TARS 40.0%
มนุษย์ ~72%

จาก 12% เป็น 60% ในเวลาสองปี — พัฒนาขึ้นเกือบ 5 เท่า


สิ่งที่ OSWorld เปิดเผยเกี่ยวกับจุดอ่อนของ AI

OSWorld Environment — โครงสร้างระบบทดสอบบน OS จริง

การวิเคราะห์ผลลัพธ์อย่างละเอียดเผยให้เห็นจุดอ่อนสำคัญหลายประการ:

GUI Grounding ยังเป็นปัญหา

AI ยังมีปัญหาในการ "เข้าใจ" สิ่งที่เห็นบนหน้าจอ — ปุ่มไหนคือปุ่มไหน เมนูอยู่ตรงไหน ต้องคลิกที่จุดไหนบนหน้าจอ โดยเฉพาะเมื่อ UI มีความซับซ้อนสูง

ความรู้เชิงปฏิบัติยังขาด

AI อาจ "รู้" ว่า LibreOffice Calc ทำอะไรได้ แต่ไม่รู้ว่า ต้องกดปุ่มอะไร ตรงไหน ในลำดับใด เพื่อทำสิ่งนั้น ความรู้ทางทฤษฎีกับทักษะปฏิบัติยังห่างกัน

ไม่ทนต่อการเปลี่ยนแปลง UI

OSWorld Disturbance Effect — ผลกระทบเมื่อ UI เปลี่ยนแปลง

เมื่อ Layout ของหน้าจอเปลี่ยนไปเล็กน้อย (เช่น ปุ่มย้ายตำแหน่ง หน้าต่างเปลี่ยนขนาด) ประสิทธิภาพของ AI ลดลงอย่างมีนัยสำคัญ ขณะที่มนุษย์ปรับตัวได้โดยแทบไม่รู้สึก

Resolution มีผล

OSWorld Resolution Effect — ความละเอียดหน้าจอส่งผลต่อประสิทธิภาพ

ยิ่งความละเอียดของ Screenshot สูงขึ้น AI ยิ่งทำงานได้ดีขึ้น ซึ่งบ่งบอกว่า AI ยังต้องพึ่งพา "การมองเห็น" อย่างมาก และการบีบอัดภาพที่ส่งไปให้ AI มีผลกระทบโดยตรง


Agentic Framework เหนือกว่า Foundation Model เปล่าๆ

สิ่งที่น่าสนใจที่สุดจาก Leaderboard ล่าสุดคือ — ระบบที่อยู่อันดับต้นๆ ไม่ใช่ AI Model ตัวเดี่ยว แต่เป็น Framework ที่ประสานหลายส่วนเข้าด้วยกัน

CoACT-1 ที่ได้อันดับ 1 ใช้ Reasoning Model ร่วมกับ Agentic Framework ที่วางแผน ลงมือทำ และตรวจสอบผลลัพธ์เป็นวงจร ส่วน Agent S2.5 ใช้ Experience-augmented Hierarchical Planning — เรียนรู้จากประสบการณ์การทำงานที่ผ่านมาเพื่อวางแผนการทำงานครั้งถัดไป

สิ่งนี้ยืนยันว่า การ "ใช้คอมพิวเตอร์" ไม่ใช่แค่เรื่องของ AI Model ที่ฉลาดขึ้น แต่ต้องการ "ระบบ" ที่ครบวงจร — วางแผน ลงมือทำ เรียนรู้ ปรับตัว


นัยสำคัญสำหรับองค์กร

Automation กำลังจะเปลี่ยนระดับ

เมื่อ AI สามารถ "ใช้คอมพิวเตอร์" ได้ดีขึ้น งานที่เคยต้องใช้คนนั่งหน้าจอจะเริ่มถูกทำโดย AI Agent มากขึ้น ไม่ใช่แค่งานที่มี API ให้เชื่อมต่อ แต่รวมถึงงานที่ต้อง คลิก พิมพ์ ลากวาง บนแอปพลิเคชันที่ไม่ได้ออกแบบมาให้ AI ใช้

UiPath ที่ได้อันดับ 3 คือตัวอย่างที่ชัดเจน — บริษัท RPA ยักษ์ใหญ่ที่เคยพึ่งพา Rule-based Automation กำลังเปลี่ยนผ่านมาใช้ AI เป็นแกนหลัก

เลือก AI ด้วยข้อมูล ไม่ใช่การตลาด

OSWorld ให้เครื่องมือที่องค์กรสามารถใช้ เปรียบเทียบ AI Model อย่างเป็นกลาง แทนที่จะเชื่อ Demo จากผู้ขาย ลองดูคะแนน OSWorld ของ Model ที่กำลังพิจารณา — มันจะบอกคุณได้ชัดเจนกว่าว่า AI ตัวนั้นทำงาน "บนคอมพิวเตอร์จริง" ได้แค่ไหน

ยังมี Headroom อีกมาก

แม้จะพัฒนาขึ้นมาก แต่ช่องว่างระหว่าง 60% กับ 72% ของมนุษย์ยังมีอยู่ และ 72% ของมนุษย์ก็ไม่ใช่ 100% — หลายงานที่ยากแม้แต่คนยังทำไม่สำเร็จ สิ่งนี้บอกว่า AI ยังไม่พร้อมทำงานทดแทนมนุษย์ 100% แต่พร้อมทำงาน "ช่วย" มนุษย์ได้เป็นอย่างดี


มองไปข้างหน้า

อัตราการพัฒนาจาก 12% เป็น 60% ในสองปี บอกให้รู้ว่า AI ที่ใช้คอมพิวเตอร์ได้เทียบเท่ามนุษย์ ไม่ใช่เรื่องของ "ถ้า" แต่เป็นเรื่องของ "เมื่อไหร่"

องค์กรที่เริ่มทำความเข้าใจข้อจำกัดและศักยภาพของ AI Agent ตั้งแต่วันนี้ จะมีข้อได้เปรียบอย่างชัดเจนเมื่อเทคโนโลยีพร้อม — เพราะไม่ใช่แค่เรื่องของ Model แต่เป็นเรื่องของ Workflow, Data, และ Process ที่ต้องเตรียมพร้อมรับ Agent ที่ "ทำงานแทน" ได้จริง


แหล่งข้อมูล

Related Articles

คู่มือ AI Integration สำหรับองค์กรไทย: จากกลยุทธ์สู่การปฏิบัติจริง

เรียนรู้ขั้นตอนสำคัญของ AI Integration สำหรับองค์กรไทย ตั้งแต่การประเมินความพร้อม วางรากฐานข้อมูล ไปจนถึงการขยายผลและวัดผลลัพธ์ทางธุรกิจ

Agent Discovery — เมื่อ AI Agent มีเป็นพันตัว องค์กรจะค้นหาตัวที่ใช่ได้ยังไง?

ปี 2026 องค์กรไม่ได้ขาด AI Agent แต่ขาดวิธีค้นหาและเลือก Agent ที่เหมาะสม — Agent Discovery กำลังเป็น Infrastructure สำคัญที่จะตัดสินว่าใครใช้ AI ได้เต็มศักยภาพ

Cloudflare D1 — Database ที่ไม่ต้องมี Server แต่รันได้ทั่วโลก และเกิดมาเพื่อยุค AI

Cloudflare D1 คือ managed SQLite บน edge ที่อ่านข้อมูลได้ใน 0.5ms จาก 300+ locations ทั่วโลก ราคาเริ่มต้น $0 — และกำลังกลายเป็นตัวเลือกหลักสำหรับ AI application ยุคใหม่ที่ต้องการ speed, simplicity และ scale

"Empowering Innovation,
Transforming Futures."

Contact us to make your project a reality.