AI & Technology

OSWorld — Benchmark ที่พิสูจน์ว่า AI ยังใช้คอมพิวเตอร์ได้แค่ไหน (และทำไมมันสำคัญกับทุกองค์กร)

OSWorld คือ Benchmark แรกที่ทดสอบ AI Agent บนคอมพิวเตอร์จริง ไม่ใช่แค่ตอบคำถาม — ผลลัพธ์เผยว่า AI ที่ดีที่สุดทำได้ราว 60% ขณะที่มนุษย์ทำได้ 72% และช่องว่างนี้กำลังปิดลงเร็วกว่าที่คิด

13 Mar 20268 minOSWorld

AI BenchmarkOSWorldComputer UseMultimodal AIAI AgentAgentic AI

AI ยังใช้คอมพิวเตอร์ไม่เก่งอย่างที่คิด — แต่กำลังดีขึ้นเร็วมาก

ถ้าคุณเคยดู Demo ของ AI ที่เปิดเบราว์เซอร์ กรอกฟอร์ม ย้ายไฟล์ หรือแก้ไขเอกสารได้ด้วยตัวเอง คุณอาจคิดว่า AI ใกล้จะทำงานบนคอมพิวเตอร์ได้เหมือนมนุษย์แล้ว

แต่จะรู้ได้อย่างไรว่า AI "เก่งจริง" หรือแค่ "ดูเก่ง" ใน Demo ที่จัดฉากมา?

คำตอบอยู่ที่ Benchmark — และ Benchmark ที่น่าเชื่อถือที่สุดสำหรับการทดสอบ AI บนคอมพิวเตอร์จริงคือ OSWorld ซึ่งได้รับการตีพิมพ์ในงาน NeurIPS 2024 และกลายเป็นมาตรฐานที่ทั้งอุตสาหกรรม AI ใช้วัดผลกันอยู่ในปัจจุบัน

OSWorld คืออะไร?

OSWorld (Open-ended tasks in real computer environments) เป็น Benchmark ที่ออกแบบมาเพื่อทดสอบ AI Agent บน คอมพิวเตอร์จริง — ไม่ใช่สภาพแวดล้อมจำลอง ไม่ใช่แค่ตอบคำถาม Choice หรือเขียนโค้ดในกล่องทดสอบ แต่ต้อง ลงมือทำงานจริง บนหน้าจอคอมพิวเตอร์เหมือนที่มนุษย์ทำ

OSWorld Task Demonstration — ตัวอย่างงานที่ AI ต้องทำจริงบนคอมพิวเตอร์

ทำไมถึงต่างจาก Benchmark อื่น?

Benchmark ส่วนใหญ่ทดสอบ AI แบบ "ถาม-ตอบ" — ให้โจทย์แล้วดูว่า AI ตอบถูกหรือไม่ แต่ OSWorld ทดสอบแบบ "ลงมือทำ" — ให้เป้าหมาย แล้ว AI ต้อง:

มองเห็นหน้าจอ (Screenshot หรือ Accessibility Tree)
คิดว่าต้องทำอะไร เพื่อบรรลุเป้าหมาย
ควบคุมเมาส์และคีย์บอร์ด เพื่อดำเนินการ
ตรวจสอบผลลัพธ์ ว่าสำเร็จหรือไม่ แล้วปรับแผนถ้าจำเป็น

ทั้งหมดนี้เกิดขึ้นบนระบบปฏิบัติการจริง — Ubuntu, Windows และ macOS

Benchmark ที่ครอบคลุมแค่ไหน?

OSWorld ประกอบด้วย 369 งาน ที่ครอบคลุม 4 ประเภทหลัก:

OSWorld Statistics — ภาพรวมข้อมูลและการกระจายของงานทดสอบ

Web Application — ค้นหาข้อมูล กรอกฟอร์ม จัดการอีเมล
Desktop Application — แก้ไขเอกสาร สร้าง Spreadsheet ปรับแต่งรูปภาพ
OS File I/O — จัดการไฟล์ ย้ายโฟลเดอร์ เปลี่ยนการตั้งค่าระบบ
Cross-Application Workflow — งานที่ต้องใช้หลายแอปร่วมกัน เช่น ดึงข้อมูลจากเว็บมาใส่ใน Spreadsheet แล้วสร้างกราฟ

OSWorld Task Distribution — สัดส่วนประเภทงานและ Domain ที่ทดสอบ

แต่ละงานมี สคริปต์ตั้งค่าเริ่มต้น (ทำให้ทุกการทดสอบเริ่มจากจุดเดียวกัน) และ สคริปต์ประเมินผลแบบ Execution-based (ไม่ได้แค่ดูว่าคลิกถูกตำแหน่ง แต่ตรวจสอบว่าผลลัพธ์สุดท้ายถูกต้องจริงหรือไม่)

ผลลัพธ์ที่น่าตกใจ — และพัฒนาการที่น่าจับตา

จุดเริ่มต้น (2024): AI ทำได้แค่ 12%

เมื่อ OSWorld เปิดตัวในปี 2024 ผลลัพธ์ทำให้ทั้งวงการตื่นตัว — AI ที่ดีที่สุดทำสำเร็จเพียง 12.24% ของงานทั้งหมด ขณะที่มนุษย์ทำได้ 72.36%

ช่องว่าง 60 จุดนี้บอกให้รู้ว่า แม้ AI จะเก่งเรื่องตอบคำถามและเขียนโค้ด แต่การ "ใช้คอมพิวเตอร์" จริงๆ ยังห่างไกลจากมนุษย์มาก

ปัจจุบัน (2026): ช่องว่างกำลังปิดลง

สองปีผ่านไป ภาพเปลี่ยนไปอย่างมาก บน OSWorld-Verified (เวอร์ชันปรับปรุงที่แก้ไขปัญหาและเพิ่มความน่าเชื่อถือ):

อันดับ	ระบบ	คะแนน
1	CoACT-1	60.76%
2	Agent S2.5 (w/ o3)	56.0%
3	UiPath Screen Agent (Claude Opus 4.5)	53.6%
4	GTA1 (w/ o3)	53.1%
5	Claude Sonnet 4.5	43.9%
6	UI-TARS	40.0%
—	มนุษย์	~72%

จาก 12% เป็น 60% ในเวลาสองปี — พัฒนาขึ้นเกือบ 5 เท่า

สิ่งที่ OSWorld เปิดเผยเกี่ยวกับจุดอ่อนของ AI

OSWorld Environment — โครงสร้างระบบทดสอบบน OS จริง

การวิเคราะห์ผลลัพธ์อย่างละเอียดเผยให้เห็นจุดอ่อนสำคัญหลายประการ:

GUI Grounding ยังเป็นปัญหา

AI ยังมีปัญหาในการ "เข้าใจ" สิ่งที่เห็นบนหน้าจอ — ปุ่มไหนคือปุ่มไหน เมนูอยู่ตรงไหน ต้องคลิกที่จุดไหนบนหน้าจอ โดยเฉพาะเมื่อ UI มีความซับซ้อนสูง

ความรู้เชิงปฏิบัติยังขาด

AI อาจ "รู้" ว่า LibreOffice Calc ทำอะไรได้ แต่ไม่รู้ว่า ต้องกดปุ่มอะไร ตรงไหน ในลำดับใด เพื่อทำสิ่งนั้น ความรู้ทางทฤษฎีกับทักษะปฏิบัติยังห่างกัน

ไม่ทนต่อการเปลี่ยนแปลง UI

OSWorld Disturbance Effect — ผลกระทบเมื่อ UI เปลี่ยนแปลง

เมื่อ Layout ของหน้าจอเปลี่ยนไปเล็กน้อย (เช่น ปุ่มย้ายตำแหน่ง หน้าต่างเปลี่ยนขนาด) ประสิทธิภาพของ AI ลดลงอย่างมีนัยสำคัญ ขณะที่มนุษย์ปรับตัวได้โดยแทบไม่รู้สึก

Resolution มีผล

OSWorld Resolution Effect — ความละเอียดหน้าจอส่งผลต่อประสิทธิภาพ

ยิ่งความละเอียดของ Screenshot สูงขึ้น AI ยิ่งทำงานได้ดีขึ้น ซึ่งบ่งบอกว่า AI ยังต้องพึ่งพา "การมองเห็น" อย่างมาก และการบีบอัดภาพที่ส่งไปให้ AI มีผลกระทบโดยตรง

Agentic Framework เหนือกว่า Foundation Model เปล่าๆ

สิ่งที่น่าสนใจที่สุดจาก Leaderboard ล่าสุดคือ — ระบบที่อยู่อันดับต้นๆ ไม่ใช่ AI Model ตัวเดี่ยว แต่เป็น Framework ที่ประสานหลายส่วนเข้าด้วยกัน

CoACT-1 ที่ได้อันดับ 1 ใช้ Reasoning Model ร่วมกับ Agentic Framework ที่วางแผน ลงมือทำ และตรวจสอบผลลัพธ์เป็นวงจร ส่วน Agent S2.5 ใช้ Experience-augmented Hierarchical Planning — เรียนรู้จากประสบการณ์การทำงานที่ผ่านมาเพื่อวางแผนการทำงานครั้งถัดไป

สิ่งนี้ยืนยันว่า การ "ใช้คอมพิวเตอร์" ไม่ใช่แค่เรื่องของ AI Model ที่ฉลาดขึ้น แต่ต้องการ "ระบบ" ที่ครบวงจร — วางแผน ลงมือทำ เรียนรู้ ปรับตัว

นัยสำคัญสำหรับองค์กร

Automation กำลังจะเปลี่ยนระดับ

เมื่อ AI สามารถ "ใช้คอมพิวเตอร์" ได้ดีขึ้น งานที่เคยต้องใช้คนนั่งหน้าจอจะเริ่มถูกทำโดย AI Agent มากขึ้น ไม่ใช่แค่งานที่มี API ให้เชื่อมต่อ แต่รวมถึงงานที่ต้อง คลิก พิมพ์ ลากวาง บนแอปพลิเคชันที่ไม่ได้ออกแบบมาให้ AI ใช้

UiPath ที่ได้อันดับ 3 คือตัวอย่างที่ชัดเจน — บริษัท RPA ยักษ์ใหญ่ที่เคยพึ่งพา Rule-based Automation กำลังเปลี่ยนผ่านมาใช้ AI เป็นแกนหลัก

เลือก AI ด้วยข้อมูล ไม่ใช่การตลาด

OSWorld ให้เครื่องมือที่องค์กรสามารถใช้ เปรียบเทียบ AI Model อย่างเป็นกลาง แทนที่จะเชื่อ Demo จากผู้ขาย ลองดูคะแนน OSWorld ของ Model ที่กำลังพิจารณา — มันจะบอกคุณได้ชัดเจนกว่าว่า AI ตัวนั้นทำงาน "บนคอมพิวเตอร์จริง" ได้แค่ไหน

ยังมี Headroom อีกมาก

แม้จะพัฒนาขึ้นมาก แต่ช่องว่างระหว่าง 60% กับ 72% ของมนุษย์ยังมีอยู่ และ 72% ของมนุษย์ก็ไม่ใช่ 100% — หลายงานที่ยากแม้แต่คนยังทำไม่สำเร็จ สิ่งนี้บอกว่า AI ยังไม่พร้อมทำงานทดแทนมนุษย์ 100% แต่พร้อมทำงาน "ช่วย" มนุษย์ได้เป็นอย่างดี

มองไปข้างหน้า

อัตราการพัฒนาจาก 12% เป็น 60% ในสองปี บอกให้รู้ว่า AI ที่ใช้คอมพิวเตอร์ได้เทียบเท่ามนุษย์ ไม่ใช่เรื่องของ "ถ้า" แต่เป็นเรื่องของ "เมื่อไหร่"

องค์กรที่เริ่มทำความเข้าใจข้อจำกัดและศักยภาพของ AI Agent ตั้งแต่วันนี้ จะมีข้อได้เปรียบอย่างชัดเจนเมื่อเทคโนโลยีพร้อม — เพราะไม่ใช่แค่เรื่องของ Model แต่เป็นเรื่องของ Workflow, Data, และ Process ที่ต้องเตรียมพร้อมรับ Agent ที่ "ทำงานแทน" ได้จริง

แหล่งข้อมูล

ลิงก์ที่เกี่ยวข้อง

Genesis AI Platform

แพลตฟอร์ม Agentic AI สำหรับองค์กร

AI Readiness Assessment

ประเมินความพร้อม AI ขององค์กรฟรี

ติดต่อปรึกษา AI Strategy

พูดคุยกับผู้เชี่ยวชาญ

Back to Insights

AEO + SEO — The Survival Guide for When AI Swallows Google Search

Gartner predicts search volume will drop 25% by 2026 and 50% by 2028 — while zero-click search has surged to 65%. Websites that fail to adapt will disappear from customers’ view. This article is a complete guide for Thai businesses.

AEO vs GEO — A Deep Dive into the Two Strategies That Determine Whether AI Will "See" or "Skip" Your Website

Web mentions correlate with AI citations 3x more strongly than backlinks, AI referral traffic grew 527% YoY, and websites with schema are 2.5x more likely to be cited by AI — a complete AEO vs GEO guide with audit steps and website optimization tips.

Agentic AI in the Enterprise — From 5% to 40% by 2026: Opportunities and Risks Every Executive Should Know

The Agentic AI market is growing from $1B to more than $9B in just two years. Gartner predicts that 40% of enterprise applications will include AI agents by the end of 2026, but more than 40% of projects may also be canceled. Here is a practical look at the opportunities, risks, and strategies for Thai enterprises.

"Empowering Innovation,
Transforming Futures."

ติดต่อเราเพื่อทำให้โปรเจกต์ของคุณเป็นจริง