arthit's blog

งบประมาณแผ่นดิน 2544-2554 ในรูปแบบ machine-readable

บล็อก "วารสารศาสตร์ข้อมูล" DataJournalism.in.th โพสต์ชวนโพสต์ทำ visualization วาดภาพข้อมูลงบประมาณรายจ่ายประจำปีของประเทศไทย และให้ลิงก์ไปที่ PDF ของพ.ร.บ.งบประมาณรายจ่ายประจำปีงบประมาณ ซึ่งถ้าใครได้ลองก็จะพบว่า มันเป็นข้อมูลที่อยู่ในรูปแบบที่เอาไปใช้ต่อได้ยาก ส่วนหนึ่งเพราะ:

  1. อยู่ในรูปแบบ PDF ซึ่งเอาไปประมวลผลต่อได้ยาก จำเป็นต้องคัดลอกออกมาหรือแปลงให้อยู่ในรูปแบบข้อความหรือแฟ้มแบบสเปรดชีตเสียก่อน
  2. แฟ้ม PDF บางอัน เช่น อันนี้ (งบ พ.ศ. 2550) เป็นรูปภาพ (สแกนมา) ไม่ใช่ข้อความ ไม่สามารถคัดลอกข้อความมาใช้ได้
  3. แฟ้ม PDF บางอัน เช่น อันนี้ (งบ พ.ศ. 2545) แม้จะดูเป็นแบบข้อความ แต่เมื่อลองคัดลอกไปวางที่โปรแกรมอื่น จะพบว่ากลายเป็นข้อความที่อ่านไม่ได้หรือผิดเพี้ยนไป ตัวอย่างเช่น งบเบี้ยหวัด บำเหน็จ บำนาญ ที่ข้อความแสดงให้เห็นเป็น "๔๕,๐๐๐,๐๐๐,๐๐๐" เมื่อคัดลอกออกมา (copy & paste) จะกลายเป็น "Ùı,,," ซึ่งไม่มีความหมาย ใช้งานต่อไม่ได้
  4. ในกรณีที่ดีที่สุด คือสามารถคัดลอกมาเป็นข้อความได้ไม่ผิดเพี้ยน แต่เนื่องจากเอกสารราชการไทย ใช้เลขไทย ซึ่งบางโปรแกรมอาจจะไม่รองรับ (คือพิมพ์ลงไปได้ แต่โปรแกรมไม่รับรู้ว่ามันเป็นตัวเลข/จำนวน ทำให้บวกลบคำนวณไม่ได้) -- ทั้งนี้เท่าที่ทดสอบ โปรแกรมสเปรดชีตของ Google Docs ไม่รองรับเลขไทย, ส่วน OpenOffice.org/LibreOffice นั้นสามารถใส่เลขไทยลงไปได้ แล้วโปรแกรมจะแปลงให้เป็นจำนวนอัตโนมัติ

5 เครื่องมือสำหรับสำรวจขุดค้นและแสดงภาพข้อมูล

เว็บไซต์ข่าวเทคโนโลยีเว็บ ReadWriteWeb รีวิวเครื่องมือ 5 ชิ้นสำหรับช่วยงานวารสารศาสตร์ข้อมูล ที่ Paul Bradshaw ผู้เชี่ยวชาญด้านวารสารศาสตร์ข้อมูลเคยแนะนำในบล็อก Online Journalism Blog ของเขา

ก่อนหน้านี้ ReadWriteWeb ได้รายงานถึงคำแนะนำของเดอะการ์เดียนในการเป็นนักข่าวที่ทำงานวารสารศาสตร์ข้อมูล เครื่องมือเหล่านี้เป็นเครื่องมือที่จะช่วยให้นักข่าว สามารถทำความเข้าใจกับข้อมูลข่าวสารต่าง ๆ จำนวนมากมาย และเล่าเรื่องที่เกี่ยวข้องกับชีวิตผู้คน ที่ผู้อ่านสามารถเข้าใจได้โดยง่าย

Factual

Factual จัดเตรียม API ง่าย ๆ สำหรับการสร้างแอพพลิเคชั่นบนเว็บและอุปกรณ์เคลื่อนที่ เช่น เราสามารถเรียกข้อมูลภูมิศาสตร์ของพื้นที่ในท้องถิ่นใกล้เคียงได้ โดยชุดข้อมูลที่ Factual มีนั้นรวมถึงข้อมูลธุรกิจในพื้นที่และจุดที่คนสนใจ (สวนสาธารณะ, สนามบิน, โรงหนัง, สถานที่ท่องเที่ยว ฯลฯ) และช่องข้อมูลนั้นมี: ชื่อ, ที่อยู่, หมายเลขโทรศัพท์, ชนิดของสถานที่, พิกัดภูมิศาสตร์ ฯลฯ

ไกลก้อง ไวทยการ: "Open Data จะทำให้ประเทศเราวิ่งได้เร็วขึ้นอีกมาก"

สัมภาษณ์ ไกลก้อง ไวทยการ (@klaikong) ผู้จัดการทั่วไป สถาบัน ChangeFusion ภายใต้มูลนิธิบูรณะชนบทแห่งประเทศไทย เรื่องความเคลื่อนไหว “ข้อมูลภาครัฐแบบเปิด” หรือ “ข้อมูลสาธารณะแบบเปิด” (Open Government Data หรือ Open Public Data) กับความจำเป็นของสังคมไทยที่ภาครัฐจะต้องเปิดเผยข้อมูลให้สาธารณะเข้าถึงได้ เพื่อให้ทุกภาคส่วนสามารถร่วมพัฒนาประเทศไปพร้อม ๆ กัน ด้วยการตัดสินใจบนข้อมูลที่รอบด้าน ในสถานการณ์โลกที่เปลี่ยนแปลงไปอย่างรวดเร็ว

(สัมภาษณ์โดย อาทิตย์ สุริยะวงศ์กุล (@bact) ระหว่างเวิร์กช็อป “Open Data Hackathon” ที่ บริษัท โอเพ่นดรีม จำกัด กรุงเทพ 4 ธ.ค. 2553; ภาพประกอบโดย @bact, @kengggg, และ @klaikong ตามสัญญาอนุญาตครีเอทีฟคอมมอนส์ คลิกที่ภาพเพื่อดูสัญญา)

Klaikong and Data visualization

อาทิตย์: วันนี้นักพัฒนาซอฟต์แวร์เขามาทำอะไรกัน ที่งาน Open Data Hackathon นี้ ?

ไกลก้อง: วันนี้มาเจอกลุ่มคนที่อยากเห็นข้อมูลของภาครัฐ ถูกนำไปใช้ประโยชน์หลายๆ ด้้านด้วยกัน และอยากเห็นว่าทำไม ประเทศนี้เนี่ย เวลาจะทำอะไรแล้วข้อมูลมันหายากมาก ๆ

งาน Open Data Hackathon นี้ จัดพร้อมกันทั่วโลก 4 ธันวาคม หลัก ๆ ในวันนี้ ก็มาดูกันว่า ข้อมูลภาครัฐ โดยเฉพาะประเทศไทย มันมีข้อมูลอะไรเปิดเผยออกมาบ้าง และมันจะเอามาทำของเจ๋ง ๆ ทำให้เห็นชุดข้อมูล ทำให้เห็นว่า เช่น สถานการณ์โรคระบาด ข้อมูลราคากลางเกษตรจะทำประโยชน์กับคนทั่วไปได้บ้าง ถ้าจะทำข้อมูลสำหรับตรวจสอบนักการเมือง จะทำไงได้บ้าง

ซึ่งข้อมูลหลาย ๆ อย่างเอง ก็มีเปิดเผยอยู่ในอินเทอร์เน็ตแล้ว แต่เราก็พบว่า มันไม่ง่ายนักที่จะดึงข้อมูลเหล่านั้นมาใช้ประโยชน์ต่อได้ เช่น การมาเขียนเป็นแอพพลิเคชั่น การเอามานำเสนอเป็นข้อมูลที่เข้าใจง่าย เป็นภาพ เป็นกราฟ เป็นอะไรที่เอาไปใช้ตัดสินใจได้ทันที

อาทิตย์: ที่บอกว่าไม่ง่าย มันไม่ง่ายยังไง อะไรคืออุปสรรค ?

ไกลก้อง: อย่างแรกก็คือ เรื่องมาตรฐานข้อมูลเนี่ย ประเทศเราทำไม่ได้จริงซะที คุยกันมานานแล้ว ว่าจะต้องมีระบบมาตรฐาน จะต้องมี standard อะไรต่าง ๆ XML ฯลฯ แต่ถึงทุกวันนี้ เท่าที่เห็น ร้อยละ 80 ข้อมูลก็ยังอยู่ในรูปแบบ PDF ซึ่งอันนี้มันสะท้อนเรื่องวิธีคิดว่า ข้อมูลนี้ก็ยังเป็นข้อมูลของหน่วยงานนั้นอยู่ ถ้าอยากได้ข้อมูลดิบ (raw data) เพื่อจะเอาไปใช้ก็ต้องขออนุญาตก่อน เพราะ PDF มันเอาไปใช้ทำอะไรต่อไม่ได้ ไฟล์ PDF มันสะท้อนความเป็นเจ้าเข้าเจ้าของของข้อมูลอยู่

อาทิตย์: อะไรคือปัญหาของ PDF ไฟล์ PDF มันก็เป็นมาตรฐานเอกสารไม่ใช่หรือ อันนี้ก็เป็นมาตรฐาน ทำไมถึงเป็นปัญหา ?