บล็อก “วารสารศาสตร์ข้อมูล” DataJournalism.in.th โพสต์ชวนโพสต์ทำ visualization วาดภาพข้อมูลงบประมาณรายจ่ายประจำปีของประเทศไทย และให้ลิงก์ไปที่ PDF ของพ.ร.บ.งบประมาณรายจ่ายประจำปีงบประมาณ ซึ่งถ้าใครได้ลองก็จะพบว่า มันเป็นข้อมูลที่อยู่ในรูปแบบที่เอาไปใช้ต่อได้ยาก ส่วนหนึ่งเพราะ:

  1. อยู่ในรูปแบบ PDF ซึ่งเอาไปประมวลผลต่อได้ยาก จำเป็นต้องคัดลอกออกมาหรือแปลงให้อยู่ในรูปแบบข้อความหรือแฟ้มแบบสเปรดชีตเสียก่อน
  2. แฟ้ม PDF บางอัน เช่น อันนี้ (งบ พ.ศ. 2550) เป็นรูปภาพ (สแกนมา) ไม่ใช่ข้อความ ไม่สามารถคัดลอกข้อความมาใช้ได้
  3. แฟ้ม PDF บางอัน เช่น อันนี้ (งบ พ.ศ. 2545) แม้จะดูเป็นแบบข้อความ แต่เมื่อลองคัดลอกไปวางที่โปรแกรมอื่น จะพบว่ากลายเป็นข้อความที่อ่านไม่ได้หรือผิดเพี้ยนไป ตัวอย่างเช่น งบเบี้ยหวัด บำเหน็จ บำนาญ ที่ข้อความแสดงให้เห็นเป็น “๔๕,๐๐๐,๐๐๐,๐๐๐” เมื่อคัดลอกออกมา (copy & paste) จะกลายเป็น “Ùı,,,” ซึ่งไม่มีความหมาย ใช้งานต่อไม่ได้
  4. ในกรณีที่ดีที่สุด คือสามารถคัดลอกมาเป็นข้อความได้ไม่ผิดเพี้ยน แต่เนื่องจากเอกสารราชการไทย ใช้เลขไทย ซึ่งบางโปรแกรมอาจจะไม่รองรับ (คือพิมพ์ลงไปได้ แต่โปรแกรมไม่รับรู้ว่ามันเป็นตัวเลข/จำนวน ทำให้บวกลบคำนวณไม่ได้) — ทั้งนี้เท่าที่ทดสอบ โปรแกรมสเปรดชีตของ Google Docs ไม่รองรับเลขไทย, ส่วน OpenOffice.org/LibreOffice นั้นสามารถใส่เลขไทยลงไปได้ แล้วโปรแกรมจะแปลงให้เป็นจำนวนอัตโนมัติ

ต่าง ๆ เหล่านี้ ทำให้นึกถึงประโยคที่เกริ่นนำเอาไว้ในหน้า “อะไรคือวารสารศาสตร์ข้อมูล” ของบล็อก DataJournalism.in.th ที่ว่า:

กฎหมายกำหนดให้ข้อมูลจำนวนมากถูกเผยแพร่ต่อสาธารณะ แต่น้อยคนนักที่จะใช้ประโยชน์จากมันได้ เพราะมันไม่อยู่ในสภาพที่เข้าใจง่ายหรือเอาไปใช้ต่อได้สะดวก

การเป็น “แฟ้มอิเล็กทรอนิกส์” ไม่ได้หมายความโดยอัตโนมัติว่า มันจะ “อ่านได้ด้วยเครื่อง” (machine readable) ซึ่งเป็นคุณสมบัติสำคัญของข้อมูลที่จะถูกประมวลผลด้วยเครื่องคอมพิวเตอร์ได้

เพื่อความสะดวกสำหรับคนที่อยากจะลองวาดภาพสนุก ๆ จากข้อมูลงบประมาณเหล่านี้ เราก็เลยจัดการ “แปลง” (แปลว่าอ่าน PDF แล้วนั่งจิ้มตัวเลขทีละตัวลง Google Docs, ใช้เวลาประมาณ 50 นาทีต่อ 1 ปีงบประมาณ) ข้อมูลบางส่วนของงบประมาณปี พ.ศ. 2544-2554 มาเป็นรูปแบบสเปรดชีต (ตารางคำนวณ) จะได้ไม่ต้องเสียเวลาวุ่นวายแปลงกันอีก 🙂

ดาวน์โหลดสเปรดชีต “งบประมาณรายจ่ายประจำปีงบประมาณ 2544-2554” :
รูปแบบ OpenDocument spreadsheet (.ods) | รูปแบบ Excel (.xls) (ทั้งสองรูปแบบเอาไปแปลงเป็น CSV ต่อได้)

ตัวอย่างบางส่วน (ดูทั้งหมดในแบบ HTML):

ที่มาข้อมูล: เว็บไซต์ สำนักงบประมาณ สำนักนายกรัฐมนตรี

หมายเหตุ:

  • ปีในชุดข้อมูลนี้ เป็นปีงบประมาณ ไม่ใช่ปีตามปฏิทินปกติ
  • ตัวเลขอาจจะเทียบข้ามปีตรง ๆ ไม่ได้ เพราะมีทั้งหน่วยงานเกิดใหม่ ถูกยุบรวม หรือย้ายกระทรวงสังกัด แต่ก็พอจะเห็นภาพกว้าง ๆ
  • ตั้งแต่ปีงบประมาณ 2552 งบส่วนของ “รัฐสภา” และ “ศาล” แยกออกมาเป็นหมวดต่างหาก ก่อนหน้านี้บางส่วนอยู่ใน “ส่วนราชการไม่สังกัดสำนักนายกรัฐมนตรี กระทรวง หรือทบวง”
  • งบ “จังหวัด” เพิ่มมาในปีงบประมาณ 2552 และเปลี่ยนเป็น “จังหวัดและกลุ่มจังหวัด” ในปีงบประมาณ 2553
  • งบ “สภากาชาดไทย” เพิ่มมาในปีงบประมาณ 2551
  • วิธีการคิดยอดรวม ตั้งแต่ปีงบประมาณ 2552 การคิดงบประมาณรายจ่ายรวมทั้งหมด จะรวมรายจ่าย “ชดใช้เงินคงคลัง” ด้วย — ก่อนปี 2552 จะไม่รวมรายจ่าย “ชดใช้เงินคงคลัง”
  • รายละเอียดงบประมาณ ที่แจกแจงในหมวดย่อย ไม่ได้รวมอยู่ในสเปรดชีตนี้

ประกาศ: ฐานข้อมูลเปิดภาครัฐ data.pm.go.th เปิดตัวแล้ว ไปเล่นและติชมกันได้