บล็อก "วารสารศาสตร์ข้อมูล" DataJournalism.in.th โพสต์ชวนโพสต์ทำ visualization วาดภาพข้อมูลงบประมาณรายจ่ายประจำปีของประเทศไทย และให้ลิงก์ไปที่ PDF ของพ.ร.บ.งบประมาณรายจ่ายประจำปีงบประมาณ ซึ่งถ้าใครได้ลองก็จะพบว่า มันเป็นข้อมูลที่อยู่ในรูปแบบที่เอาไปใช้ต่อได้ยาก ส่วนหนึ่งเพราะ:
- อยู่ในรูปแบบ PDF ซึ่งเอาไปประมวลผลต่อได้ยาก จำเป็นต้องคัดลอกออกมาหรือแปลงให้อยู่ในรูปแบบข้อความหรือแฟ้มแบบสเปรดชีตเสียก่อน
- แฟ้ม PDF บางอัน เช่น อันนี้ (งบ พ.ศ. 2550) เป็นรูปภาพ (สแกนมา) ไม่ใช่ข้อความ ไม่สามารถคัดลอกข้อความมาใช้ได้
- แฟ้ม PDF บางอัน เช่น อันนี้ (งบ พ.ศ. 2545) แม้จะดูเป็นแบบข้อความ แต่เมื่อลองคัดลอกไปวางที่โปรแกรมอื่น จะพบว่ากลายเป็นข้อความที่อ่านไม่ได้หรือผิดเพี้ยนไป ตัวอย่างเช่น งบเบี้ยหวัด บำเหน็จ บำนาญ ที่ข้อความแสดงให้เห็นเป็น "๔๕,๐๐๐,๐๐๐,๐๐๐" เมื่อคัดลอกออกมา (copy & paste) จะกลายเป็น "Ùı,,," ซึ่งไม่มีความหมาย ใช้งานต่อไม่ได้
- ในกรณีที่ดีที่สุด คือสามารถคัดลอกมาเป็นข้อความได้ไม่ผิดเพี้ยน แต่เนื่องจากเอกสารราชการไทย ใช้เลขไทย ซึ่งบางโปรแกรมอาจจะไม่รองรับ (คือพิมพ์ลงไปได้ แต่โปรแกรมไม่รับรู้ว่ามันเป็นตัวเลข/จำนวน ทำให้บวกลบคำนวณไม่ได้) -- ทั้งนี้เท่าที่ทดสอบ โปรแกรมสเปรดชีตของ Google Docs ไม่รองรับเลขไทย, ส่วน OpenOffice.org/LibreOffice นั้นสามารถใส่เลขไทยลงไปได้ แล้วโปรแกรมจะแปลงให้เป็นจำนวนอัตโนมัติ

