open data

[เลือกตั้ง 2554] จำนวนสมาชิกสภาผู้แทนราษฎรในแต่ละจังหวัด

ข้อมูลพื้นฐานเพื่อการเลือกตั้งที่สำคัญอีกอย่างหนึ่งที่น่าจะช่วยเสริมศักยภาพให้กับผู้มีสิทธิเลือกตั้งสามารถเข้าถึงและเรียนรู้ได้อย่างง่ายขึ้นคือ จำนวนสมาชิกสภาผู้แทนราษฎร์ในแต่ละจังหวัด (ผู้เขียนเองบางทีก็งงว่าจังหวัดที่บ้านมี ส.ส. กี่คน)

ตามรัฐธรรมนูญฉบับปัจจุบันระบุว่าสมาชิกสภาผู้แทนราษฎร (ส.ส.) แบบแบ่งเขตเลือกตั้งมีทั้งหมด 375 คนจาก 375 เขตเลือกตั้งทั่วประเทศ แต่ละจังหวัดมีจำนวนสมาชิกสภาผู้แทนราษฎรไม่เท่ากัน ขึ้นอยู่กับจำนวนประชากร (170,000 คนต่อ ส.ส. 1 คน) สถิติเบื้องต้นที่น่าสนใจคือ

  • จังหวัดที่มีจำนวน ส.ส. มากที่สุดคือ กรุงเทพมหานคร จำนวน 33 คน
  • จังหวัดที่มีจำนวน ส.ส. มากที่สุดโดยไม่นับกรุงเทพฯ คือ นครราชสีมาจำ จำนวน 15 คน
  • จังหวัดที่มีจำนวน ส.ส. น้อยที่สุดคือ (เรียงตามลำดับตัวอักษร) ตราด นครนายก พังงา ระนอง สมุทรสงคราม สิงห์บุรี แม่ฮ่องสอน จังหวัดละ 1 คน
  • จังหวัดบึงกาฬ ที่แยกออกมาจากจังหวัดหนองคาย เป็นจังหวัดล่าสุดที่มี ส.ส. จำนวน 2 คน

[เลือกตั้ง 2554] ข้อมูลพรรคการเมืองที่ยังดำเนินงานอยู่

ฤดูการเลือกตั้งสมาชิกสภาผู้แทนราษฎรใกล้เข้ามา การเตรียมข้อมูลพื้นฐานใดๆ ที่เกี่ยวข้องสำหรับการเลือกตั้งที่จะถึงนี้ก็น่าจะเป็นส่วนหนึ่งในการสร้างการมีส่วนร่วมทางการเมืองร่วมกัน เพื่อการเลือกตั้งที่โปร่งใสและตรวจสอบได้

ข้อมูลเบื้องต้นเพื่อการเลือกตั้งเหล่านี้ควรจะถูกเผยแพร่โดยสำนักงานคณะกรรมการการเลือกตั้ง (กกต.) อยู่ในรูปแบบที่ "อ่านได้ด้วยคน" - Human Readable แต่ยังไม่สามารถ "อ่านได้ด้วยเครื่อง" - Machine Readable เพราะเอกสารส่วนมากเป็น PDF ที่สแกนเป็นรูปภาพอีกทีหนึ่ง ทำให้เป็นอุปสรรคในการใช้คอมพิวเตอ์ช่วยประมวลผล

ชุดข้อมูลเบื้องต้นที่เราคิดว่าจำเป็นต้องถูกแปลงไว้ให้อยู่ในรูปแบบที่ "อ่านได้ด้วยเครื่อง" คือ

  • ข้อมูลพรรคการเมืองที่ยังดำเนินการอยู่
  • ข้อมูลผู้สมัครรับเลือกตั้ง
  • ข้อมูลเขตการเลือกตั้ง
  • ข้อมูลแผนที่พื้นที่เขตการเลือกตั้ง

งบประมาณแผ่นดิน 2544-2554 ในรูปแบบ machine-readable

บล็อก "วารสารศาสตร์ข้อมูล" DataJournalism.in.th โพสต์ชวนโพสต์ทำ visualization วาดภาพข้อมูลงบประมาณรายจ่ายประจำปีของประเทศไทย และให้ลิงก์ไปที่ PDF ของพ.ร.บ.งบประมาณรายจ่ายประจำปีงบประมาณ ซึ่งถ้าใครได้ลองก็จะพบว่า มันเป็นข้อมูลที่อยู่ในรูปแบบที่เอาไปใช้ต่อได้ยาก ส่วนหนึ่งเพราะ:

  1. อยู่ในรูปแบบ PDF ซึ่งเอาไปประมวลผลต่อได้ยาก จำเป็นต้องคัดลอกออกมาหรือแปลงให้อยู่ในรูปแบบข้อความหรือแฟ้มแบบสเปรดชีตเสียก่อน
  2. แฟ้ม PDF บางอัน เช่น อันนี้ (งบ พ.ศ. 2550) เป็นรูปภาพ (สแกนมา) ไม่ใช่ข้อความ ไม่สามารถคัดลอกข้อความมาใช้ได้
  3. แฟ้ม PDF บางอัน เช่น อันนี้ (งบ พ.ศ. 2545) แม้จะดูเป็นแบบข้อความ แต่เมื่อลองคัดลอกไปวางที่โปรแกรมอื่น จะพบว่ากลายเป็นข้อความที่อ่านไม่ได้หรือผิดเพี้ยนไป ตัวอย่างเช่น งบเบี้ยหวัด บำเหน็จ บำนาญ ที่ข้อความแสดงให้เห็นเป็น "๔๕,๐๐๐,๐๐๐,๐๐๐" เมื่อคัดลอกออกมา (copy & paste) จะกลายเป็น "Ùı,,," ซึ่งไม่มีความหมาย ใช้งานต่อไม่ได้
  4. ในกรณีที่ดีที่สุด คือสามารถคัดลอกมาเป็นข้อความได้ไม่ผิดเพี้ยน แต่เนื่องจากเอกสารราชการไทย ใช้เลขไทย ซึ่งบางโปรแกรมอาจจะไม่รองรับ (คือพิมพ์ลงไปได้ แต่โปรแกรมไม่รับรู้ว่ามันเป็นตัวเลข/จำนวน ทำให้บวกลบคำนวณไม่ได้) -- ทั้งนี้เท่าที่ทดสอบ โปรแกรมสเปรดชีตของ Google Docs ไม่รองรับเลขไทย, ส่วน OpenOffice.org/LibreOffice นั้นสามารถใส่เลขไทยลงไปได้ แล้วโปรแกรมจะแปลงให้เป็นจำนวนอัตโนมัติ