สถิติตัวอักษรไทยในข้อความทวีต

ข้อมูลทวีตจาก twitter ที่มีภาษาไทยภายในวันที่ 11 สิงหาคม 2553

source: @thaitrend
processor: @icez

ข้อมูลวิจัยเพื่อการพัฒนาวิธีการป้อนข้อมูลภาษาไทย
จากจำนวน 231,914 ข้อความทวีต

[น] => 660976 (นอ หนู)
[า] => 629121 (สระ อา)
[่] => 565318 (ไม้เอก)
[อ] => 547022 (ออ อ่าง)
[้] => 441564 (ไม้โท)
[ก] => 438491 (กอ ไก่)
[เ] => 435631 (สระ เอ)
[ร] => 417325 (รอ เรือ)
[ม] => 398385 (มอ ม้า)
[ง] => 376920 (งอ งู)
[ย] => 367193 (ยอ ยักษ์)
[ว] => 341322 (วอ แหวน)
[ี] => 311048 (สระ อี)
[ด] => 291669 (ดอ เด็ก)
[ล] => 264446 (ลอ ลิง)
[ะ] => 239479 (สระ อะ)
[ค] => 229842 (คอ ควาย)
[ไ] => 224831 (สระ ไอ)
[ห] => 219937 (หอ หีบ)
[บ] => 207687 (บอ ใบไม้)
[ิ] => 206845 (สระ อิ)
[ท] => 194172 (ทอ ทหาร)
[แ] => 180949 (สระ แอ)
[ต] => 179666 (ตอ เต่า)
[ส] => 168925 (สอ เสือ)
[ป] => 162990 (ปอ ปลา)
[จ] => 156824 (จอ จาน)
[พ] => 122954 (พอ พาน)
[ุ] => 107270 (สระ อุ)
[ื] => 100424 (สระ อือ)
[ู] => 96109 (สระ อู)
[ใ] => 93745 (สระ ใอ ไม้ม้วน)
[ช] => 91936 (ชอ ช้าง)
[ข] => 89039 (ขอ ไข่)
[็] => 80912 (ไม้ไต่คู้)
[ๆ] => 73900 (ไม้ยมก)
[์] => 61668 (การันต์ ทันตฆาต)
[ำ] => 59347 (สระ อำ)
[ถ] => 48045 (ถอ ถุง)
[ึ] => 42999 (สระ อึ)
[๊] => 33683 (ไม้ตรี)
[ซ] => 31602 (ซอ โซ่)
[ผ] => 31295 (ผอ ผึ้ง)
[ฟ] => 25498 (ฟอ ฟัน)
[ณ] => 24683 (ณอ เณร)
[ศ] => 19662 (ศอ ศาลา)
[ฮ] => 18913 (ฮอ นกฮูก)
[ธ] => 18167 (ธอ ธง)
[ญ] => 18036 (ญอ ผู้หญิง)
[ภ] => 15436 (ภอ สำเภา)
[ฝ] => 14954 (ฝอ ฝา)
[๋] => 12436 (ไม้จัตวา)
[ษ] => 11551 (ษอ ฤๅษี)
[ฉ] => 10098 (ฉอ ฉิ่ง)
[ฐ] => 4240 (ฐอ สันฐาน)
[๕] => 1977 (เลขห้า)
[ฎ] => 1880 (ฎอ ชฎา)
[ฤ] => 1634 (ฤ)
[ฒ] => 1193 (ฒอ ผู้เฒ่า)
[ฏ] => 1166 (ฏอ ปฏัก)
[ฆ] => 1100 (ฆอ ระฆัง)
[ฑ] => 726 (ฑ นางมนโฑ)
[ฬ] => 715 (ฬอ จุฬา)
[๑] => 250 (เลขหนึ่ง)
[๒] => 162 (เลขสอง)
[๐] => 153 (เลขศูนย์)
[๓] => 96 (เลขสาม)
[ฌ] => 79 (ฌอ เฌอ)
[ฃ] => 70 (ฃอ ฃวด)
[๔] => 64 (เลขสี่)
[๙] => 44 (เลขเก้า)
[ๅ] => 41 (สระอาหางยาว)
[ฅ] => 38 (ฅอ ฅน)
[๗] => 35 (เลขเจ็ด)
[๘] => 33 (เลขแปด)
[๖] => 32 (เลขหก)
[ฦ] => 5 (ฦ)

Tags: , ,  
blog comments powered by Disqus