汉字吧 关注:28,355贴子:536,023
  • 27回复贴,共1

秀下限的漢字簡化,純屬娛樂

只看楼主收藏回复

上次看到,根據統計,平均簡體字大概是7畫不到的水準,當然這裡的平均是語料平均,換言之,各字按出現頻率進行加權。
使用傳統漢字,要多2畫,沒有感覺的多,因為簡化字並沒有這麼大比例。
不過,還有諸如二簡字那樣的玩意,那麼,漢字能簡化到什麼程度呢。
首先,簡化的基本方法就是把各種筆劃組合按筆劃數從小到大,並按字從高頻到低頻分配。
如此可以簡化到一個水平呢。雖然我手頭沒有具體的語料庫,不過有人給我們統計了漢字的靜態信息熵,大概是9.7bit
,換言之,理想的編碼體系只需要平均這麼多個零一位就能給漢字編碼了,比如有一種優秀的方法就是哈夫曼編碼,近似於漢字只要10bit左右碼長就夠了。
不過這個長度要比我們說的辦法要長,因為哈夫曼等等編碼是有斷字的能力的。
譬如概率(頻率)1/2,1/4,1/8,1/8的ABCD,哈夫曼編碼成1,01,001,000。。。而我們編譯成0,1,10,11。。。明顯牛逼一頭,但是現在來了BA這個玩意,前一種編碼成了011,很明顯,這只能是BA,但是我們寫成10,於是我們不知道這是BA還是C了。
不過實際中我們斷字是輕而易舉的,這對於拼音文字來說,加個空格比較靠譜,不過以前的梵文還有日語。。。
這就有賴於拼寫的規律了。
說了這麼多,關鍵是要說明,我們的這種方案是要小於10bit的,接下來我們把編碼改成4進制,這樣大概就是5位。
最後我們把這種4進制編碼轉化為“超簡字”
如圖,圖中只標示了一至三位的翻譯工作,其中一位是橫豎撇捺四種筆劃,二位和三位給出了編碼對應的方式(而且有些實際筆劃少於位數)為使其有邏輯點,盡可能才用基本筆劃的順序組合和變體。
對於更多的位數,我們只有三位一斷,按順序接起來。。。比較靠譜的是三個部件的組合(四個部件的組合有,但比較怪了),不過這就夠了,因為光9畫的字就能達到40w,遠超各種字典的收錄了。
這樣的方案,我粗略估計下,只有4畫左右


IP属地:浙江来自Android客户端1楼2016-10-02 23:51回复
    不改為二進制你算簡化嗎


    IP属地:日本来自Android客户端2楼2016-10-03 08:11
    收起回复
      不要因為你自己的智商而侮辱了國人的智商


      IP属地:中国香港来自Android客户端3楼2016-10-03 08:47
      收起回复
        3500箇常用字的平均筆畵爲十畵左右,你不要亂講


        IP属地:浙江来自iPhone客户端5楼2016-10-03 12:10
        收起回复
          同二樓,這是數字時代,應當順應時代,不簡化成二進制你這算甚麼簡化。


          IP属地:四川来自Android客户端6楼2016-10-03 12:57
          收起回复
            熵对应的是Arithmetic coding,哈夫曼编码达不到这个效率。而且,你这个编码不是给人读的,是给机器读的,能算是文字吗?


            7楼2016-10-03 16:40
            收起回复