2008年5月8日 星期四

關於中文本地化工具包

googlecode 上有一個名稱跟周蟒(zhpy)很像的專案,叫做 pyzh。這個專案的目的是提供一些中文本地化工具。

前幾天剛好寫周蟒有段需要將程式轉成簡體,但 mac 上沒有好的繁簡轉換工具 (fx3 不能用同文堂插件),於是花幾分鐘將 pyzh 專案的簡繁轉換工具弄成命令列可用了(很初步)。

http://code.google.com/p/pyzh/


相信大家對中文工具的需求是不少的,感覺中文本地化工具包這專案相當有用處,
只是還處於很早期階段,需要進一步加強。

想知道大家各自以使用者或開發者的角度, 對於我們 pythoner 需要怎樣的中文工具包這件事上,是怎麼看待的?

在此提出一些我對中文本地化工具包的想法:

1. 工具要支援命令列 :
繁簡轉換工具、算字數工具、文本折行、農曆轉換工具都可以加以命令列化,變成一般通用的工具。
可能有些小工具也可以從 ulipad 中抽取獨立出來。

2. 最好能提供 easy_install 安裝
easy_install 安裝的好處就不必多說了

3. 共用 namespace
讓這些相關 lib 共用一個 namespace, (建議是 zhutils, 類同於 docutils),
然後用英文分類、命名調用。

一方面也算擴大用戶群(老外也有機會來用),另一方面拼音的有侷限,例如 fanjian (--> 犯賤 ?) 對不習慣拼音的我來說看來相當不
雅。

建議的簡單 namespace 分類法:

zhutils - word # 文字相關
- count # 算字數, 對應 wordcount
- translate [pinyin | tw | cn] # 翻譯成 拼音, 繁中 ,簡中,
對應 word2pinyin, fanjian
- cn_word # 簡中分詞
- time # 轉干支計數, 用於算命?
- datetime # 日期相關
- .... 其他

中文本地化工具包,大家怎麼看?

update 2008/5/15:
把整個 pyzh 大架構按照之前提出的思路修了一下, 整成了一個 zhutils 模塊, 以後可以用 pypi 來發佈. 現在所有 pyzh 模塊都在 zhutils 中, 所有副模塊分別歸類在 word(處理文字) 與 datetime(處理日期) 中.

沒有留言: