post | sidebar | footer

November 17, 2008

中文分詞系統 - SCWS 簡易中文分詞系統

0 迴響
因為這次案子的功能需求,在網路上找到兩種方式來分詞。一種是 SCWS 採用的詞庫方式,另一種是 WP 的 plugin Bigram Full-Text Search 所採用的 UTF-8 分詞方式。

詞庫方式的分詞系統大都採用知名部落客 蔡志浩 的論文:MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching AlgorithmCScanner - A Chinese Lexical Scanner 中的理論來開發詞庫系統。

SCWS 簡易中文分詞系統 是由 hightman 開發,版權方面並沒有很清楚的宣告,僅僅宣告「本人保留一切相關權利」。但是套件中包含所有原始碼及正體/簡體中文詞庫,論壇中也有許多網友一起討論,就像一般 Open Source 套件開發社群的運作模式。另外也有其他網友把 scws 移植到 windows 環境

November 16, 2008

淡水半日行

0 迴響
很久沒去淡水走走。記得上次去,河邊步道還在整建。今天趁著天氣轉好,跟牽手去散步,順便試試新相機。


DUNKIN' DONUTS (to mark: 我們都是吃這家)


November 11, 2008

野草莓運動 - 連草莓也發野 (持續更新)

1 迴響
說再多都沒用。就用眼睛看吧。

野草莓學運 - 咱要出頭天 (We Shall Overcome)

from http://www.peopo.org/portal.php?op=viewPost&articleId=27378

11/15 自由廣場舉行全台野草莓大串聯

from http://www.peopo.org/portal.php?op=viewPost&articleId=26622

November 10, 2008

Sphinx 自由開放原始碼全文搜尋引擎

0 迴響
大家都知道,MySQL 的 full-text 在大量筆數資料搜尋時,會造成 record 鎖住、資料庫 loading 大增。為了解決這樣的問題,我們找到 Sphinx。



Sphinx 是一套 Open-Source 的套件軟體。除了獨立安裝於 Unix-Like,也支援了 Win32 with Mysql(+PostgreSQL) 版本。另外,也可以成為 MySQL 的 Plugin,跟 MySQL 結合在一起。

在使用前,請規劃作為建立 index 的欄位,好讓 Sphinx 幫你建立好 Index 以方便搜尋。通常我們會將作為 index 欄位裡的資料,先用分詞系統分好,以提高準確度,尤其是在中文方面。目前中文分詞方式,以詞庫及 UTF-8 分詞兩種方式較為普遍,下次有機會再介紹。