因為這次案子的功能需求,在網路上找到兩種方式來分詞。一種是 SCWS 採用的詞庫方式,另一種是 WP 的 plugin Bigram Full-Text Search 所採用的 UTF-8 分詞方式。
詞庫方式的分詞系統大都採用知名部落客 蔡志浩 的論文:MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm 及 CScanner - A Chinese Lexical Scanner 中的理論來開發詞庫系統。
SCWS 簡易中文分詞系統 是由 hightman 開發,版權方面並沒有很清楚的宣告,僅僅宣告「本人保留一切相關權利」。但是套件中包含所有原始碼及正體/簡體中文詞庫,論壇中也有許多網友一起討論,就像一般 Open Source 套件開發社群的運作模式。另外也有其他網友把 scws 移植到 windows 環境。
November 17, 2008
November 16, 2008
November 11, 2008
野草莓運動 - 連草莓也發野 (持續更新)
說再多都沒用。就用眼睛看吧。
野草莓學運 - 咱要出頭天 (We Shall Overcome)
from http://www.peopo.org/portal.php?op=viewPost&articleId=27378
11/15 自由廣場舉行全台野草莓大串聯
from http://www.peopo.org/portal.php?op=viewPost&articleId=26622
野草莓學運 - 咱要出頭天 (We Shall Overcome)
from http://www.peopo.org/portal.php?op=viewPost&articleId=27378
11/15 自由廣場舉行全台野草莓大串聯
from http://www.peopo.org/portal.php?op=viewPost&articleId=26622
November 10, 2008
Sphinx 自由開放原始碼全文搜尋引擎
大家都知道,MySQL 的 full-text 在大量筆數資料搜尋時,會造成 record 鎖住、資料庫 loading 大增。為了解決這樣的問題,我們找到 Sphinx。
Sphinx 是一套 Open-Source 的套件軟體。除了獨立安裝於 Unix-Like,也支援了 Win32 with Mysql(+PostgreSQL) 版本。另外,也可以成為 MySQL 的 Plugin,跟 MySQL 結合在一起。
在使用前,請規劃作為建立 index 的欄位,好讓 Sphinx 幫你建立好 Index 以方便搜尋。通常我們會將作為 index 欄位裡的資料,先用分詞系統分好,以提高準確度,尤其是在中文方面。目前中文分詞方式,以詞庫及 UTF-8 分詞兩種方式較為普遍,下次有機會再介紹。
Sphinx 是一套 Open-Source 的套件軟體。除了獨立安裝於 Unix-Like,也支援了 Win32 with Mysql(+PostgreSQL) 版本。另外,也可以成為 MySQL 的 Plugin,跟 MySQL 結合在一起。
在使用前,請規劃作為建立 index 的欄位,好讓 Sphinx 幫你建立好 Index 以方便搜尋。通常我們會將作為 index 欄位裡的資料,先用分詞系統分好,以提高準確度,尤其是在中文方面。目前中文分詞方式,以詞庫及 UTF-8 分詞兩種方式較為普遍,下次有機會再介紹。
Subscribe to:
Posts (Atom)
page top
Tags
3G
(1)
APT
(3)
baseball
(1)
blog
(1)
Blogger
(1)
cat
(9)
China
(2)
Cite
(1)
finance
(5)
Flickr
(1)
FreeTDS
(1)
GD
(1)
Google
(4)
Google Mail
(1)
Google Maps
(1)
Google News
(2)
hack
(1)
Hemidemi
(1)
history
(5)
JAVA
(4)
life
(1)
Lifetype
(3)
Linux
(1)
media
(5)
MOO
(1)
MS SQL
(1)
MSN
(1)
MySQL
(1)
Oracle
(1)
Peopo
(6)
photography
(2)
PHP
(4)
politics
(5)
Redhat
(3)
Resource Hacker
(1)
Roller
(1)
RSS
(2)
SCWS
(1)
SMTP
(1)
Sphinx
(1)
SVN
(1)
Tag
(1)
Taiwan
(7)
Tomcat
(4)
tour
(1)
Trademark
(1)
Ubuntu
(1)
video
(5)