Thought this was cool: 应该立法禁止分词研究 :=)
RE: 分词当然是第一关。这个没弄好,其他的免谈
现如今中文自动分析的瓶颈早已不是分词了
日期: 12/05/2011 15:43:43
半个世纪折腾进去无数的人力了。是 overdone,很大程度上是科研财主(sponsors)和科学家共同的失职。应该立法禁止分词研究(kidding :=)),至少是禁止用纳税人钱财做这个研究。海量词库可以解决分词的90%以上的问题。
统 计模型可以解决几个百分点。硬写规则或者 heuristics 也可以达到类似的效果。
再往上,多一个百分点少一个百分点又有什么关系?对于应用没有什么影响,as long as things can be patched and incrementally enhanced over time.
或者任其错误下去(上帝允许系统的不完美),或者在后面的句法分析中 patch。很多人夸大了管式系统的错误放大问题(所谓 error propagation in a pipeline system), 他们忽略了系统的容错能力(robustness through adaptive modules),这当然要看系统设计者的经验和智慧了。中文处理在分词之后,有人做了一些短语识别(譬如 Base NP 抱团)和专有名词识别(Named Entity Tagging),再往下就乏善可陈了。
深入不下去是目前的现状。我要做的就是镜子说的“点入”。先下去再说,做一个 end-to-end system,直接支持某个app,用到大数据(big data)上,让数据制导,让数据说话。先用上再说,至少尽快显示其初步的value,而不是十年磨一剑。
相关文章:
留下评论