Thought this was cool: 应该立法禁止分词研究 :=)

RE: 分词当然是第一关。这个没弄好，其他的免谈

现如今中文自动分析的瓶颈早已不是分词了

日期: 12/05/2011 15:43:43

半个世纪折腾进去无数的人力了。是 overdone，很大程度上是科研财主（sponsors）和科学家共同的失职。应该立法禁止分词研究（kidding :=)），至少是禁止用纳税人钱财做这个研究。海量词库可以解决分词的90%以上的问题。

统计模型可以解决几个百分点。硬写规则或者 heuristics 也可以达到类似的效果。

再往上，多一个百分点少一个百分点又有什么关系？对于应用没有什么影响，as long as things can be patched and incrementally enhanced over time.

或者任其错误下去（上帝允许系统的不完美），或者在后面的句法分析中 patch。很多人夸大了管式系统的错误放大问题（所谓 error propagation in a pipeline system）, 他们忽略了系统的容错能力（robustness through adaptive modules）,这当然要看系统设计者的经验和智慧了。中文处理在分词之后，有人做了一些短语识别（譬如 Base NP 抱团）和专有名词识别（Named Entity Tagging），再往下就乏善可陈了。

深入不下去是目前的现状。我要做的就是镜子说的“点入”。先下去再说，做一个 end-to-end system，直接支持某个app，用到大数据（big data）上，让数据制导，让数据说话。先用上再说，至少尽快显示其初步的value，而不是十年磨一剑。

http://bbs.sciencenet.cn/home.php?mod=space&uid=362400&do=blog&id=515339

from 我爱自然语言处理: http://www.52nlp.cn/%e5%ba%94%e8%af%a5%e7%ab%8b%e6%b3%95%e7%a6%81%e6%ad%a2%e5%88%86%e8%af%8d%e7%a0%94%e7%a9%b6?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+52nlp+%28%E6%88%91%E7%88%B1%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%29

Written by cwyalpha

12月 8, 2011 在 12:38 下午

发表在 Uncategorized

CWYAlpha