CWYAlpha

Just another WordPress.com site

Thought this was cool: 应该立法禁止分词研究 :=)

leave a comment »


RE: 分词当然是第一关。这个没弄好,其他的免谈


现如今中文自动分析的瓶颈早已不是分词了
日期: 12/05/2011 15:43:43
半个世纪折腾进去无数的人力了。是 overdone,很大程度上是科研财主(sponsors)和科学家共同的失职。应该立法禁止分词研究(kidding :=)),至少是禁止用纳税人钱财做这个研究。海量词库可以解决分词的90%以上的问题。

统 计模型可以解决几个百分点。硬写规则或者 heuristics 也可以达到类似的效果。

再往上,多一个百分点少一个百分点又有什么关系?对于应用没有什么影响,as long as things can be patched and incrementally enhanced over time.

或者任其错误下去(上帝允许系统的不完美),或者在后面的句法分析中 patch。很多人夸大了管式系统的错误放大问题(所谓 error propagation in a pipeline system), 他们忽略了系统的容错能力(robustness through adaptive modules),这当然要看系统设计者的经验和智慧了。中文处理在分词之后,有人做了一些短语识别(譬如 Base NP 抱团)和专有名词识别(Named Entity Tagging),再往下就乏善可陈了。
深入不下去是目前的现状。我要做的就是镜子说的“点入”。先下去再说,做一个 end-to-end system,直接支持某个app,用到大数据(big data)上,让数据制导,让数据说话。先用上再说,至少尽快显示其初步的value,而不是十年磨一剑。
http://bbs.sciencenet.cn/home.php?mod=space&uid=362400&do=blog&id=515339

相关文章:

  1. MIT自然语言处理第四讲:标注(第四部分)
  2. ACL 2010 Paper国内研究单位录用情况
  3. 自然语言处理及计算语言学常见缩略语
  4. From Google Research Blog: Google at ACL 2011
  5. HMM在自然语言处理中的应用一:词性标注6
  6. 立委随笔:机器学习和自然语言处理
  7. ACL09 Full Paper录用情况
  8. MIT自然语言处理第四讲:标注(第一部分)
  9. 条件随机场文献阅读指南
  10. ACL-HLT 2011: List of Accepted Papers


from 我爱自然语言处理: http://www.52nlp.cn/%e5%ba%94%e8%af%a5%e7%ab%8b%e6%b3%95%e7%a6%81%e6%ad%a2%e5%88%86%e8%af%8d%e7%a0%94%e7%a9%b6?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+52nlp+%28%E6%88%91%E7%88%B1%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86%29

Written by cwyalpha

12月 8, 2011 在 12:38 下午

发表在 Uncategorized

留下评论