深入理解 NLP 的中文分词:从原理到实践--掘金小册课程推荐/优惠
版权声明
本站非掘金小册官网,与官方无任何关系。我们不提供课程下载或详细内容,仅作为课程分享和推荐平台。我们鼓励大家支持正版,尊重创作者的劳动成果,这样不仅能帮助创作者持续产出优质内容,也能让自己获得更好的学习体验。请通过官方渠道购买和学习课程,感谢您的理解与支持。
课程详情
课程介绍
作者介绍
周兴博,互联网行业十年从业者,出于对全栈工程师头衔的渴望,从事过多种技术岗位,信息安全、基础网络服务、服务端架构、机器学习、NLP等,积累了丰富的经验,对各种技术有着深刻理解,熟练使用Python,Golang,Java等开发语言,在亿级日活的互联网公司设计并开发过搜索系统、推荐系统。
小册介绍
随着人工智能技术的发展,越来越多的互联网公司开始重视机器学习在其业务中的价值。就拿近些年大火的字节跳动来说,其旗下的今日头条、抖音、西瓜视频,都是依靠着其强大的智能推荐系统,将海量的内容以个性化的方式分发给用户,最终赢得了大量的忠实用户,这背后自然是离不开NLP的功劳。
NLP是Natural Language Processing的缩写,中文意思是自然语言处理,是人工智能的一个子领域。由于深度学习的发展,机器在图像识别、语音识别方面已经取得了巨大的进步,达到了惊人的准确率。而让机器能够理解人类语言的这个问题上,还有很大的发展空间,所以掌握NLP的基础知识就非常有必要。
在中文的语言环境里,中文分词是NLP最基础,也是最核心的问题,几乎影响着所有NLP任务最后结果的质量。想必做过全文搜索、关键词挖掘的同学,都切身的感受过中文分词那满满的恶意,大量的专有名词切分不出来,或者切分出来很多的歧义词。这时候只能是无奈的手动一个一个往分词词典里添加或者调整词频,但这样不仅耗时耗力,而且治标不治本,无法跟上业务的发展速度。
本小册的核心是希望通过深入讲解中文分词的原理及实践经验,来帮助大家彻底掌握中文分词技术,以便能够灵活应对各种分词难题。同时中文分词背后所涉及到的算法和模型,都是机器学习最重要的基础,有助于大家从事其它机器学习的相关工作。
你会学到什么?
中文分词经历了20多年的发展,从最开始的蛮荒阶段,到现在的趋于成熟,过程中克服了种种艰难险阻,产生了大量思想和方法,我会取其精华,并深入浅出地讲述给大家,大家会学到:
- 少量的中文语言学,帮助理解中文分词所要面对的难题
- Python的编程知识,用于算法的实践和开源项目的源码讲解
- 统计学和信息论,中文分词的算法里使用了很多这两方面的知识
- 机器学习知识,主要涉及HMM、CRF、Word2vec等模型
- 业务案例分析,结合实际业务场景,介绍各种解决方案
适宜人群
- 渴望从事NLP相关工作的初学者
- 希望提高NLP基础理论知识和实践技巧的初中级开发者
- 对机器学习、NLP等技术感兴趣的爱好者
课程目录
- 开篇:深入理解中文分词原理及实现的意义
- 基础知识:中文分词的四大难题
- 基础知识:解决中文分词歧义问题(下)
- 基础知识:解决中文分词歧义问题(上)
- 基础知识:N-Gram简单易懂的切词法
- 基础知识:解决未登录词问题(上)
- 基础知识:解决未登录词问题(下)
- 进阶知识:HMM — 隐马尔可夫模型
- 进阶知识:CRF — 条件随机场(上)
- 进阶知识:CRF — 条件随机场(下)
- 应用实践:中文分词评测方法
- 应用实践:jieba — 源码分析(上)
- 应用实践:jieba — 使用说明
- 应用实践:jieba — 源码分析(中)
- 业务案例:文本相似度
- 业务案例:自动摘要
- 应用实践:jieba — 源码分析(下)
- 业务案例:关键词挖掘
- 彩蛋:Word2vec
- 后记:终有一天,你会为今天的努力而感到骄傲