您的位置 : 首页 >> 电子书推荐分享

科学的极致:漫谈人工智能

下载方式

科学的极致:漫谈人工智能

逻辑思维内容简介  · · · · · ·

潜在语义分析和主题模型
如前文所说,为了进行更深层次的语义分析,研究学者们不再满足于简单的向量空间模型。为了更好地开展深入的文本挖掘或自然语言任务,研究人员开始追求更适合挖掘文本潜在语义的文本表达方法。

传统语言模型
过去的文本表达方法集中在空间向量模型和统计语言模型。两者虽然一个基于线性代数的几何变化,另一个基于统计概率分布,但都将文档表示为在词典空间上的分布。

作者简介  · · · · · ·

科学的极致:漫谈人工智能 集智俱乐部

· · · · · ·PDF电子书高清完整版本网盘下载地址 · · · · · ·


pdf电子书下载网站

今日好书推荐试读内容 · · · · · ·

向量空间模型(也称词组向量模型)作为向量的标识符(比如索引),是一个用来表示文本文件的代数模型。它应用于信息过滤、信息检索、索引以及关联规则。Salton、Wong 和 Yang 等人提出的 TF-IDF 模型(词频-逆向文件频率),是一个我们熟悉的传统向量空间模型。向量空间模型简单有效,常用于文档表示,被广泛运用在如 谷歌、百度等搜索引擎中的检索模型里。而统计语言模型不同于空间向量模型的线性代数基础,是基于统计学的概率分布处理文档。

统计语言模型是由自然语言处理大师贾里尼克首先提出的。在此之前,由乔姆斯基(Noam Chomsky,有史以来最伟大的语言学家)提出的“形式语言”使得人们坚定地利用语法规则的办法进行文字处理。遗憾的是,几十年过去了,在计算机处理语言领域,基于这个语法规则的方法几乎毫无突破。首先成功利用数学方法解决自然语言处理问题的就是贾里尼克。统计语言模型主要是研究一个文本序列的生成概率,随后的多元语言模型、混合模型、pLSI模型和概率图模型都是基于统计语言模型发展而来的。其中,pLSI模型(也称pLSA模型)2是将用线性代数分析潜在语义的方法转成运用概率统计的分析模式的模型。

主题模型

主题模型(Topic Model)作为近年来最受关注的统计语言模型之一,进一步发展了潜在语义模型,将“语义”维度表示为“主题”的多项式分布。通过引入主题空间,主题模型不仅考虑了传统向量空间模型和语言模型中文档在词典空间的维度,也实现了文档在主题空间上的表示。

本文版权归原作者所有,请支持正版。此处仅提供个人读书笔记 https://yigefanyi.com/kexuedejizhimantanrengongzhineng/
返回顶部