(公众号:)录:【 图片来源:venturebeat 所有者:venturebeat 】即使是最差的文本解析引荐算法也不会受到一定大小的数据集的妨碍。为了获取比大多数现有方法更加慢,更佳的分类性能,MIT-IBM Watson AI 实验室和 MIT 的 Geometric Data Processing Group 的团队设计了一种融合了嵌入式和拟合传输等风行人工智能工具的技术。
他们指出,这个方法只必须考虑到一个人的历史偏爱,或一群人的偏爱,就可以覆盖面积数百万的可能性。这项研究的主要作者、麻省理工学院的助理教授 Justin Solomon 在一份声明中回应,互联网上有大量文字,任何有助跨越这些材料的东西都是十分简单的。为此,Justin Solomon和他的同事用于算法将文本子集概括成基于子集中常用单词的主题。
紧接着,它将每个文本分为 5 到 15 个最重要的主题,并通过名列表明每个主题对整个文本的重要性。另外,映射(按,在这种情况下为单词的数据表示形式)有助使单词之间的相似性显而易见,而最佳传输则有助计算出来在多个目的地之间移动对象(或数据点)的最有效地方式。同时,映射需要让“利用两次拟合传输”沦为有可能:首先是较为子集中的主题,然后度量公共主题重合的程度。
研究人员称之为,这种方法在扫瞄大量书籍和文件时特别是在有效地。在 Gutenberg Project 数据集中于的 1720个标题的评估工作中,该算法顺利地在一秒钟内较为完了所有标题,比第二名慢了近 800 倍。此外,与其他方法比起,该算法在分类文档方面做到得更佳。
例如,按作者对古腾堡数据集中于的书籍展开分组;或是按部门对亚马逊上的产品评论展开分组。同时,该算法还获取了主题列表,需要向用户说明引荐等价文档的原因,便于用户解读。不过,研究人员未符合于现有的技术水平。他们还将之后研发一种末端到端的培训技术,这种技术可以牵头优化映射、主题模型和拟合传输,而不是像当前构建那样分开优化。
在应用于方面,他们还期望将他们的方法应用于更大的数据集,并研究图像或三维数据建模的应用于。在论文总结工作报告中,Justin Solomon回应,(我们的算法)捕猎差异的方式或许与让一个人较为两个文档的方式完全相同:再行将每个文档分解成更容易解读的概念,然后较为概念······对于更加将近一步的点子,Justin Solomon说:让单词映射获取全局语义语言信息,主题模型获取特定于语料库的主题和主题产于。
从经验上看,这些因素融合在一起,可以在各种基于度量的任务中获取出色的性能。录:文章编译器自venturebeat原创文章,予以许可禁令刊登。下文闻刊登须知。
本文来源:博业·体育网页版登录入口-www.maokesj.com