网站中的文本相似度也异常重要。
赞0
网站中的文本相似度也异常重要。
在今日头条中,用户反馈了大量的问题在这中间提到最多的问题就是网站中为什么总推荐一些重要的问题?对于这种情况来说,不同的人重复的内容意义不同。举个例子来说,有人在看一些将娱乐八卦的文章。但这些文章确是昨天已经看到的类似内容,那么今天再看,它就是重复的了。对于如何解决这一内容,我们就需要能够判断相似的文章,看看他们的主题、主体等内容,然后根据这些内容做一些线上策略。
同样的文章中还有一些时空特征,这些特征能够帮助我们分析内容发生的地点以及它的时效。比如在伤害现行的事情推给广州的用户就没有意义。在文本的最后我们还要考虑与质量相关的特征。来判断文章的内容是低俗还是软文亦或是鸡汤。
另外我们要知道语义标签的特征以及它能够使用的场景。要知道在他们之间存在着不同的层级以及不同的要求。
而作为分类的目标他就是能够覆盖全面,希望网站中的每一篇文章每一个视频都能够分类,它的实体体系要求更加准确,要知道相同的名字或相同的内容指定的人或物也不尽相同,覆盖的范围也不全面,而在概念体系中,它主要解决一些较为精确,但又有些抽象的语义。这些就是网站最初的分类。
目前,隐式语义特征已经可以很好的帮助推荐,而语义标签需要持续标注,新名词新概念不断出现,标注也要不断迭代。其做好的难度和资源投入要远大于隐式语义特征,那为什么还需要语义标签?有一些产品上的需要,比如频道需要有明确定义的分类内容和容易理解的文本标签体系。语义标签的效果是检查一个公司NLP技术水平的试金石。
网站中的
今日头条推荐系统的线上分类采用典型的层次化文本分类算法。最上面Root,下面第一层的分类是像科技、体育、财经、娱乐,体育这样的大类,再下面细分足球、篮球、乒乓球、网球、田径、游泳...,足球再细分国际足球、中国足球,中国足球又细分中甲、中超、国家队...,相比单独的分类器,利用层次化文本分类算法能更好地解决数据倾斜的问题。有一些例外是,如果要提高召回,可以看到我们连接了一些飞线。这套架构通用,但根据不同的问题难度,每个元分类器可以异构,像有些分类SVM效果很好,有些要结合CNN,有些要结合RNN再处理一下。
上图是一个实体词识别算法的case。基于分词结果和词性标注选取候选,期间可能需要根据知识库做一些拼接,有些实体是几个词的组合,要确定哪几个词结合在一起能映射实体的描述。如果结果映射多个实体还要通过词向量、topic分布甚至词频本身等去歧,最后计算一个相关性模型。
猜你喜欢