5.22阿博茨科技 面试总结

    xiaoxiao2022-07-07  165

    一、介绍体育新闻分类项目 二、n_Gram与IT-IDF的区别 n_Gram可以用于字符串模糊匹配,n为匹配的单词位数,n一般为2或3。可以用于词分类。 n_Gram可以评价一个句子是否合理,区别两个字符串的差别水平。 IT-IDF又称词频-逆向文章频率,是由IT*IDF构成,IT为词频代表单一文本出现词的频率,假设3张纸上写上不同的话,IT为单一张纸上出现有‘你好’这个词,那IT就是你好这个词在一张纸上出现的频率,IDF的值取决于词在这三张值中的分布,如果’你好‘在单一纸上出现,并且词频很高,那么IDF值也会很高,如果’你好‘在三张纸上都出现且分布均等,则IDF值会很低。 我们通常使用词袋模型与IT-IDF矩阵混合使用,来进行文本词的区分,如果通过词袋对文本筛选出一些高热度词汇,再通过IT-IDF计算权值,这样IDF值越大的词说明分类的效果越好。 三、SVM与logisticRegression的使用及原理 四、SVM和logisticRegression的调参 五、python中有哪些数据结构 int string float list dict Tuple set 六、list和Tuple的区别list和集合的区别 list 是什么列表就好比我们通常购物的清单,清单通常是可以不断积累下去的,并且清单上的物品是可以重复的。而列表也一样列表正是这样的,可以重复的 元组(Tuple) 元组和列表大致属性相同,不同点为Tuple只是可读的,元组内的数值不可以改变,元组通常为双小括号表示。 set(集合) 集合与数学中的集合大致相同,集合通常可以用来去重操作,也就是说集合中的元素不会出现重复。 字典(dict) 字典的表示形式通常为键值对的形式,字典的最大价值为查询,key值只可为不可变类型如元组、浮点型、int、string

    最新回复(0)