戒赌网站怎么做,百度搜索广告收费标准,河南建设信息港网站查询,服装网站建设视频【论文完整内容详见知网链接】#xff1a; 面向电商内容安全风险管控的协同过滤推荐算法研究 - 中国知网 (cnki.net) 面向电商内容安全风险管控的协同过滤推荐算法研究* 摘 要#xff1a;[目的/意义]随着电商平台商家入驻要求降低以及商品上线审核流程简化#xff0c;内容安… 【论文完整内容详见知网链接】 面向电商内容安全风险管控的协同过滤推荐算法研究 - 中国知网 (cnki.net) 面向电商内容安全风险管控的协同过滤推荐算法研究* 摘 要[目的/意义]随着电商平台商家入驻要求降低以及商品上线审核流程简化内容安全风险问题成为协同过滤推荐算法伦理审查的核心问题之一。[方法/过程]本文将内容安全风险问题纳入用户协同过滤推荐算法的优化过程提出一种改进的推荐算法。首先采用混合研究方法对内容安全风险商品的定义、外在表现形式、特点、分类和风险程度进行了界定然后利用图像增强和关键词提取技术构建识别内容安全风险商品的多模态特征库用于训练不同模态深度学习识别模型再次利用深度学习、多模态融合和均值聚类等技术对经典CFR算法进行改进提出面向电商内容安全风险管控的CSCFR算法最后基于3个新数据集设计并实施对照实验证明该算法在内容安全风险、精度、召回率和稳定性上的优越性。[结果/结论]与最新推荐算法相比本文所提算法不仅显著提升了内容安全性而且在精度等性能指标上也略有提升。 关键词伦理审查内容安全风险评分矩阵协同过滤特征库推荐算法
A Collaborative Filtering Recommendation Algorithm for E-commerce Content Security Risk Control Abstract: [Purpose/significance] With the reduction of merchants’ entry requirements and the simplification of product online review process in e-commerce platforms, content security risk has become one of the core issues of ethical review of Collaborative Filtering Recommendation (CFR) Algorithms.[Method/process]For this reason, this paper incorporated the content security risk into the optimization process of user-based collaborative filtering recommendation algorithm and proposed an improved algorithm. Firstly, a mixed research method was identify the external manifestations, characteristics, classification, and risk degree of products with content security risks. Secondly, this paper constructed a multi-modal feature base for products with content security risks by using image enhancement and keyword extraction technology to train deep learning recognition models of different modalities. Thirdly, by adopting deep learning, multimodal fusion, and mean clustering techniques, this paper proposed a Content Security-oriented Collaborative Filtering Recommendation (CSCFR) algorithm to reduce the content security risk of the algorithm recommendation. Finally, the superiority of the CSCFR algorithm in violation, precision, recall, and stability were demonstrated through three rigorous controlled experiments.[Result/conclusion] Compared with the state-of-the-art recommendation algorithms, the algorithm proposed in this paper does not only improve the content security significantly, but also slightly improves the performance of precision and other metrics. Keywords: Ethical review; Risk in content security; Rating matrix; Collaborative filtering; Feature base; Recommendation algorithm 0 引言 在人工智能时代算法推荐正在成为人们获取信息的重要方式是传统依赖搜索引擎获取信息方式的重要补充引起了越来越多情报学者的关注其中所蕴含的安全风险和信息伦理问题是情报学科关注的重要问题。在电商平台中随着商品种类和数量不断增加用户借助浏览或检索方式找到符合自身喜好商品的难度越来越大算法推荐模式应运而生[1-3]。其中协同过滤推荐算法Collaborative filtering recommendationCFR因具有易于工程实现和推荐结果新颖度高等优势在商品推荐中得到了广泛应用[4-6]亚马逊Amazon、易贝eBay、淘宝Alibaba、京东JD等电商平台相继运用CFR算法来提升产品销量[7]。 CFR算法包括基于模型的算法和基于近邻的算法。基于近邻的算法又可分为基于相似商品的推荐和基于相似用户的推荐两种。基于相似用户的CFR算法可通过分析目标用户的历史消费数据构建个人兴趣偏好并基于相似用户的历史消费商品向目标用户推荐可能符合其喜好的商品[8]能够减轻用户的选购负担但同时也因为可以发现用户的潜在喜好而带来信息伦理风险。 随着推荐算法的运算对象由商品转向用户其内在的价值属性逐渐显现。强调严守非歧视性、用户非物质性和个人选择不可剥夺性等原则的伦理审查成为推荐领域研究的热点[8-13]。不同于传统优化研究强调推荐算法性能如Precision精度、Recall召回率等伦理审查研究更关注算法优化中用户的知情权、选择权和注销权等权利旨在杜绝算法优化中可能存在的伦理问题。然而随着电商规模的扩大平台对商家入驻的要求和对产品上线的审核流程大幅简化使新增商品中混杂了一些具有安全风险的商品如违禁物品、国家珍稀保护动物等。由算法推荐具有内容安全风险的商品不但会给社会风气和平台形象造成恶劣影响不利于营造安全放心的在线消费环境而且进一步加剧了用户—商品评分矩阵的稀疏性影响CFR算法的性能。与用户隐私泄露[14]、算法歧视[15]和过滤气泡[16]等算法伦理问题相比目前针对内容安全风险管控的CFR算法优化研究存在的主要问题是①相关研究仍处于起步阶段多聚焦法律法规或相关政策制定缺少切实可行的操作方案②未对内容安全风险商品进行统一可靠的界定表现形式、特点和分类等尚不清晰③未建立内容安全风险商品识别的多模态特征库无法有效发现违法和不良商品并采取相应处置。为此本文拟针对商品内容安全风险管控前提下推荐算法的优化问题展开研究。[马1] 1 研究现状 面对日益攀升的算法伦理审查压力2018年美国纽约市政府颁布《算法问责法》[17]明确要求算法在向消费者提供与关键决策相关的信息时如向消费者推荐商品等应最大限度地降低提供此类信息可能带来的商业风险。时隔一年加拿大政府颁布《自动化决策指令》[18]构建了一套涵盖公平性、透明性和合法性的系统评估框架为评价包括推荐在内的自动化决策系统对民众或政府机关可能产生的风险提供了重要依据。此外2020年欧盟颁布的《人工智能白皮书》[19]强调除了算法推荐算法等本身的设计缺陷数据可用性和质量问题同样是引发各类算法安全风险的重要原因。在我国推荐算法的内容安全风险管控已被提升到一个全新的高度。如2022年3月1日起实行的《互联网信息服务算法推荐管理规定》[20]明确要求算法推荐服务提供者应当坚持主流价值导向不得利用算法推荐服务传播法律、行政法规禁止的信息并应当采取切实措施防范和抵制传播不良信息。值得注意的是各大电商平台也在积极响应社会各界对于内容安全风险商品的管控要求。2012年淘宝制定《禁售商品及信息名录》明确禁止平台商家销售防狼喷雾、吹镖和狩猎弓等高杀伤性管制器具[21]。2017年亚马逊Amazon德国站应德国民众要求在其电商平台中全面禁售与纳粹有关的一切产品带有纳粹标志的连帽衫、T恤等[22]。2018年淘宝发布《关于虚拟货币类商品规则解读变更公示通知》明确虚拟货币的生成定义范围加强对基于区块链技术生成的数字化产品衍生服务比特币、莱特币等的管控[23]。2019年为进一步保护未成年人身心健康京东将电子烟列入平台禁售商品并通过先屏蔽再下架的方式陆续加强了平台对电子烟类商品烟弹、电子烟油等的管控力度[24]。2021年易贝制定网站管理的长期政策组建了一支遍布多个国家或地区的全球专家团队以加强对平台内容安全风险商品的管控[25]。 面对日益迫切的推荐算法内容安全风险管控需要研究人员也进行了一些探索性研究。代表性研究有 [马2] Shrestha等[26]指出商品推荐列表中可能含有许多意想不到或错误的结果推荐服务提供者应基于具有潜在错误结果的代表性案例对推荐进行人工干预以尽量减少其给平台声誉造成的损害或带来其他风险。李静辉[27]以算法推荐的意识型态风险治理为视角强调电商平台应强化自身的伦理自律时刻把好信息关运用人工审核等方式加大内容安全审核力度积极传播社会主流价值。梅帅[28]从智能算法推荐的技术特质入手分析算法可能引发的社会风险并提出了一套智能算法推荐风险法律规制的路径策略。此外Abul-Fottouh等[29][z3] [马4] 还指出算法在推荐有害内容时可能存在一种同质性效应有害内容越多其越可能被算法推荐而对有害内容的“妖魔化”或对推荐算法的其他改变可能有利于降低其可见性。目前相关研究多聚焦于理论探讨与政策研究尚未见专门针对基于相似用户的CFR算法内容安全风险管控的实验研究关于内容安全风险商品的表现形式、特点和分类的界定尚不清晰尚未建立用于识别内容安全风险的多模态数据特征库因而难以准确识别违法和不良商品。为此设计一种可用的优化算法用于降低基于相似用户的CFR算法内容安全风险。 2 研究方法
2.1 问题陈述 基于相似用户的CFR算法主要包括4个步骤见图1①基于历史消费数据构建用户—商品评分矩阵行代表用户列代表商品②分别计算目标用户A与用户B、C和D之间的评分相似度确定目标用户A的相似用户群用户C和D③构建目标用户A的相似度矩阵并结合相似用户C和D的历史评分对A行缺失评分如A行中的商品1和商品4进行预测④根据A行各商品评分值高低降序排列从n个商品中为用户生成长度为lln的商品推荐列表B(u)。当目标用户A再次打开该电商平台时在“猜你喜欢”模块将B(u)推荐给用户。 图1 商品推荐中基于相似用户的CFR算法运算过程[l5] [马6]
Fig.1 The process of CFR algorithm based on similar users in product recommendation 如图1所示用户—商品评分矩阵是CFR算法的数据基础但是却蕴含着向用户推荐违反伦理审查规范商品的风险。为降低算法推荐内容安全风险保证优化算法的效用和可操作性需要考虑3个问题① 用户—商品评分矩阵的构建方式无法判断哪些商品具有内容安全风险。如研究人员通常仅利用商品ID、用户ID和评分构建矩阵[13]但此种方式并不涉及商品内容商品标题、商品展示图等②用户—商品评分矩阵的处理方式无法避免内容安全风险商品参与CFR算法的运算。如研究人员通常采用奇异值分解[30]等算法降低评分矩阵维度虽然能够较为有效地缓解数据稀疏对CFR算法的影响但是内容安全风险商品同其他商品一样参与整个降维过程并不能降低其在整个评分矩阵中的占比③从理论上讲越早发现风险商品越有利于降低CFR算法的内容安全风险。如工业场景中一般在产品上线后评分矩阵构建前通过前端人工排查的方式对内容安全风险商品进行管控。但是此种方法不仅应用难度较大人力成本高和效率低而且排查人员的管控尺度也存在一定差异[31]。 2.2研究步骤[马7] 本文以算法构建和实验检验为主综合利用实地调研、政策文本内容分析等混合方法开展研究[32]。首先利用实地调研 (3个月)、半结构化访谈 (4名电商平台在职员工)、网站调查 (7个主流电商平台) 和主题分析等方法对电商平台中内容安全风险商品的定义、外在表现形式和特点进行界定然后构建用于识别内容安全风险商品的多模态特征库并借助深度学习和多模态融合技术提出一种面向内容安全风险管控的协同过滤推荐算法最后通过实验检验了本文优化思路和所提算法的有效性。 6 研究结论与讨论
6.1 研究结论 为了在商品推荐算法中有效管控电商内容安全风险本文利用深度学习VGGNet16, HTCBOW和多模态后期融合技术将内容安全风险问题纳入用户协同过滤推荐算法的优化过程提出融合多模态特征的CSCFR算法实验结果表明CSCFR算法在过滤内容安全风险商品方面的性能优于多个传统算法。鉴于该领域相关研究较少本文首先通过实地调研、网站调查、访谈和实验等混合研究方法对内容安全风险商品的定义、外在表现形式、特点、分类和风险程度进行了界定将内容安全风险商品划分为7个大类色情低俗、暴恐、军警、政治反动、毒品、民族宗教和违法违规和22个小类并依据其风险水平进一步划分为8个严重风险子类和14个一般风险子类。在此基础上利用图像增强和特征词提取等技术方法构建了一个可用于识别内容安全风险商品的特征库用于训练面向电商内容安全风险管控的CSCFR算法。最后通过设计和实施严格的对照实验证明了CSCFR算法的有效性。 6.2 研究意义 1理论价值。算法伦理是情报学研究领域的前沿问题相关文献从信息质量、信息茧房、算法优化、信息安全等视角展开较多研究但是现有与协同过滤推荐算法CFR优化有关的研究缺少对于内容安全风险管控这一重要信息伦理问题的考察。本文主要贡献:①通过定性与定量相结合的混合研究方法对内容安全风险商品的定义、外在表现形式、特点、分类和风险程度进行了系统界定为后续识别和处理内容安全风险商品划定了边界。②借助图像增强和特征提取等技术初步构建了一个用于识别内容安全风险商品的多模态特征库。研究人员可在此基础上结合具体应用场景进一步对其进行扩展和复用为后续识别和处理内容安全风险商品奠定了基础。③提出一种侧重于应对内容安全风险的CSCFR算法在降低算法内容安全风险的同时也在一定程度上提升了算法性能可为以后CFR算法优化研究提供参考。 2现实意义。本文的成果可为希望改善CFR算法内容安全风险问题的政策制定者和电商推荐服务提供者提供参考并具有向文献信息推荐、网络信息治理等其他领域迁移的潜力。推荐服务提供者在进行CFR算法的设计与应用时应结合具体场景平衡好算法内容安全风险、算法性能和数据稀疏性之间的关系而不应一味追求算法性能因为这可能导致更高的内容安全风险。为此可以根据本研究给出的内容安全风险商品的定义、外在表现形式、特征和分类等运用CSCFR算法依次对评分矩阵进行内容安全风险商品的识别与剔除、用户聚类和商品推荐。 3局限性和未来研究方向。①本文实验数据为定向爬虫在某知名电商平台采集的真实数据虽然从中随机生成了3个实验数据集并进行3次重复实验但考虑到电商平台的商品经营类目和目标用户群体等存在差异本文的主要成果可能在其他电商平台上的实用性有限。因此未来的研究可能会采集多个电商平台的真实数据以验证成果的科学性和实用性。②本文用于识别内容安全风险商品的相关算法模型VGGNet16, HTCBOW等能够帮助服务推荐商在CFR算法内容安全风险问题上采取切实可行的应对措施但仍存在优化空间。因此未来的研究可能会将现有算法替换为性能更优的算法如将VGGNet16替换为ResNet50HTCBOW替换为Bert等以进一步提升内容安全风险商品的识别效果。同时本文所构建的多模态特征库可在实际使用过程中进行丰富与完善。如增加分类数、扩大数据量等并可基于线上问卷或线下用户实验方式[45]不定期对算法推荐结果进行评价及时对特征库和推荐算法进行调整。 参考文献 [1] Esteban A, Zafra A, Romero C.Helping university students to choose elective courses by using a hybrid multi-criteria recommendation system with genetic optimization[J].Knowledge-Based Systems,2019,194:105385. [2] Huang Xiken, Lu Ruqian.An evolving network model with information filtering and mixed attachment mechanisms[J].Physica A: Statistical Mechanics and its Applications,2019,545:123421. [3] Tian Yonghong, Zheng Bing, Wang Yanfang, Zhang Yue, Wu Qi.College library personalized recommendation system based on hybrid recommendation algorithm[J].Procedia CIRP,2019,83:490-494. [4] Li Jianjiang, Zhang Kai, Yang Xiaolei, Wei Peng, Wang Jie, Mitra K, Ranjian R.Category preferred canopy–K-means based collaborative filtering algorithm[J].Future Generation Computer Systems,2019,93:1046-1054. [5] Jakomin M, Bosnic Z, Curk T.Simultaneous incremental matrix factorization for streaming recommender systems[J].Expert Systems with Applications,2020,160:113685. [6] Billsus D, Pazzani M J. Learning collaborative information filters[A]. Proceedings of the Icml[C]. Wisconsin: AAAI-98, 1998:46-54. [7] Afoudi Y, Lazaar M, Al Achhab M. Hybrid recommendation system combined content-based filtering and collaborative prediction using artificial neural network[J].Simulation Modelling Practice and Theory,2021,113:102375. [8] 王红霞, 陈健, 程艳芬.采用评论挖掘修正用户评分的改进协同过滤算法[J].浙江大学学报(工学版),2019,53(3):522-532. [9] Hammou B, Lahcen A, Mouline S. An effective distributed predictive model with Matrix factorization and random forest for Big Data recommendation systems[J].Expert Systems with Applications,2019,137:253-265. [10] Li Kangkang, Zhou Xiuze, Lin Fan, Zeng Wenhua, Wang Beizhan, Alterovitz G.Sparse online collaborative filtering with dynamic regularization[J].Information Sciences,2019,505:535-548. [11] Zhao Yaodong, Cai Shimin, Tang Ming, Shang Minsheng.Coarse cluster enhancing collaborative recommendation for social network systems[J].Physica A: Statistical Mechanics and its Applications,2017,483:209-218. [12] Feng Yong, Han Xiaolong, Fu Chenping, Wang Rongbing, Xu Hongyan.Commodity recommendation method integrating user trust and brand recognition[J].Journal of Computer Applications,2018,38(10):2886-2891. [13] Zhang Xiaofeng, Liu Huijie, Chen Xiaoyun, Zhong Jingbin, Wang Di.A novel hybrid deep recommendation system to differentiate user’s preference and item’s attractiveness[J].Information Sciences,2020,519:306-316. [14] Badsha S, Yi X, Khalil I, et al. Privacy preserving user-based recommender system[A]. Proceedings of the 2017 IEEE 37th International Conference on Distributed Computing Systems (ICDCS)[C]. IEEE, 2017:10174-1083. [15] Melchiorre A B, Rekabsaz N, Parada-Cabaleiro E, et al. Investigating gender fairness of recommendation algorithms in the music domain[J].Information Processing Management,2021,58(5):102666. [16] Symeonidis P, Coba L, Zanker M.Counteracting the filter bubble in recommender systems: novelty-aware matrix factorization[J].Intelligenza Artificiale,2019,13(1):37-47. [17] Sattes S O T U.Algorithmic Accountability Act[EB/OL]. [2022-03-03].https://www.wyden.senate.gov/. [18] 中研院法律所.加拿大公部门采用自动决策系统工具前必须完成演算影响评估[EB/OL]. [2022-03-03].https://infolaw.iias.sinica.edu.tw/?p1606/. [19] EU.White paper on artificial intelligence - a European approach to excellence and trust[EB/OL]. [2020-03-03].https://ec.europa.eu/info/sites/default/files/commission-white-paper-artificial-intelligence-feb2020_en.pdf. [20] 中国网信网.互联网信息服务算法推荐管理规定[EB/OL].[2020-03-03].https://www.samr.gov.cn/xw/mtjj/202201/t20220104_338828.html. [21] 人民日报.网售违禁物品屡禁不止多头监管存在管理盲区[EB/OL].[2022-03-04].http://news.iqilu.com/china/gedi/2016/0722/2918577.shtml. [22] 亿恩跨境电商新媒体.亚马逊上这款儿童玩具中枪德国发起禁售请愿[EB/OL].[2022-3-4].https://www.amz123.com/thread-15814.htm. [23] WEMONEY.淘宝禁售虚拟货币商品封杀区块链宠物、ICO相关服务[EB/OL].[2022-03-04].https://www.sohu.com/a/227967839_104421. [24] 央视网新闻.京东下架电子烟电子烟禁止网售的真实原因是什么[EB/OL].[2022-03-04].https://news.e23.cn/wanxiang/2019-11-06/2019B0600042.html. [25] 跨境知道.跨境知道快讯eBay授权监管机构对被禁止的物品进[EB/OL].[2022-03-04].https://www.ikjzd.com/articles/145611. [26] Shrestha Y R, Krishna V, Von Krogh G.Augmenting organizational decision-making with deep learning algorithms: principles, promises, and challenges[J].Journal of Business Research,2021,123:588-603.[27] 李静辉.算法推荐意识形态属性的生成逻辑、风险及治理[J].理论导刊,2022(2):70-76. [28] 梅帅.智能算法推荐的社会风险及其法律规制[J].科学·经济·社会,2022,40(1):80-96. [29] Abul-Fottouh D, Song M Y, Gruzd A.Examining algorithmic biases in YouTube’s recommendations of vaccine videos[J].International Journal of Medical Informatics,2020,140:104175. [30] Natarajan S, Vairavasundaram S, Natarajan S, et al.Resolving data sparsity and cold start problem in collaborative filtering recommender system using linked open data[J].Expert Systems with Applications,2020,149:113248. [31] Haesevoets T, De Cremer D, Dierckx K, Van Hiel A.Human-machine collaboration in managerial decision making[J].Computers in Human Behavior,2021,119:106730. [32] 王芳, 祝娜, 翟羽佳.我国情报学研究中混合方法的应用及其领域分布分析[J].情报学报,2017,36(11):1119-1129. [33] Nicholson M, Clarke I, Blakemore M. One brand, three ways to shop: situational variables and multichannel consumer behaviour[J].The International Review of Retail, Distribution and Consumer Research,2002,12(2):131-148. [34] Venugopal V, Sahoo S, Zaki M, et al.Looking through glass: knowledge discovery from materials science literature using natural language processing[J].arXiv preprint arXiv:210101508,2021. [35] 王建仁, 马鑫, 段刚龙, 薛宏全.边缘智能背景下的手写数字识别[J].计算机应用,2019,39(12):3548-3555. [36] Simonyan K, Zisserman A.Very deep convolutional networks for large-scale image recognition[J].arXiv preprint arXiv:14091556,2014. [37] Zhu Yong, Li Guangpeng, Wang Rui, Tang Shengnan, Su Hong, Cao Kai.Intelligent fault diagnosis of hydraulic piston pump combining improved LeNet-5 and PSO hyperparameter optimization[J].Applied Acoustics,2021,183:108336. [38] Xu Zhenyi, Cao Yang, Kang Yu.Deep spatiotemporal residual early-late fusion network for city region vehicle emission pollution prediction[J].Neurocomputing,2019,355:183-199. [39] Anitha P, Patil M M.RFM model for customer purchase behavior using K-Means algorithm[J].Journal of King Saud University-Computer and Information Sciences,2019,34(5):1795-1792. [40] 胡潜, 林鑫.社会化标注系统中基于标签和项目的兴趣建模比较研究[J].情报学报,2015,34(12):1296-1303. [41] Li Chenglong, Wang Zhaoguo, Cao Shoufeng, He Longtao.WLRRS: a new recommendation system based on weighted linear regression models[J].Computers Electrical Engineering,2018,66:40-47. [42] 潘家辉, 何志鹏, 李自娜, 梁艳, 邱丽娜.多模态情绪识别研究综述[J].智能系统学报,2020,15(4):633-645. [43] 李霞, 卢官明, 闫静杰, 张正言.多模态维度情感预测综述[J].自动化学报,2018,44(12):2142-2159. [44] Zhang Yingyi, Zhang Chengzhi, Li Jing.Joint modeling of characters, words, and conversation contexts for microblog keyphrase extraction[J].Journal of the Association for Informaton Science and Technology,2020,71(5):553-567. [45] Wu Zongda, Li Renchao, Zhou Zhifeng, Guo Junfang, Jiang Jionghui, Ss Xinning.A user sensitive subject protection approach for book search service[J]. Journal of the association for informaton science and technology,2020,71(2):183-195.