快速网站推广优化,谷歌浏览器官网下载安装,天元建设集团有限公司张桂玉,wordpress怎样建立多站点一、产品背景今日头条是为用户提供个性化资讯客户端。下面就和大家分享一下当前今日头条的数据(据内部与公开数据综合)#xff1a;5亿注册用户2014年5月1.5亿#xff0c;2015年5月3亿#xff0c;2016年5月份为5亿。几乎为成倍增长。日活4800万用户2014年为1000万日活#x…一、产品背景今日头条是为用户提供个性化资讯客户端。下面就和大家分享一下当前今日头条的数据(据内部与公开数据综合)5亿注册用户2014年5月1.5亿2015年5月3亿2016年5月份为5亿。几乎为成倍增长。日活4800万用户2014年为1000万日活2015年为3000万日活。日均5亿PV5亿文章浏览视频为1亿。页面请求量超过30亿次。用户停留时长超过65分钟以上二、技术与架构演进1、文章抓取与分析我们日常产生原创新闻在1万篇左右包括各大新闻网站和地方站另外还有一些小说博客等文章。这些对于工程师来讲写个Crawler并非困难的事。接下来今日头条会用人工方式对敏感文章进行审核过滤。此外今日头条头条号目前也有为数不少的原创文章加入到了内容遴选队列中。接下来我们会对文章进行文本分析比如分类标签、主题抽取按文章或新闻所在地区热度权重等计算。2、用户建模当用户开始使用今日头条后对用户动作的日志进行实时分析。使用的工具如下- Scribe- Flume- Kafka我们对用户的兴趣进行挖掘会对用户的每个动作进行学习。主要使用- Hadoop- Storm产生的用户模型数据和大部分架构一样保存在MySQL/MongoDB(读写分离)以及Memcache/Redis中。随着用户量的不断扩展大用户模型处理的机器集群数量较大。2015年前为7000台左右。其中用户推荐模型包括以下维度1 用户订阅2 标签3 部分文章打散推送此时需要每时每刻做推荐。3、新用户的“冷启动”今日头条会通过用户使用的手机操作系统版本等“识别”。另外比如用户通过社交帐号登录如新浪微博头条会对其好友粉丝微博内容及转发、评论等维度进行对用户做初步“画像”。分析用户的主要参数如下- 关注、粉丝关系- 关系- 用户标签除了手机硬件今日头条还会对用户安装的APP进行分析。例如机型和APP结合分析用小米用三星的和用苹果的不同另外还有用户浏览器的书签。头条会实时捕捉用户对APP频道的动作。另外还包括用户订阅的频道比如电影段子商品等。4、推荐系统推荐系统也称推荐引擎。它是今日头条技术架构的核心部分。包括自动推荐与半自动推荐系统两种类型1 自动推荐系统- 自动候选- 自动匹配用户如用户地址定位抽取用户信息- 自动生成推送任务这时需要高效率大并发的推送系统上亿的用户都要收到。2 半自动推荐系统- 自动选择候选文章- 根据用户站内外动作头条的频道在技术侧划分的包括分类频道、兴趣标签频道、关键词频道、文本分析等这些都分成相对独立的开发团队。目前已经有300个分类器仍在不断增加新的用户模型原来的用户模型不用撤消仍然发挥作用。在还没有推出头条号时内容主要是抓取其它平台的文章然后去重一年几百万级并不太大。主要是用户动作日志收集兴趣收集用户模型收集。资讯App的技术指标比如屏幕滑动用户是不是对一篇都看完停留时间等都需要我们特别关注。5、数据存储今日头条使用MySQL或Mongo持久化存储Memched(Redis)分了很多库(一个大内存库)亦尝试使用了SSD的产品。今日头条的图片存储直接放在数据库中分布式保存文件读取的时候采用CDN。6、消息推送消息推送对于用户: 及时获取信息。对运营来讲能够 提⾼⽤用户活跃度。比如在今日头条推送后能够提升20%左右的DAU如果没有推送会影响10%左右 DAU(2015年数据)。推送后要关注的ROI点击率点击量。能够监测到App卸载和推送禁用数量。今日头条推送的主要内容包括突发与热点咨讯有人评论回复站外好友注册加入。在头条推送也是个性化- 频率个性化- 内容个性化- 地域- 兴趣比如按照城市辽宁朝阳发生的某个新闻事件发给朝阳本地的用户。按照兴趣比如京东收购一号店发给互联网兴趣的用户。推送平台的工具和选择需要具备如下的标准- 通道首先速度要快但是要可控可靠并且节省资源- 推送的速度要快有不同维度的策略支持可跟踪开发接口要友好- 推送运营的后台反馈也要快包括时效性热度工具操作方便- 对于运营侧清晰是否确定推荐包括推送的文案处理因此推送后台应该提供日报完整的数据后台提供A/B Test方案支持。推送系统一部分使用自有IDC在发送量特别大消耗带宽较严重。可以使用类似阿里云的服务可有效节省成本。7、延展思考现在很多客户端都会需要推荐技术比如电商、旅游类的商品推荐也可以有娱乐头条、健康头条、体育头条等类似的应用这些产品在技术侧的实现包括用户模型数据都是相通的。作者杜江。21CTO(21cto.com)社区创始人。多年架构与管理经验 原赶集网创始工程师正和岛CTO以及今日头条今日特卖技术负责人。 著有《PHP5与MySQL5 Web开发技术详解》、《PHP5完全攻略》、《PHP与MySQL高性能应用开发》(即将出版)。原文链接http://mp.weixin.qq.com/s?__bizMjM5NTg2NTU0Ngmid2656593843idx1sn6a96c9221fd45d0f72c5a4c1c99a02e3scene0#wechat_redirect