专业的短链接生成工具
链接域名
短网址有效期
基于社交媒体短链接的舆情热点数据挖掘
更新时间:2025-5-11 13:39:59 作者:爱短链
摘要:近年来,网络舆情热点数据挖掘受到广泛关注。获取社交媒体数据、找出舆情热点相对容易,但现有的网页舆情热点数据挖掘方法存在系统开销大、时效性差等问题。从社交媒体日益流行的短链接入手,分析其在挖掘网页舆情热点中的价值,并在此基础上提出一种网页舆情热点数据挖掘方法。
关键词:社交媒体短链接;舆论热点;数据挖掘
1 互联网舆论热点及现有数据挖掘方法
1.1个互联网舆论热点
舆论是指公众对现实社会和社会中各种现象和问题所表达的信念、态度、意见和情感表达的总和。它相对一致、强烈和持久。过程会产生影响。
随着个人电脑、智能手机等设备的普及以及新兴市场互联网接入的不断增长,互联网已成为人们获取和传播信息的主要渠道。据英国《经济学人》杂志2010年估计,全球网络信息总量的年复合增长率已达到60%,而且还在加速。美国国际数据公司(IDC)提出了“数字宇宙”的概念,预计到2020年,“数字宇宙”规模将超过40ZB。通过互联网这种新的传播载体,传统舆论有了新的表现形式,即网络舆论,具有传播迅速、信息多样、互动方式等特点。
网络舆论热点是网民思想、情感和兴趣诉求在互联网上的集中体现,是网民热切关注和集中讨论的焦点。是社会舆论热点在互联网上的映射,反过来又会对现实社会产生深远的影响。因此,越来越多的政府部门、企事业单位越来越重视网络舆论热点。
1.2网页舆情数据挖掘方法
从浩瀚的网络舆情中筛选出热点舆情的前提是尽可能多地获取网络舆情数据。网络舆情数据的主要来源有:网站、论坛、博客、社交媒体等。其中,微博等社交媒体普遍嵌入搜索引擎,对外开放API接口。针对性的数据爬虫技术比较成熟,大部分都有自己的热门话题排名等功能。因此,我们获取社交媒体数据,找出舆论热点并不难。本文将网络舆情数据挖掘的范围集中在除社交网络之外的网页数据上。目前,网络舆情数据的挖掘主要依靠搜索引擎,主要分为以下三类[56]:
(1)搜索索引/目录)。手动或半自动收集信息,手动形成摘要和分类,实现目录浏览和检索功能。这种方法费时费力,信息量小。 ,更新慢,不适合现在的网络开发。
(2)全文搜索引擎)。这个引擎一般都有自己的索引器,俗称“蜘蛛”、“机器人”或“爬虫”(Crawler),通过链接从互联网上提取各个网站的信息,并建立数据库,实现对整个网站的数据采集。互联网公共网页。对于互联网上出现的新数据,全文搜索引擎通过一系列优化算法提高采集效率。常见的策略包括: ①根据被爬取的网页中包含的外部链接,任何被采集系统识别为未记录的站点或内容都将被分配一个爬取任务; ②识别各站点的网页更新率,调整采集频率; ③根据每个站点或内容站点的分类属性来确定采集或解析的准确性。
目前全文搜索引擎的采集策略是最优化的网络舆情数据采集机制,但其缺点是需要大量投入。由于其目标是尽快收集全球所有互联网公共网页数据,因此对数据量和收集频率提出了极高的要求。目前,全球主流的全文搜索引擎谷歌每年投入超过百亿美元来维护其庞大的收藏系统和搜索产品的维护与开发。同时,由于采集面过于广泛,缺乏针对性,其数据采集的时效性也大打折扣。即使收集到数据,也只能通过同一主题的聚类算法[7]粗略判断网络热点。因此,全文搜索引擎全拓扑获取策略不适合那些数据需求明确,只关注互联网极少数网页舆情热点数据需求的人。
(3)元搜索引擎(META Search Engine)。这类引擎在接收到用户的关键字查询请求时,会同时在多个其他引擎(通常是全文搜索引擎)上进行搜索,并会结果汇总整理后反馈给用户,由于直接使用其他引擎的搜索结果,元搜索引擎在系统开发和维护方面成本极低,但也存在全文搜索的不足引擎在时效性和网络舆情热点算法方面,这里不再赘述。
2 短链接及其价值
2.1 短链接概念
短链接,也称为URL缩短(URL缩短),是一种在互联网上使用的技术,可以有效地缩短一个URL的长度,但仍然允许访问原始网址[8]。它通常包括短链接生成和地址重定向两个过程。短链接服务提供商将向用户提供一个界面,该界面包含一个脚本,该脚本包含要缩短的目标长地址。系统经过防滥用、URL过滤验证等后会生成一个随机字符串,并将该字符串与目标地址进行关联。某些表单关联地存储在数据库中,并返回与该字符串关联的短链接。当用户访问短链接时,服务商通过数据库匹配得到对应的目标长地址,并利用301、302或META等域名重定向技术引导用户访问目标网站[9] .
短链接的广泛使用是由于 Twitter 和微博等社交媒体在全球范围内的流行以及它们对发布内容长度的严格限制。 Twitter的字数限制为140个字符,而新浪微博的字数限制为140个字符。受限于上述限制,想要在这些社交媒体上发布外部网页链接的用户必须求助于短链接。据统计,仅2009年,美国知名短链接服务商Bitly的短链接访问量就高达2.1亿[10]。
2.2个短链接对挖掘网络舆情热点的价值
帕累托原则,也称为80/80法则或80/20法则,指出在很多情况下,80%的结果取决于20%的原因[11],而这个法则目前是广泛应用于各个领域。同样,对于互联网上的舆情数据,具有传播价值并将成为舆论热点的数据量在数据总量中所占的比例很小。如果能准确知道网页数据的传播价值解读:一种基于社交媒体短链接的网络舆情热点数据挖掘方法,就可以获得全网80%以上的网页数据价值,成本至少比全网采集成本低20%,并发现出热点;并丢弃这部分数据的80%以上。传播价值极低,从获取舆情热点数据的角度来看是可以接受的。那么,如何准确、实时地了解舆情数据在网络中的传播价值呢?现有技术已经能够实时跟踪数亿用户的社交媒体数据并识别其受欢迎程度,因此只要从社交网络中实时识别出所有指向第三方网页的短链接都被解析,并且包含短链接的社交媒体 对媒体数据的重新评估,以衡量该短链接指向的数据的价值。这样短链接统计,至少可以从以下两个方面获得有价值的数据:
(1)网页舆情热点数据。社交媒体是目前世界上最好的快速信息传播渠道。只要有数亿甚至数十亿的用户对第三方有意见- 派对网页内容 分享或传播的冲动可能会将其作为短链接发布在社交媒体上。全球有数十亿社交网络用户,他们每天可能访问的网站几乎涵盖了所有公共网络内容。因此,这策略相当的目的是让亿万网民为系统手动过滤有价值的信息。收集这部分数据,就相当于收集了最精华的网页舆情热点数据。
(2)实时热门网站。除了页面内容本身,所有短链接指向的外部地址都会有自己的顶级域名。通过一定的网站人气算法,顶级-可实时统计一段时间内短链接指向的一级域名 可以知道哪些网站最有可能产生舆情热点数据,并识别一些新的网站来源,从而实现实时获取热门网站列表。
3一种基于短链接的网络舆情热点挖掘方法
3.1 社交媒体数据收集
目前收集微博等社交媒体数据的常用策略有两种:(1)通过社交媒体官方提供的API(Application Programming Interface)进行收集[12]。但是,所有社交媒体服务提供商都不会无条件向普通用户开放完整的 API。它们提供的接口在级别、权限、调用次数等方面都有限制,返回的内容是指定的[13]。因此,使用 API。该方法只能解决数据采集中的部分问题; 2)利用程序模拟浏览器行为登录相关社交媒体[14],利用爬虫技术获取数据并持久化的策略。与两种策略相比,通过API获取数据的效率较高,但受服务商限制较大;爬虫策略的效率比较低,但是得到的数据比较完整,稳定性较好[15]。以上两种策略的有效融合,基本可以实现社交媒体数据的最优采集。
3.2 短链接的过滤和解析
在全面收集社交媒体数据的基础上,过滤提取其中的短链接。目前,国内外有很多网站提供短链接服务。比较常用的有goo.gl、bit.ly、adf.ly、t.co等300多个。但是转换后的短链接是按照一定的规则命名的。一般以上述域名作为短地址的开头。只要遵循这些规则,就可以很容易地提取出来。之后,通过其服务提供网站将提取的短链接一一还原,得到原始URL地址。
3.3获取网页舆情热点和热门网站数据
在采集获取到的URL地址对应的网页数据时短链接统计,以相关URL地址对应的社交媒体信息转发数和评论数为重要指标,制定网站流行度算法,生成真实-网站的时间反映。人气榜。根据列表的排名,形成采集任务序列,对相关网站进行深度采集,获取其全站内容。
通过以上3个步骤,实现了基于社交媒体短链接的网页舆情热点数据挖掘,但完全依赖社交媒体短链接可能会漏掉一些具有阅读价值但缺乏传播价值的网页数据,从而导致数据收集不够全面。因此,如果以搜索引擎对某些特定关键词的实时搜索结果作为数据补充,预计能够维持下去。
以接收为代价,挖掘几乎所有网页舆情热点数据和用户特定需求数据的目标。
一般使用数据表中的自增id来完成:每次查询数据表中自增id的最大值,对应的长URL的自增id值被插入是
max+1,将max+1转换成16进制得到短码。
但是短码id是从一位长度递增的,短码的长度不固定,但是可以用id
从指定的数字开始增加,以确保所有短代码具有相同的长度。同时生成的短码是有序的,可能存在安全问题。生成的短码id可以和长网址等其他关键字进行md5操作,生成最终的短码。
总结算法
摘要算法也称为哈希算法,即任意长度的输入数据和固定长度的输出数据。相同的输入数据总是得到相同的输出,不同的输入数据试图得到不同的输出。
算法过程:
长网址md5会生成一个32位的签名串,分为4段,每段8字节;
对于这四个循环短链接服务,取8个字节,把它当作16进制字符串和0x3fffffff(30位1)和操作,即忽略30位以上的处理;
30位数字分为6段,每个5位数字作为字母表的索引,得到特定字符,依次得到6位字符串;
总共md5字符串可以得到4个6位字符串;其中任何一个都可以作为这个长url的短url地址;
虽然这个算法会产生4个,但还是有重复的机会。
虽然概率小短链接算法,但是这种方法还是有冲突的可能,解决冲突会比较麻烦。但是这种方法生成的短码数量是固定的,连续生成的短码没有先后顺序。
普通随机数
这种方法是从62个字符串中随机选择一个6位短码的组合,然后到数据库中检查该短码是否已经存在。如果已经存在,则继续循环该方法再次获取短码,否则直接返回。
这个方法最容易实现,但是由于 Math.round()
该方法生成的随机数是伪随机数,碰撞的可能性不小。在数据量大的情况下,可能会重复多次生成不冲突的短码。
算法分析
我们将一一分析上述算法的优缺点。
如果你使用自增 id 算法,就会出现不法分子可以穷举你的短链地址的问题。原理是将十进制数转换为62,这样别人就可以用同样的方法遍历你的短链,得到对应的原始链接。例如:和 [
这两个短链网站,分别从a3300 - a3399,可以多次尝试并返回正确的url。因此,这种方式生成的短链实际上对用户来说并不安全。
摘要算法实际上是一种哈希算法。说到散列,大家可能觉得很低,但实际上散列可能是最优解。例如:和
发现不断生成的url没有规律短链接服务,很有可能是用hash算法来实现的。
普通的随机数算法,这个算法生成的东西和摘要算法一样,但是碰撞的概率会更高。因为摘要算法毕竟是对URL进行hash,而随机数算法就是简单的随机生成,一旦数字上来,难免会导致重复。
结合以上,我选择最低的算法:摘要算法。
实施
存储方案
数据库存储方案
短网址的基本数据以域名和后缀的形式分开存储。另外,域名需要区分HTTP和
HTTPS,哈希方案对整个链接进行哈希处理,而不是对除域名以外的链接进行哈希处理。域名单独保存,可用于分析当前域名下的链接使用情况。
添加当前链接有效性字段。一般来说,短链需求可能是相关活动或热点事件。这条短链会在一段时间内非常活跃,一段时间后景气度会继续下降。所以没有必要永久保留这种链接,增加每次查询的负担。
对于过期数据的处理,可以在添加新短链时判断当前短链的过期日期,在HBase中为每天到达过期日期的数据单独建表,判断过期日期添加新的时。对应的HBase表就够了,每天只处理当天HBase表中的无效数据。
数据库的基本表如下:
字段定义:
base_url:域名
suffix_url:链接除域名外的后缀
full_url:完整链接
shot_code:当前 suffix_url 链接的简码
expiration_date:到期日期
total_click_count:当前链接点击总数
expiration_date:当前链接到期日期
缓存方案
我个人认为在缓存中存储数百个G数据是不合适的,所以有一个折中的解决方案:将最近3个月的查询或新的URL放入缓存,使用LRU算法进行热更新。这样发送最近使用的概率会命中缓存,所以不用去库了。找不到的时候去图书馆更新缓存。 (关注互联网架构师公众号回复“2T”,送你惊喜大礼包。)
对于新添加的链接,先检查缓存是否存在,如果缓存不存在再检查数据库。数据库已经分表了,查询效率不会很低。
查询要求是用户持有短链查询对应的真实地址,那么缓存的key只能是短链,可以以KV的形式存储。
额外
其实也可以考虑其他的存储方案,比如HBase,作为NOSQL数据库,HBase在性能上仅次于redis,但是存储成本比redis低很多数量级。存储基于HDFS,写入数据时会先写入内存。 ,只有当内存已满时,才会将数据刷新到 HFile 中。读取数据也更快,因为它使用 LSM 树结构而不是 B 或 B+ 树。 HBase 会使用 LRU 算法将最近读取的数据放入缓存中。如果想增强读取能力,可以增加blockCache。
其次,也可以使用ElasticSearch,适当的索引规则的效果并不逊色于缓存方案。
是否需要分库分表?
单条数据小于10b,1亿条数据的总容量约为
953G,单米肯定支持不了这么大的体积,所以需要分米。如果您有信心在2年内服务可以达到这个规模,那么您可以从一开始就考虑分米的计划。 .
那么如何定义子表的规则呢?
如果单表500万条记录,一共可以分成20张表,那么单表的容量是47G,还是蛮大的,所以考虑分表的key
而单表的容量,如果分成100个表,那么单表的容量是10G干货内容:腾讯面试题:如何实现类似于新浪微博的短链接服务!,通过数字后缀路由到表更容易。可用于short_code
编码生成数值类型,然后进行路由。
如何跳跃
当我们在浏览器中输入时
DNS首先解析IP地址
当DNS获取到一个IP地址(例如:12.34.5.32)时,会向该地址发送HTTPGET请求,查询短代码a3300
p>
服务器会通过短码a3300获取对应的长URL
以上就是关于《基于社交媒体短链接的舆情热点数据挖掘》的全部内容了,感兴趣的话可以点击右侧直接使用哦!》》在线短链接生成器