首页 / 短链 / 基于社交媒体短链接的舆情热点数据挖掘

专业的短链接生成工具

链接域名

短网址有效期

基于社交媒体短链接的舆情热点数据挖掘

更新时间:2025-5-11 13:39:59 作者:爱短链

摘要:近年来,网络舆情热点数据挖掘受到广泛关注。获取社交媒体数据、找出舆情热点相对容易,但现有的网页舆情热点数据挖掘方法存在系统开销大、时效性差等问题。从社交媒体日益流行的短链接入手,分析其在挖掘网页舆情热点中的价值,并在此基础上提出一种网页舆情热点数据挖掘方法。


关键词:社交媒体短链接;舆论热点;数据挖掘


1 互联网舆论热点及现有数据挖掘方法

1.1个互联网舆论热点


舆论是指公众对现实社会和社会中各种现象和问题所表达的信念、态度、意见和情感表达的总和。它相对一致、强烈和持久。过程会产生影响。


随着个人电脑、智能手机等设备的普及以及新兴市场互联网接入的不断增长,互联网已成为人们获取和传播信息的主要渠道。据英国《经济学人》杂志2010年估计,全球网络信息总量的年复合增长率已达到60%,而且还在加速。美国国际数据公司(IDC)提出了“数字宇宙”的概念,预计到2020年,“数字宇宙”规模将超过40ZB。通过互联网这种新的传播载体,传统舆论有了新的表现形式,即网络舆论,具有传播迅速、信息多样、互动方式等特点。


网络舆论热点是网民思想、情感和兴趣诉求在互联网上的集中体现,是网民热切关注和集中讨论的焦点。是社会舆论热点在互联网上的映射,反过来又会对现实社会产生深远的影响。因此,越来越多的政府部门、企事业单位越来越重视网络舆论热点。


1.2网页舆情数据挖掘方法

从浩瀚的网络舆情中筛选出热点舆情的前提是尽可能多地获取网络舆情数据。网络舆情数据的主要来源有:网站、论坛、博客、社交媒体等。其中,微博等社交媒体普遍嵌入搜索引擎,对外开放API接口。针对性的数据爬虫技术比较成熟,大部分都有自己的热门话题排名等功能。因此,我们获取社交媒体数据,找出舆论热点并不难。本文将网络舆情数据挖掘的范围集中在除社交网络之外的网页数据上。目前,网络舆情数据的挖掘主要依靠搜索引擎,主要分为以下三类[56]:


(1)搜索索引/目录)。手动或半自动收集信息,手动形成摘要和分类,实现目录浏览和检索功能。这种方法费时费力,信息量小。 ,更新慢,不适合现在的网络开发。


(2)全文搜索引擎)。这个引擎一般都有自己的索引器,俗称“蜘蛛”、“机器人”或“爬虫”(Crawler),通过链接从互联网上提取各个网站的信息,并建立数据库,实现对整个网站的数据采集。互联网公共网页。对于互联网上出现的新数据,全文搜索引擎通过一系列优化算法提高采集效率。常见的策略包括: ①根据被爬取的网页中包含的外部链接,任何被采集系统识别为未记录的站点或内容都将被分配一个爬取任务; ②识别各站点的网页更新率,调整采集频率; ③根据每个站点或内容站点的分类属性来确定采集或解析的准确性。


目前全文搜索引擎的采集策略是最优化的网络舆情数据采集机制,但其缺点是需要大量投入。由于其目标是尽快收集全球所有互联网公共网页数据,因此对数据量和收集频率提出了极高的要求。目前,全球主流的全文搜索引擎谷歌每年投入超过百亿美元来维护其庞大的收藏系统和搜索产品的维护与开发。同时,由于采集面过于广泛,缺乏针对性,其数据采集的时效性也大打折扣。即使收集到数据,也只能通过同一主题的聚类算法[7]粗略判断网络热点。因此,全文搜索引擎全拓扑获取策略不适合那些数据需求明确,只关注互联网极少数网页舆情热点数据需求的人。


(3)元搜索引擎(META Search Engine)。这类引擎在接收到用户的关键字查询请求时,会同时在多个其他引擎(通常是全文搜索引擎)上进行搜索,并会结果汇总整理后反馈给用户,由于直接使用其他引擎的搜索结果,元搜索引擎在系统开发和维护方面成本极低,但也存在全文搜索的不足引擎在时效性和网络舆情热点算法方面,这里不再赘述。


2 短链接及其价值

2.1 短链接概念

短链接,也称为URL缩短(URL缩短),是一种在互联网上使用的技术,可以有效地缩短一个URL的长度,但仍然允许访问原始网址[8]。它通常包括短链接生成和地址重定向两个过程。短链接服务提供商将向用户提供一个界面,该界面包含一个脚本,该脚本包含要缩短的目标长地址。系统经过防滥用、URL过滤验证等后会生成一个随机字符串,并将该字符串与目标地址进行关联。某些表单关联地存储在数据库中,并返回与该字符串关联的短链接。当用户访问短链接时,服务商通过数据库匹配得到对应的目标长地址,并利用301、302或META等域名重定向技术引导用户访问目标网站[9] .


短链接的广泛使用是由于 Twitter 和微博等社交媒体在全球范围内的流行以及它们对发布内容长度的严格限制。 Twitter的字数限制为140个字符,而新浪微博的字数限制为140个字符。受限于上述限制,想要在这些社交媒体上发布外部网页链接的用户必须求助于短链接。据统计,仅2009年,美国知名短链接服务商Bitly的短链接访问量就高达2.1亿[10]。


2.2个短链接对挖掘网络舆情热点的价值

帕累托原则,也称为80/80法则或80/20法则,指出在很多情况下,80%的结果取决于20%的原因[11],而这个法则目前是广泛应用于各个领域。同样,对于互联网上的舆情数据,具有传播价值并将成为舆论热点的数据量在数据总量中所占的比例很小。如果能准确知道网页数据的传播价值解读:一种基于社交媒体短链接的网络舆情热点数据挖掘方法,就可以获得全网80%以上的网页数据价值,成本至少比全网采集成本低20%,并发现出热点;并丢弃这部分数据的80%以上。传播价值极低,从获取舆情热点数据的角度来看是可以接受的。那么,如何准确、实时地了解舆情数据在网络中的传播价值呢?现有技术已经能够实时跟踪数亿用户的社交媒体数据并识别其受欢迎程度,因此只要从社交网络中实时识别出所有指向第三方网页的短链接都被解析,并且包含短链接的社交媒体 对媒体数据的重新评估,以衡量该短链接指向的数据的价值。这样短链接统计,至少可以从以下两个方面获得有价值的数据:


(1)网页舆情热点数据。社交媒体是目前世界上最好的快速信息传播渠道。只要有数亿甚至数十亿的用户对第三方有意见- 派对网页内容 分享或传播的冲动可能会将其作为短链接发布在社交媒体上。全球有数十亿社交网络用户,他们每天可能访问的网站几乎涵盖了所有公共网络内容。因此,这策略相当的目的是让亿万网民为系统手动过滤有价值的信息。收集这部分数据,就相当于收集了最精华的网页舆情热点数据。


(2)实时热门网站。除了页面内容本身,所有短链接指向的外部地址都会有自己的顶级域名。通过一定的网站人气算法,顶级-可实时统计一段时间内短链接指向的一级域名 可以知道哪些网站最有可能产生舆情热点数据,并识别一些新的网站来源,从而实现实时获取热门网站列表。


社交媒体短链接

3一种基于短链接的网络舆情热点挖掘方法

3.1 社交媒体数据收集

目前收集微博等社交媒体数据的常用策略有两种:(1)通过社交媒体官方提供的API(Application Programming Interface)进行收集[12]。但是,所有社交媒体服务提供商都不会无条件向普通用户开放完整的 API。它们提供的接口在级别、权限、调用次数等方面都有限制,返回的内容是指定的[13]。因此,使用 API。该方法只能解决数据采集中的部分问题; 2)利用程序模拟浏览器行为登录相关社交媒体[14],利用爬虫技术获取数据并持久化的策略。与两种策略相比,通过API获取数据的效率较高,但受服务商限制较大;爬虫策略的效率比较低,但是得到的数据比较完整,稳定性较好[15]。以上两种策略的有效融合,基本可以实现社交媒体数据的最优采集。


3.2 短链接的过滤和解析

在全面收集社交媒体数据的基础上,过滤提取其中的短链接。目前,国内外有很多网站提供短链接服务。比较常用的有goo.gl、bit.ly、adf.ly、t.co等300多个。但是转换后的短链接是按照一定的规则命名的。一般以上述域名作为短地址的开头。只要遵循这些规则,就可以很容易地提取出来。之后,通过其服务提供网站将提取的短链接一一还原,得到原始URL地址。


3.3获取网页舆情热点和热门网站数据

在采集获取到的URL地址对应的网页数据时短链接统计,以相关URL地址对应的社交媒体信息转发数和评论数为重要指标,制定网站流行度算法,生成真实-网站的时间反映。人气榜。根据列表的排名,形成采集任务序列,对相关网站进行深度采集,获取其全站内容。


通过以上3个步骤,实现了基于社交媒体短链接的网页舆情热点数据挖掘,但完全依赖社交媒体短链接可能会漏掉一些具有阅读价值但缺乏传播价值的网页数据,从而导致数据收集不够全面。因此,如果以搜索引擎对某些特定关键词的实时搜索结果作为数据补充,预计能够维持下去。


以接收为代价,挖掘几乎所有网页舆情热点数据和用户特定需求数据的目标。



一般使用数据表中的自增id来完成:每次查询数据表中自增id的最大值,对应的长URL的自增id值被插入是

max+1,将max+1转换成16进制得到短码。

但是短码id是从一位长度递增的,短码的长度不固定,但是可以用id

从指定的数字开始增加,以确保所有短代码具有相同的长度。同时生成的短码是有序的,可能存在安全问题。生成的短码id可以和长网址等其他关键字进行md5操作,生成最终的短码。

总结算法

摘要算法也称为哈希算法,即任意长度的输入数据和固定长度的输出数据。相同的输入数据总是得到相同的输出,不同的输入数据试图得到不同的输出。

算法过程:

长网址md5会生成一个32位的签名串,分为4段,每段8字节;

对于这四个循环短链接服务,取8个字节,把它当作16进制字符串和0x3fffffff(30位1)和操作,即忽略30位以上的处理;

30位数字分为6段,每个5位数字作为字母表的索引,得到特定字符,依次得到6位字符串;

总共md5字符串可以得到4个6位字符串;其中任何一个都可以作为这个长url的短url地址;

虽然这个算法会产生4个,但还是有重复的机会。

虽然概率小短链接算法,但是这种方法还是有冲突的可能,解决冲突会比较麻烦。但是这种方法生成的短码数量是固定的,连续生成的短码没有先后顺序。

普通随机数

这种方法是从62个字符串中随机选择一个6位短码的组合,然后到数据库中检查该短码是否已经存在。如果已经存在,则继续循环该方法再次获取短码,否则直接返回。

这个方法最容易实现,但是由于 Math.round()

该方法生成的随机数是伪随机数,碰撞的可能性不小。在数据量大的情况下,可能会重复多次生成不冲突的短码。

算法分析

我们将一一分析上述算法的优缺点。

如果你使用自增 id 算法,就会出现不法分子可以穷举你的短链地址的问题。原理是将十进制数转换为62,这样别人就可以用同样的方法遍历你的短链,得到对应的原始链接。例如:和 [

这两个短链网站,分别从a3300 - a3399,可以多次尝试并返回正确的url。因此,这种方式生成的短链实际上对用户来说并不安全。

摘要算法实际上是一种哈希算法。说到散列,大家可能觉得很低,但实际上散列可能是最优解。例如:和

发现不断生成的url没有规律短链接服务,很有可能是用hash算法来实现的。

普通的随机数算法,这个算法生成的东西和摘要算法一样,但是碰撞的概率会更高。因为摘要算法毕竟是对URL进行hash,而随机数算法就是简单的随机生成,一旦数字上来,难免会导致重复。

结合以上,我选择最低的算法:摘要算法。

实施

存储方案

数据库存储方案

短网址的基本数据以域名和后缀的形式分开存储。另外,域名需要区分HTTP和

HTTPS,哈希方案对整个链接进行哈希处理,而不是对除域名以外的链接进行哈希处理。域名单独保存,可用于分析当前域名下的链接使用情况。

添加当前链接有效性字段。一般来说,短链需求可能是相关活动或热点事件。这条短链会在一段时间内非常活跃,一段时间后景气度会继续下降。所以没有必要永久保留这种链接,增加每次查询的负担。

对于过期数据的处理,可以在添加新短链时判断当前短链的过期日期,在HBase中为每天到达过期日期的数据单独建表,判断过期日期添加新的时。对应的HBase表就够了,每天只处理当天HBase表中的无效数据。

数据库的基本表如下:

字段定义:

base_url:域名

suffix_url:链接除域名外的后缀

full_url:完整链接

shot_code:当前 suffix_url 链接的简码

expiration_date:到期日期

total_click_count:当前链接点击总数

expiration_date:当前链接到期日期

缓存方案

我个人认为在缓存中存储数百个G数据是不合适的,所以有一个折中的解决方案:将最近3个月的查询或新的URL放入缓存,使用LRU算法进行热更新。这样发送最近使用的概率会命中缓存,所以不用去库了。找不到的时候去图书馆更新缓存。 (关注互联网架构师公众号回复“2T”,送你惊喜大礼包。)

对于新添加的链接,先检查缓存是否存在,如果缓存不存在再检查数据库。数据库已经分表了,查询效率不会很低。

查询要求是用户持有短链查询对应的真实地址,那么缓存的key只能是短链,可以以KV的形式存储。

额外

其实也可以考虑其他的存储方案,比如HBase,作为NOSQL数据库,HBase在性能上仅次于redis,但是存储成本比redis低很多数量级。存储基于HDFS,写入数据时会先写入内存。 ,只有当内存已满时,才会将数据刷新到 HFile 中。读取数据也更快,因为它使用 LSM 树结构而不是 B 或 B+ 树。 HBase 会使用 LRU 算法将最近读取的数据放入缓存中。如果想增强读取能力,可以增加blockCache。

其次,也可以使用ElasticSearch,适当的索引规则的效果并不逊色于缓存方案。

是否需要分库分表?

单条数据小于10b,1亿条数据的总容量约为

953G,单米肯定支持不了这么大的体积,所以需要分米。如果您有信心在2年内服务可以达到这个规模,那么您可以从一开始就考虑分米的计划。 .

那么如何定义子表的规则呢?

如果单表500万条记录,一共可以分成20张表,那么单表的容量是47G,还是蛮大的,所以考虑分表的key

而单表的容量,如果分成100个表,那么单表的容量是10G干货内容:腾讯面试题:如何实现类似于新浪微博的短链接服务!,通过数字后缀路由到表更容易。可用于short_code

编码生成数值类型,然后进行路由。

如何跳跃

当我们在浏览器中输入时

DNS首先解析IP地址

当DNS获取到一个IP地址(例如:12.34.5.32)时,会向该地址发送HTTPGET请求,查询短代码a3300

p>

服务器会通过短码a3300获取对应的长URL



以上就是关于《基于社交媒体短链接的舆情热点数据挖掘》的全部内容了,感兴趣的话可以点击右侧直接使用哦!》》在线短链接生成

爱短链平台各工具使用方法及功能汇总

短链接

活码系统

微信外链

抖音卡片

相关搜索

创建短链接

注册与登录 首先,访问爱短链的官方网站,点击右上角的“注册”按钮,填写相关信息完成注册。注册成功后,使用账号和密码登录到平台后台。登录过程简单快捷,支持微信扫码和手机验证码等多种方式。 获取长链接 在准备创建短链接之前,你需要先获取想要缩短的长链接。例如,在微信公众号后台,打开需要生成短链接的文章,将该文章的长链接复制到剪贴板中。 生成短链接 登录爱短链平台后,你会看到后台界面提供了多种功能选项。点击“短链”功能,将刚刚复制的长链接粘贴到指定的输入框中。爱短链还允许用户绑定自己的域名,使短链接更具个性化和辨识度。设置完成后,点击“生成短链接”按钮,平台会立即为你生成对应的短链接。 使用短链接 短链接生成后,你可以将其复制并粘贴到公众号推文中需要添加链接的位置,如正文内容、阅读原文链接、公众号菜单栏等。在正文中插入短链接时,可以搭配一些吸引人的引导语,如“点击下方链接查看更多精彩内容”或“详情请戳[短链接]”等,以提高用户的点击率。

爱短链

2025-02-20 14:33:23

抖音链接跳转微信

抖音链接跳转微信不仅为品牌营销和个人推广提供了更多可能性,也为用户带来了更加便捷、高效的信息获取和互动体验。在未来,随着社交电商的蓬勃发展和用户需求的不断变化,抖音链接跳转微信将成为越来越多用户的首选引流方式,助力品牌营销和个人推广迈向新的高度。

爱短链

2025-01-15 16:13:31

活码二维码生成器在线

活码二维码生成器在线工具如爱短链等,操作简单,无需复杂的技术知识。用户只需在网页上打开相应的生成器平台,按照提示进行操作即可。通常,用户需要输入想要关联的信息,如网址、文本、图片、文件等,然后选择一些个性化设置,即可快速生成一个活码二维码。

爱短链

2025-01-15 16:13:31

生成短链接的工具

长链接的繁琐与不便愈发凸显,而一款优秀的短链接生成工具则成为了信息高效传播的关键。爱短链,正是这样一款脱颖而出的卓越工具,为你带来前所未有的链接管理体验。

爱短链

2025-01-15 16:13:31

跳转卡片在线生成

爱短链平台提供高效的跳转卡片在线生成功能,用户可轻松定制卡片模板,填入链接与信息,即刻生成吸引眼球的跳转卡片,适用于社交媒体、营销活动等场景,助力提升点击率与营销效果,实现精准引流。

爱短链

2025-01-15 16:13:31

最通俗易懂的短链接原理讲解

看了看,想要了解短链接算法的伙伴还是蛮多的,那么今天爱短链小编就帮大家带来详细的介绍。

爱短链

2022-05-30 15:20:34

微信活码的功能特点介绍

微信活码是营销推广行业必备的一个神器,它不但可以帮助我们更好的裂变,还能降低用户流失率。

爱短链

2022-05-19 12:37:01

营销推广必备的5个效率小工具

营销推广不仅要靠扎实的专业知识,在工具使用方面也是非常重要,没有好的工具就算自己有多么厉害的技能也会事倍功半。

爱短链

2022-05-18 14:08:22

用户喜欢

缩短链接:链接在线一键秒缩短

缩短链接是一种将长网址转换为短网址的服务,通常用于社交媒体、短信、电子邮件等场合,以便更简洁地分享链接。以下是一些在线一键缩短链接的方法和工具:

爱短链

2025-02-19 10:16:16

网址简化:1秒简化网址

网址简化,也称为URL缩短,是指将冗长的网址转换为简短、易记的链接。以下是几种快速简化网址的方法:

爱短链

2025-02-19 10:16:16

网站链接太长怎么缩短

当遇到网站链接太长需要缩短的情况时,可以采取以下几种方法:

爱短链

2025-02-18 16:04:47

h5页面跳转微信小程序

H5页面跳转微信小程序的需求普遍存在,因为微信小程序只能在微信内部访问,而H5页面可以在任何浏览器中访问,因此需要通过跳转来实现两者之间的衔接。以下是H5页面跳转微信小程序的主要方式:

爱短链

2025-02-18 16:04:46

链接缩短,教程分享,一招把链接缩短

链接缩短是一个方便用户分享和访问长链接的有效方法。以下是一招把链接缩短的详细教程:

爱短链

2025-02-18 14:15:53

微信卡片链接生成

微信卡片链接是指在微信中分享的一个特定格式的链接,通过该链接可以展示网页或内容的相关信息,并以卡片的形式呈现给接收者。以下是生成微信卡片链接的详细步骤:

爱短链

2025-02-18 09:57:08

微信活码免费在线制作

微信活码是一种可以智能切换的二维码,通常用于解决微信群扫码人数限制、微信号无限加好友、多渠道引流等问题。以下是一些免费在线制作微信活码的方法和步骤:

爱短链

2025-02-18 09:57:08

微信群活码,免费生成,永久生效

微信群二维码本身具有7天的有效期,微信官方并未提供直接生成永久有效微信群二维码的功能。但可以通过一些第三方工具实现类似永久有效的效果,以下是几种免费生成微信群活码并尽量保持其长期有效的方法:

爱短链

2025-02-18 09:57:08

全平台跨域跳转微信工具,助力企业全渠道获客

爱发布客服-依依

公网安备32010402001342号

苏ICP备2021048188号-3

© 爱短链 2019 | 南京推吧网络科技有限公司版权所有

客服