专业的短链接生成工具
链接域名
短网址有效期
怎样定性内容?先有标准后有天,用算法的眼光看内容
更新时间:2025-5-22 03:25:33 作者:爱短链
本文作者用一个内容标准的例子向您解释,看看什么样的内容标准是合格的,让我们来看看~ 一段视频描述了一个篮球明星在综艺节目中踢足球的场景。
那么什么主题适合这个内容呢? 操作a认为是综艺节目,因为视频的上下文是综艺节目;操作B认为是足球,因为视频中的主要活动是踢足球;操作C认为是篮球,因为主角是篮球明星。
公众说公众说婆婆是合理的,每个人最终都不能形成共识,根据自己的想法工作,导致统计口径不一致,严重影响业务判断。
1. 为什么需要标准? 内容识别主要用于内容分发和内容决策。
在分发之前,系统需要使用规则或模型来识别内容的特征,以便于用户匹配感兴趣的内容。
以主题分类为例,我们需要一个模型来自动识别文章的主题是新闻、体育或其他。
模型训练在很大程度上取决于样本的标记。
如果学生没有按照统一的标准进行标记,标记的准确性将非常低,这些低精度样本训练的模型的准确性将不可避免地较低,这将直接导致主题模型的不可用性。
从内容决策的角度来看,错误的识别结果将直接导致错误的操作决策。
假设上述培训的错误模型将将新闻内容标记为体育,运营商错误地认为体育内容非常受欢迎,并大力引入和支持体育内容。
最后,它不仅浪费了大量的资源,而且挤压了用户真正感兴趣的新闻内容,体验也相应恶化。
标准是投射器,准是靶心。
标准合用意味着行为和结果应该一致,这在工业生产领域经常使用。
国家标准GB/T 3935.1—83定义: 标准是对重复事物和概念的统一规定。
以科学、技术、实践经验为基础,经有关方协商一致,经主管部门批准,以特定形式发布,作为共同遵守的标准和依据。
从国家标准的定义可以看出,标准针对重复的事物,结合实践,目的是让参与者达成协议,共同遵守。
标准的一般呈现形式是一个文档,可以附上解释文件。
对于重复的工作,如内容分类和标记,它是非常主观的。
如果你不能统一地参与学生的想法,标记效果就会有很多水。
新生不能利用以前积累的经验,一开始可能无法开始工作,效率很低。
因此,我们需要应用工业领域的标准,在内容领域建立内容标准,统一参与者的判断,在不一致的情况下也可以依据。
2. 如何制定标准 定制标准也是一项技术工作,而不仅仅是列出条款。
接下来,谈谈什么样的内容标准是合格的,并用一个内容标准的例子来解释。
(1)标准标准 标准的核心目标是让用户快速与标准描述达成一致。
为了提高标准的质量和效率,标准也可以标准化,以便在后续制定各种不同的标准时有参考依据。
明确目标:首先要明确的是标准目标,整个标准主要面向什么类型的内容和目的。
让用户充分认识到其使用场景和价值,有利于标准的后续推广和实施; 描述清晰:标准描述语言应尽可能客观中立,不易引起歧义。
用定性语言让用户大致了解描述的内容,给用户一个大致的期望。
但定性描述仍然含糊不清,此时需要定量描述来补充说明。
有两个候选人可以判断图片模糊。
第一条是图片模糊不清;第二条更详细,人物五官不清,锯齿或马赛克明显,图片一半以上面积模糊不清。
双方对比明显后者不易产生歧义,便于执行; 抓大放小:标准创作者的精力和知识有限,不可能把所有的情况都拿走。
所以主要情况优先,不常见情况可以忽略或简单描述。
至于哪些常见情况可以抽样统计; 突出案例:就像英美法系以案例为重要依据一样,在标准条款中添加真实案例远比文字描述更生动。
值得注意的是,反例和例子一样重要反例就是那些容易出错的例子有助于避免这种情况; 明确边界:应特别说明模糊、歧义或经常被误判的情况。
(2)典型标准 以下是一种实际使用的恶心,符合上诉标准(gross)由于案例图片可能会引起读者不适,所以内容标准不会在这里呈现,但真实标准需要体现: 1)标准目标 有些内容含有让消费者感到恶心和不舒服的内容,直接显示给用户会严重影响外观。
严重的部分会引起大多数人的强烈反感,应直接下架;恶心情节较轻,部分用户不敏感,部分厌恶,可限制其曝光范围。
本标准的目标是识别此类内容,以减少用户感到恶心的机会。
2)标准条款 情节严重的,大多数用户会感到强烈的不适,对未成年人有严重的不良影响,应下架: 尸体:人体或动物恶心的尸体特写,人体或动物不完整的尸体,大面积血腥的尸体; 伤口:人体或动物伤口化脓感染图片、大面积创伤等极度血腥图片、解剖图片、器官流出带血图片; 女人来月经漏,带血的卫生巾。
情节较轻的,部分用户感兴趣,部分用户不感兴趣,应限制其展示范围,如只关注用户可以看到: 蠕虫、蛆、蚯蚓、鳗鱼、寄生虫等无脊柱肠动物特写场景; 蛇、蜈蚣、蟑螂等容易引起一些人恐惧的画面; 密集场景,容易触发密集恐惧症的画面; 痘痘、湿疹等密集出现或挤黑头、挤痘痘的视频; 人体排泄物,如耳屎、鼻屎等。
3)例外情况 游戏中爆头不是真人,血腥面积小于四分之一的可以放行; 可以看到纯医学研究中的血腥伤口和解剖图。
(3)标准的执行 定制标准后必须实际使用,但如果在使用过程中不注意技能,很容易造成推广困难,导致标准被搁置或执行不到位。
实施的第一步是让新生掌握新的标准。
1)在检查中执行 如果12个步骤需要掌握新标准: 首先,制定者或熟练的学生需要一个从文档到新学生的转换过程。
面对面的培训可以提高转化率。
此外,在培训过程中,发言人还可以根据新生的反馈适当修改标准,使其更容易理解。
培训结束后,趁热打铁进行试标记,以测试培训结果。
标记的样品有足够的要求(经验值可在半个工作日内完成,一般超过500个),足够均匀地覆盖大多数场景,使测试结果可信。
掌握标记的学生将整理一个标记答案,然后与新生的结果进行比较。
相同的是准确的。
如果准确率达到标准,则表明新生已熟练掌握,否则将进入下一轮培训,直至准确率合格。
考虑到标准结果的重要性,通常要求准确率超过90%。
图1标准培训流程 2)在执行过程中进行检查 如图2所示,机器分类的过程经历了四个步骤:标准制定、样本标记、模型培训和实际应用。
每个步骤的准确性和召回率都丢失了。
在实践中,文本的变化会导致内容结构的变化,即真实分类的变化变化,可以覆盖大部分内容的标准将慢慢退化,最终与实际生产脱节。
此外,标记学生的标准水平不是固定的,往往会波动。
同样,模型也会退化,识别效果也会逐渐恶化。
图2 转换漏斗的真实分类和实际应用精度 因此,应定期更新整个漏洞中的所有步骤,以确保最终实践的准确性能够保持在可用水平。
特别是在粗俗、低质量的内容和相关的敏感内容中,往往会出现新的变体,这将导致模型遗漏。
如果不及时更新标准和模型,将给平台带来巨大的风险。
那么什么时候更新呢? 我们可以继续抽查在线内容的实际识别效果,如果低于某个阈值,我们需要及时更新漏斗中转换率的步骤。
[召回率] Recall Ratio,筛选出准确分类的内容量占实际分类内容量的比例。
如果总样本中有20个运动内容,但实际标注10个,召回率只有50%。
特别说明:本网站的主要目的是收集与互联网运营相关的干货知识,为运营伙伴提供便利。
本网站收集的公共内容来自互联网或用户的贡献,这并不意味着本网站同意其观点,也不对网站内容的真实性负责。
如有侵权行为,请联系网站管理员删除,。