啥是Gadio跨类认亲系统?


3楼猫 发布时间:2024-02-01 19:32:22 作者:YQBelmont贲 Language

上次咱们搞了一个Gadio高维空间定位系统,承蒙各位兴趣,本来笔者还在慢慢悠悠佛系研究聚类,突然很有动力东西把这个“认亲系统”先上线了。说实话数据在那之后要把前端搞出来工作量也不大。今天不废话,四件事。
  • 地址与使用说明
  • 背后算法简述
  • 一些零散的小发现
  • 未来工作

一、地址与使用说明

笔者发现Gadio官方一共分了有20多个类,那如果一个一个配对的话就是。。。应该。。。反正很多就对了。所以最后想到了采取这种拖放的形式,直接把上面的标签拖下来放到位置就可以了。(这种形式也算还有了点交互)值得注意的是:如果您是移动端的话,需要长按标签,等到它变成了一个黑块的时候,再拖放即可。
完事儿,使用说明就这么多,地址在这

二、算法简述

也很简明,首先把2300多期Gadio按官方分类方法分成20多类,然后每个电台的所有文本求一个平均向量A,再把这一类里面的所有的文本求一个平均向量B。那么每期节目都有了一个代表自己特征的A,每个类别也有了一个代表性向量B。
剩下的就是用A和B之间排列组合比对就好了。用的依然是余弦距离,结果里出现的“距离”是数字越小表示相似度越高。

三、一些零散的小发现

这里的小发现基本就
首先,每个类别内部的结果如下。
平均节目:是距离该类的平均向量距离最近的节目 离谱节目:是距离该类的平均向量距离最远的节目(注意这个是倒排的,最远的在最后)
好吧,此处危险,最冒犯的就是“最不Pro的Pro节目”了。(捂脸)不过其实笔者针对这一点也有话说,因为距离平均值最远,其实只意味着“最不典型”,换句话说叫”出头鸟“,那么这个出头鸟到底是菜的出头还是锋芒难掩,还真不一定。
但是该说不说,红旗下的车轮《第四章》这期节目,比到处第二的距离整整翻了一倍。(而且之前的粗略聚类分析里,这个节目也总是自己孤独地被分成一类)如果真的不是程序出错了,笔者是真的太好奇这期节目里到底谈论了什么。。。有空一定要去听一听。
说到这,就不得不提倒这个“平均”和“离谱”的叫法,非常精彩,不是笔者发明的,是一个B站Up,文末给各位贴上链接。他用这一路方法研究了近几年的流行音乐,然后得到了一个非常情理之中却意料之外的结果,非常精彩。
然后就是很显眼的那么几个历史遗留标签,比如”会员专享“这个标签只有一期节目。。。还有就是历史原因分错类的,比如《魔兽世界故事》有好几个篇都是分到Pro里的(这个可以看上方的认亲环节结果)不知道这个事情有没有必要整理一下,虽然都是过去的节目了。而且,关于这个还有一个点充分显示出了这种向量方法的鲁棒性,因为既有的平均向量也是包括了这些分类模糊的节目的,依然还是表现出了相当程度的合理性,还算不错。如果分类都纠正了或许效果会更好吧。(而且笔者早年间的Pro真的是非常啥都有,又冒犯了,捂脸)

四、未来工作(个人)

还是回去研究聚类了。然后准备把站内文章也研究研究。
另外后面的更新时间不一定啦,感觉过年期间要开始集中搞一下这个建筑师的自动化案例研究工具。就这个(心心念念)↓
也是跑个题,这个 (希望)能自动帮助建筑师一键完成案例研究的工具年后准备来一波内测,诚邀感兴趣的同胞私信联系~到时候会上线到公网的网址给大家测试一下。关于这个工具的可以参考这个视频:https://www.gcores.com/videos/176878
大家龙年大吉!!!
附录:
  • 开源:https://github.com/jlmaoju/Gadio_Vec
  • 上方提到的音乐相似性量化研究(重轻老师也有客串嗷):【关于流行音乐的深度研究:华语音乐已经完蛋了吗?】

© 2022 3楼猫 下载APP 站点地图 广告合作:asmrly666@gmail.com