在时间序列中使用Word2Vec学习有意义的时间序列嵌入表示

微软创意
爱情通信
用品婚姻
爱好看病
美体软件
影音星座
瑜伽周边
星座办公
饰品塑形
搞笑减肥
幼儿两性
智家潮品

在时间序列中使用Word2Vec学习有意义的时间序列嵌入表示

　　向量表示是机器学习生态系统中的一个关键概念。无论进行什么样的任务，我们总是试图训练找所掌握的数据的意义而机器学中通常使用数字向量来对数据进行描述，发现隐藏的行为，产生有价值的见解。
　　随着深度学习则是通过更少的假设和更少的工作获得更有意义的数据表示。例如在NLP领域，最早的TFIDF（词频逆文档频率）是自然语言过程中采用的一种技术，用于将原始文本文档的集合转换为数字矩阵。TFIDF长期以来一直是NLP的基础，代表了一种编码文本序列的好方法。深度学习的出现首先带来了Word2Vec等新技术，然后是transformer编码。它们都是端到端的解决方案，并且在提供文本数据的数字数据表示方面更有效，并且无需（在大多数情况下）理解上下文。
　　在NLP领域采用深度学习嵌入表示是革命性的。通常将术语嵌入表示与涉及文本数据的应用程序相关联。这是因为很容易概括文本内容中单词的位置依赖性。
　　在以前的研究中一个有趣的想法可能是将NLP中获得的成就应用在时间序列域。这可能是一个完美的契合，因为时间序列数据也以位置时间关系为特征。在NLP中的这些技术可以根据潜在的时间依赖性生成有价值的数据向量表示。所以出现了很多为时间序列数据生成嵌入的方法，Time2Vec作为与模型无关的时间表示，可用于任何深度学习预测应用程序。Corr2Vec，通过研究它们的相互相关性来提取多个时间序列的嵌入表示。
　　在这篇文章中，我们尝试在时间序列域中应用Word2Vec。目标是利用无监督方法（如Word2Vec）的灵活性来学习有意义的时间序列嵌入。生成的嵌入应该能够捕获底层系统行为，以便在其他上下文中也可重用。数据
　　我们从UCI库中收集一些开源数据（在UCI许可政策内）。ParkingBirmingham数据集包含从20161004到20161219的每小时8：0016：30范围内的停车占用率。它非常适合我们的目的，因为它记录了来自不同位置的数据，使我们能够在多变量情况下进行切换。
　　我们拥有原始占用率（即当时停车场内有多少辆汽车）和最大停车容量。
　　数据中有缺失观测值的存在，也显示了一些常规的季节性模式。观察每天和每周的行为。所有停车区都倾向于在下午达到最大入住率。其中一些在工作日使用最多，而另一些则在周末更忙。
　　所有停车区的每小时占用率
　　所有停车场的每日入住率模型
　　如何将Word2Vec应用于时间序列数据？将Word2Vec应用于文本时，首先将每个单词映射到一个整数。这些数字代表了整个文本语料库中单词的唯一标识符，这些标识符关联独特的可训练嵌入。对于时间序列，也应该这样做。整数标识符是通过将连续时间序列分箱为间隔来创建的。在每个间隔中关联一个唯一标识符，该标识符指的是可学习的嵌入。
　　在离散化可以使用的时间序列之前，应该考虑对它们进行缩放。在多变量环境中工作时，这一点尤为重要。所以需要以统一的方式应用离散化来获得唯一的整数映射。考虑到我们这里使用的是停车数据，所以使用占用率序列（在0100范围内归一化）可以避免误导性学习行为。
　　Word2Vec架构与NLP应用程序中的架构相同。有不同的即用型解决方案。本文选择手工制作的Tensorflow实现：inputtargetInput（（1，））inputcontextInput（（1，））embeddingEmbedding（nbins1，32）dotDot（axes1，normalizeTrue）（〔Flatten（）（embedding（inputtarget）），Flatten（）（embedding（inputcontext））〕）modelModel（〔inputtarget，inputcontext〕，dot）model。compile（optimizerAdam（learningrate1e5），lossBinaryCrossentropy（fromlogitsTrue））
　　训练数据和相关标签是使用skipgram生成的。它根据用户定义的窗口大小生成一对整数。同一窗口中的整数对的标签等于1。随机生成的对被标记为0。
　　通过检查学习的嵌入，可以看到网络可以自动识别我们数据的周期性。
　　每个分箱时间序列的二维嵌入可视化
　　通过扩展所有时间序列的嵌入表示，我们注意到小时观测和每日观测之间存在明显的分离。
　　每个时间序列中所有观测数据的二维嵌入可视化
　　这些可视化证明了本文方法的优点。在较少的假设和较少的参数设置下，我们可以生成有意义的时间序列嵌入。总结
　　在这篇文章中，介绍了众所周知的Word2Vec算法的推广，用于学习有价值的向量表示。我们在时间序列上下文中应用Word2Vec，并展示了这种技术在非标准NLP应用程序中的有效性。整个过程可以很容易地集成到任何地方，并且很容易用于迁移学习任务。
　　作者：MarcoCerliani

预习复习很重要，孩子为什么不做？是他懒么？应该做什么，才能学习好？很多家长都知道，比如预习、复习、试卷分析。但是，孩子为什么不预习呢？是他们懒么？其实，是你自己并不清楚：为什么做？怎么做？1hr为什么……理性看待新消费领域投诉增多市场监管总局近日公布2022年全国投诉举报情况，新消费领域的投诉举报较为突出：新能源汽车相关诉求同比增长62。84，盲盒消费者诉求同比增长61。72，IP跨界联名产品相关诉求同……361新品跑鞋碳速测评快跑慢跑总相宜的长距离训练鞋361新品跑鞋发布了新品碳速，长距离训练鞋，一双快跑慢跑都比较合适的长距离训练鞋。这双鞋拥有更加稳定的快平衡系统设计，长距离非常适合，减少动作变形。QU！KCOT科……40万人离开京津冀，长三角增量腰斩吸引人口保持机械增长将是接下来地方竞速的发力重点，而继2017年抢人大战推动具有一定学历和技能的人口基本实现零门槛落户后，新一轮抢人大战是时候开始了。每经记者余蕊均每经编……阿斯国家德比诺坎普观众95745人，超过皮克告别战的9260直播吧3月20日讯《阿斯报》报道，国家德比巴萨21皇马，本场比赛观众人数有95745人，超过了皮克告别赛巴萨对阵阿尔梅里亚的92605名观众人数。去年11月5日，皮克告别……羽毛裹胸，上衣失踪，女星走红毯尬尬百出，网友直呼辣眼睛近日，刘雯、贺聪等女模在巴黎时装秀上的形象，引起人们的热议。两条黑带交叉，勉强盖住上身，但大部分肌肤还是暴露无遗，而且瘦骨嶙峋的刘雯，双腮塌陷，锁骨凸显，并没有让人感觉出……3300点上面是有什么妖怪吗？来来回回就是不能稳稳上3300？核心观点股票市场：近期我们持续提示市场预计整体偏震荡，板块轮动可能加速，中美关系或阶段性对市场情绪产生扰动。整体来看，我们仍然……八维运维工程师培训怎么样？随着互联网科技深入人们的生活，尤其移动互联网的全覆盖，个人信息保护、隐私保护以及企业的数据保密，成为了大繁荣下的隐患。网络信息安全，成为国家、企业和个人的关注点。趋势决定……华夏幸福联席总裁孟惊被实施留置，曾任足球俱乐部董事长2月14日，华夏幸福（600340。SH）发布公告称，公司于近日接到湖北省咸宁市崇阳县监察委员会通知，公司董事兼联席总裁孟惊因涉嫌违法犯罪对其实施留置。有传言认为，湖北省……出国咯！护照到期了？手把手教你备材料走流程，再也不怕空跑了小爱有很多朋友在春节期间就已经跑到国外，悠悠哉哉的开启度假模式了！看着朋友圈那一张张阳光、海浪、仙人掌的照片，可真是羡慕死个人！不过说实话，像小爱这种带娃的保守派，最开始……重庆各区县发展现状合集喜新厌旧九龙坡把地球的故事讲给宇宙九龙坡区。是重庆中心城区之一，位于中心城区西部。早在1952年，九龙坡区就属重庆市第四区。1955年，第四区定名九龙坡区。九龙坡地跨中梁山两侧，经济总量发展……折叠屏手机大家看好吗？你还敢买吗？为什么逆势大涨？1月中国市场折叠屏手机销量大增手机先问大家一个问题：大家都有用到或看到哪些折叠屏手机？今年春晚马丽小品《坑》手机HUAWEIMATEXS2（图源：网络）今年春……

<<<<<<－>>>>>>

港股收评恒指涨0。34恒生科指涨0。71，餐饮教育板块持续走金融界12月21日消息，截至收盘，港股恒生指数涨0。34，报19160。49点，恒生科技指数涨0。71，报4024。84点，国企指数涨0。43，报6500。18点，红筹指数涨0……恒帅股份电机产品已拓展至电机执行器产品配置，未来有望向充电小恒帅股份近期接受机构调研时表示，在新能源汽车上，充电小门替代了传统汽车的燃油加注口。在新能源汽车智能化、电动化的潮流下，充电小门正逐步从手动开启向电动开启方向发展。为响应市场需……王者荣耀S29赛季吸血治疗机制调整，哪些英雄吃到了版本红利？S29赛季吸血和治疗公式统一为加法计算：吸血或治疗量面板回复量或治疗量（1治疗增益率重伤率）。实际上这项调整，只会对拥有额外治疗增益率以及额外重伤效果的英雄产生影响……赵继伟妻子秀恩爱，跑去杭州了，果然是真爱，她的大长腿太吸睛了文篮郭先生CBA第一阶段的9轮比赛已经全部结束，对辽宁队来说，还是有很多的困境的。比如，球队的郭艾伦被禁赛，张镇麟受伤病困扰，赵继伟状态一般也因为这样，第一阶段的辽宁队，……美砸280亿美元打芯片战，中国或面临二选一，美企率先扛不住美国政府猛砸280亿美元，誓要和中国打一场芯片战，在美国的压力之下中方或面临二选一的局面，然而，美国企业可能率先成为美国政府政策的牺牲品。芯片技术是未来的科技制高点之一，……江苏人喝酒怪象，本地不喝洋河酒，却总偏爱这3款酒，啥酒？烟笼寒水月笼沙，夜泊秦淮近酒家江苏这个地方，让无数人向往，江苏人称江南，很多人想到江南，脑海中便会浮现一幅幅美不胜收的山水画，杨柳依依的水面，水面有在船上唱歌的歌唱家，一……中端机和旗舰机怎么选，谁更值得买？看看聪明人怎么选很多人不知道中端机和旗舰机怎么选，毕竟中端机价格两三千，但是旗舰机最低都要4000以上，那么哪各更值得买呢，看看聪明人怎么选第一、性能方面其实中端机和旗舰机性能真的差不多……父母兄长，接连去世，85后美女林晓芸继承家业，坐拥千亿公司敢于面对困境的人，生命因此坚强；每一个成功者都有一个开始，勇于开始，才能找到成功的路。父母双亡，兄长早逝，不谙世事的小公主，一夕之间生活天翻地覆，只能忍下泪水，独自承担重……9月打野梯队排行，赵云回归T2，司空震成四大野王候选人注：T1的意思是指版本第一梯队的英雄，这类英雄会比普通英雄较为强势，而T0的意思是指凌驾于第一梯队，属于版本非ban必选的英雄。本榜单是结合了官方所公布的排位巅峰赛数据和……Steam最新硬件调查GTX1060占据榜单第一，你的显卡在今日Steam官方公布了2022年8月Steam硬件和软件调查报告，从显卡、处理器、操作系统等各品牌和型号的占比展示了当前Steam玩家的整体情况，以下为本月报告详情。显……八部门聚焦基础设施短板弱项，扩大农业农村有效投资新京报讯（记者田杰雄）为扩大农业农村有效投资、提升农业综合生产能力，日前，农业农村部、水利部、发展改革委、财政部、自然资源部、商务部、人民银行、银保监会等8部门联合印发《关于扩……王楚钦欲报一箭之仇10日晚，国际乒联官网公布了2022年乒乓球亚洲杯参赛名单。中国男队的参赛选手为梁靖崑、王楚钦，女队参赛选手为陈幸同、王艺迪。此前被亚洲杯官方邀请的樊振东、孙颖莎等四人都未在名……

友情链接：易事利快生活快传网聚热点七猫云快好知快百科中准网快好找文好找中准网快软网