-
信息发布 编辑
电网调度机构按照规定的内容和格式向电厂和地区供电公司公开相关的注册参数和运行数据。——引自GB/T 33590.2-2017《智能电网调度控制系统技术规范 第2部分:术语》信息发布是LBS面向用户终端的主要信息发送方式,是用户获取位置及相关信息的重要途径。随着Web技术的迅猛发展,信息发布技术也从以往的广播服务机制逐步向推送服务机制发展。本节主要介绍信息广播、信息定制、信息抽取和信息推送服务的有关内容。
早期的信息广播业务主要是音频、视频广播业务。随着社会发展和技术进步,数据广播成为基于数字电视传输标准之上,除MPEG-2视频和音频内容之外的另一个重要的业务扩展。数据广播包括经由卫星、电缆或地面设施下载软件,通过广播信道传输因特网服务、互动TV等。根据对数据传输的不同需求,数据广播标准确定了5种不同的应用领域。针对每一种应用领域,规范出了一种数据广播的封装格式。
数据管道(Data Piping)规范支持数字电视系统中简单异步端到端的数据广播业务,数据直接在TS包的载荷中传输。数据流(Data Streaming)规范支持数字电视系统中面向流的端到端的数据广播业务,可以通过异步或同步的方式进行传输。异步数据流定义为流中只有数据,没有任何定时的需要。同步数据流定义为流中有数据和定时需要,并在接收机处可将数据和时钟重新生成为与发送端同步的数据流。多协议封装(Multiprotocol Encapsulation)规范支持数字电视系统中需要用通信协议中的数据报来传输的数据广播业务;数据轮播(Data Carousels)规范支持数字电视系统中周期性数据模块传输的数据广播业务;对象轮播(Object Carousel)规范用来支持数字电视系统中需要对DSM-CCU-U对象进行周期性广播的数据广播业务。
随着计算机及其网络技术的发展,用户个性化定制需求将越来越广泛地得到应用,迫切地需要高效、轻量的个性化信息定制搜索。个性化信息定制搜索研究方向和问题主要集中于以下几个方面:
1)多搜索源拉取数据。基于模板的定制信息搜索,只能从单搜索源拉取数据。在研究现有的推拉技术方式,并考虑如何结合现有网络进行多搜索源进行搜索时,主要应考虑线程的异步和同步执行。
2)智能化个性定制。在实现多搜索源搜索的基础上,将搜索结果进行智能化比较将是用户个性化定制的迫切需求。越来越多的用户个性化定制需求中,考虑如何实现智能化个性化定制,是将来要进行考虑的重点问题。
3)数据统计。不同用户关注的搜索结果显示形式不一样,有的比较侧重数据的详细信息,有的侧重整体数据的关联性。增加数据统计功能展示给用户,也是下一步要进行考虑的问题。
信息定制服务需要占据大量的信息服务资源,包括信息采集、知识组织、需求整合和内容呈现等人力物力。先进的信息技术可以对信息资源的获取、过滤、存储、处理和更新等操作方面提供高效服务。另外,信息服务效率的提高往往使得信息用户对信息的反应速度加大,提升了信息的价值,带来迅速、准确的决策和知识扩充。
特别是随着Internet的迅猛发展,Web已经成为一个巨大的信息源。随着Web信息数量的快速增长,如何从Web中抽取出所需要的信息,就成为了互联网信息搜索研究领域中一个重要的研究课题。Web信息抽取是指从Web页面所包含的无结构、半结构或者结构化的信息中识别用户感兴趣的数据,并将其转化为结构和语义更为清晰的格式的Web页面信息抽取的过程。
1.信息抽取的概念
信息抽取(Information Extraction,IE)是从给定自由文本或半结构化文本中抽取预先指定的实体、关系和事件等事实信息,形成具有清晰语义信息的结构化文本的技术。
信息抽取起源于文本理解。从自然文本中获取结构化信息的研究最早开始于20世纪60年代中期,被看作是信息抽取技术的初始研究。信息抽取的目的就是要让有用的信息以统一的形式集成在一起。Web信息抽取系统对网页中的各种结构数据进行抽取、筛选,并作语义化的处理,将生成的语义数据存入知识库。近几年,信息抽取技术的研究与应用更为活跃。在研究方面,主要侧重于以下几方面:利用机器学习技术增强系统的可移植能力,探索深层理解技术,篇章分析技术,多语言文本处理能力,Web信息抽取以及对时间信息的处理等。
2.信息抽取技术
(1)基于统计的技术
基于统计的方法是通过统计各个标签所包含的信息量或链接文本与普通文本的比值来获取网页的主题信息。这种方法克服了数据源的限制,并不只针对某一类网页,具有一定的普遍性。
(2)基于视觉特征的技术
在视觉上相关的两个对象在结构上有可能差距很远。因此,仅仅从代码的角度去分析其主题信息是不科学的,因而出现了结合页面的视觉特征来抽取信息的方法。
(3)基于DOM树结构的技术
在Web信息抽取中可以在网页默认的树结构的基础上通过一些常见的针对树的操作,从而总结归纳出待抽取部分的特征。基于DOM树结构的技术克服了对网页数据源的限制,可以用来处理各种类型的单正文体和多正文体页面,其操作过程相对于基于视觉的方法更加易于实现。在基于DOM树结构的抽取技术领域有许多成型的系统和经典算法,如DSE、MDR和Road Runner等算法。
(4)基于模板的技术
互联网上存在着大量通过读取数据库数据然后填充到统一模板的方式自动生成的网页,针对这类具有模板的网页产生了一种基于模板的抽取技术。该技术通过对产生于同一模板的网页的对比分析总结出一个通用的抽取模板,从而免去了对众多网页进行重复处理的繁琐过程。
3.信息抽取技术比较
(1)自动化程度
基于统计的技术和基于视觉特征的技术在多数情况下都涉及对待抽取内容本身进行区域划分等处理,需要进行人工干预,因此,操作人员的主观行为可能会造成区域划分不合理,从而直接影响信息抽取的效果。基于模板的技术需要依赖于表示待抽取位置的节点串,通常需要针对某一类待抽取对象进行分析和标记,总结出一个统一的模板节点串。尽管利用模板来抽取信息较为便捷,但生成模板的过程却需要大量的人工操作。基于DOM树结构的技术针对Web网页本身的结构优势,通过对网页树进行对比操作,就可以确定页面内主题信息的位置进而实现信息的抽取,极少受到操作者主观因素的影响。
(2)适用范围
基于统计的技术适用于以文字为主题并且文字部分相对于其他部分来讲具有明显数量优势的一类对象,针对不同的对象应用不同的阈值。基于视觉特征的技术过多地依赖对象的组织结构,因此比较适用于结构清晰、符合一般设计规则并且没有过多标签错误的页面。基于DOM树的技术对对象类型没有限制,对于出自同一个网站并且具有相似结构的页面都能进行处理。基于模板的技术适用于相似度较大的页面,如通过动态查询数据库生成的页面,并且只能针对单正文体网页。
(3)复杂性
基于统计的技术在理论上易于实现,但其难点在于确定一个合理的阈值。阈值的确定方法会对主题对象的确定产生直接的影响,并且对于不同种类的对象必须分别讨论阈值。基于视觉特征的技术对对象的分块更加注重可视化信息的组织形式。基于DOM树结构的技术不需要再对抽取对象进行分块处理,可以直接通过对比得出主题信息区域,但却需要对每个对象都进行同样的处理,没有充分利用已有的结果总结出针对同类相似对象进行处理的统一方法。基于模板的技术免去了对同类对象的重复操作,针对相似对象总结出统一的抽取模板,但在模板的生成方法和模板通用性方面还有待于改善。
1.信息推送的概念
人们所采用的信息检索方式还是一种被动的拉取(Pull)方式,主要是通过搜索引擎来进行信息的查找和定位。它通过自动浏览程序对Web站点进行自动搜索,对文档信息进行分类索引,并建立索引数据库,然后用户通过浏览器发送服务请求,服务器就在所属的数据库中检索,将匹配站点的URL返回给用户,用户再进行链接,并在其中筛选出满意的信息。拉取方式自身存在两个方面的不足:一是获取信息不仅时间长,而且费用高;二是信息效率低,资源浪费严重;三是服务器被动服务,用户获取信息及时性差。因此,基于拉取方式的信息获取技术无论在信息的搜索速度、传输速度,还是搜索信息的质量上都越来越难以令人满意。另外,这种方式客户机和服务器必须保持实时的连接才能获取信息。但由于网络信息更新快,这就要求用户必须经常上网查看信息,否则很难及时获得自己所需的最新信息。
信息推送(Push)是指网络公司通过一定的技术标准或协议,从网上的信息源或信息制作商那里获取信息,通过固定的频道向用户发送信息的新型的信息发布系统。信息推送技术能够主动地根据用户的需求,将最新的信息分门别类地传送到相应的用户设备中。当有与用户相关的信息更新时,推送软件会及时、主动地通知用户,体现了其主动性。推送软件并不是把网上的信息随便推送给用户,而是根据用户的特定信息需求为其量身定制的,充分体现了个性化;由于信息推送技术采用了信息代理机制,可以降低重复的、无关的信息在网上传递,避免了垃圾信息对网络资源的大量占用,体现了其高效性。
Pull与Push技术对用户来说都是信息获取技术,但二者存在着根本的不同。以pull技术为核心的信息拉取技术,在信息获取时,用户必须实时处于主动地位,也就是说,用户必须参与信息获取的整个过程。而以Push技术为核心的信息推送技术,在信息推送过程中,服务器始终处于主动地位,用户却处于被动地位。与Pull技术相比,Push技术不仅获取信息的效率高,费用低,而且及时性强,因而它一出现便受到人们的青睐。Push技术能够通过一定的技术标准或协议,把用户感兴趣的信息,按照用户的要求及时、主动地推送给用户。用户收到信息后,还可以离线浏览。Pull与Push的根本区别是:相对一次会话,Pull由客户发起,主动方是客户;Push由服务器发起,主动方是服务器。
2.信息推送的特点
信息推送技术的特点可概括为:
1)避免用户在网上无目的上网查找;
2)提高被推送信息的准确性,控制搜索深度,过滤不必要的信息;
3)被推送的信息内容,可以有教学资料、新闻、电影、音乐、房产信息、股市行情、共享软件和天气预报等;
4)被推送的文件类型多样,可以有文字、图形、图像、声音和小程序等;
5)服务器能对各个用户的兴趣和偏好进行智能性识别、预测,根据用户要求自动搜集定制信息并定期快速、连续不断地向目标用户主动推送,满足了用户的个性化需求。
3.信息推送的方法
信息推送技术的工作原理可以简单地分为3步:首先用户完成注册,描述自己的信息需求,如用户的兴趣爱好、所需信息和推送时间等,以便向用户提供主动、准确的信息服务;然后从网上收集用户所需信息,并分类整理;最后推送到用户计算机上。信息推送技术主要有以下3种实现方式。
(l)消息方式
根据用户提交的信息需求,利用电子邮件或其他消息系统将有关信息发送给用户。该方式并不具备很强的交互性和强制性,对资源和信息流量的要求不高,可以看出这是最弱意义上的推送,但容易实现。
(2)代理方式
通过使用代理服务器定期或根据用户指定的时间间隔在网上搜索用户感兴趣的信息内容,然后将结果推送给用户。对信息的请求和推送都是通过代理来实现的,对用户来说是透明的。
(3)频道方式
提供完整的Push服务器、客户端部件及相关开发工具等一整套集成应用环境,它将某些站点定义为浏览器中的频道,Push服务器负责收集信息形成频道内容后推送给用户,而客户端部件接收到来的数据和提交指令,根据用户所需相关的信息对数据进行处理。
信息推送技术的出现给人们带来了一种全新的信息获取方式,适用于广大公众,并不需要用户掌握专门的技术,而且能不断地向用户推送信息源的动态变化。当信息推送技术面对Internet上信息量大、结构复杂、难以人工处理等问题时,需要将Push技术与Pull技术相结合,不仅把信息推送给用户,而且还要按照用户预先设定的触发事件和发送要求,在条件满足时自动向用户发送信息。在此基础上,融入人工智能、知识发现技术、Internet及数据库技术,从而形成“智能信息推拉”(IIPP)技术,将是一个很好的研究方向。
1、本站所有文本、信息、视频文件等,仅代表本站观点或作者本人观点,请网友谨慎参考使用。
2、本站信息均为作者提供和网友推荐收集整理而来,仅供学习和研究使用。
3、对任何由于使用本站内容而引起的诉讼、纠纷,本站不承担任何责任。
4、如有侵犯你版权的,请来信(邮箱:baike52199@gmail.com)指出,核实后,本站将立即删除。