摘要:“你将拥有具备人类大脑思考能力的机器人,并且这个机器人能够照顾好自己的饮食起居。”
语义,又称语意,指的是话语所包含的意义,在计算机科学领域,可以称之为数据对应现实世界中事物所代表概念的含义。简单来说,语义分析的根本目的是为了让计算机理解自然语言,一旦计算机拥有了这种能力,就可以从文本信息中识别并抽取出知识。
当前知识获取主要有三种方式:非自动知识获取、知识抽取、机器学习知识。非自动知识获取常采用直接编辑知识、利用大众智慧等手段,例如用户UGC模式,但是这种方法效率较低,无法应用于大规模的知识获取;完全机器学习的难度较大;知识抽取是目前最有效的方式。
所谓知识抽取,通过对文本资料进行内容分析处理,对蕴含于文本中的知识进行识别、理解和筛选,抽取出每个知识点,并以一定的形式存入知识库中。
将语义分析落实到大量真实出现过的语言材料,形成语料库,其中包括词汇级别的义素、语义特征的标注、实体标注,句子级别的语义角色标注,还有语法句法范围的词性标注、句法功能标注等等。
当标注好的熟语料已经达到一定量级,我们可以通过机器学习的方式对其他未标注的文章进行自动标注,那么也就实现了自然语言计算机自动处理的最终目标,也就解决了知识自动获取的难题。
图灵机器人平台,基于自然语言处理、知识库和云计算等技术,为广大开发者、合作伙伴提供的一系列智能语义处理能力(包括语义理解、智能问答、知识库对接等)的服务平台。截止到目前为止,平台已经积累了近百亿条语料库和GB级别的基础数据,并投入了数十名擅长于自然语言处理的研发人员,经测试平台的整体准确度已经达到85%以上,而且平台已经应用于HTC的小Hi语音助手、中国电信的微信平台、海尔的智能家电控制系统等,广受企业的好评。
(中国企业新闻网)