精华:1
帖数:3726
魅力:13980
经验:15334
金钱:9203
注册:2009-03-15 22:26:48
786003    786003 1楼
[灌水]人类还能阻止他们吗?
2011-10-20 19:54:15

第一手资料:盘古搜索,也就是中移动与新华社合资的搜索公司,正打算做一个语义解析工具,打算半年内完成。 <br/> <br/>到时长城内外,惟余诺诺,大江上下,顿失滔滔。爬虫所至之处,只能留下些虫粪了。 <br/> <br/>要挡住爬虫,只能通过 user-agent 识别,只要它用别人的 ua,就没法挡住。人类还能阻止他们吗?只能期待他们做不出来。

永忆相逢千万好,江湖。归渡扁舟去也无?




精华:11
帖数:163
魅力:836
经验:406
金钱:497
注册:2009-07-29 20:56:46
792001    792001 2楼
2011-10-21 14:12:04

什么是语意解析?[edit]2011-10-21 14:22:12.578659[/edit]





精华:1
帖数:3726
魅力:13980
经验:15334
金钱:9203
注册:2009-03-15 22:26:48
792003    792003 3楼
2011-10-21 16:10:24

就是通过人工智能理解语句的意思。比如,看到“胡奥塞斯库”五个字,就知道这是对今上的诚挚问候和良好祝愿。

永忆相逢千万好,江湖。归渡扁舟去也无?




精华:11
帖数:163
魅力:836
经验:406
金钱:497
注册:2009-07-29 20:56:46
792004    792004 4楼
2011-10-21 16:53:51

我还以为是机器语言的分析技术,原来是说自然语言。标准骗钱项目,给他20年+20亿他也搞不出来,还半年,批项目的人对人工智能的知识等于0。





精华:1
帖数:3726
魅力:13980
经验:15334
金钱:9203
注册:2009-03-15 22:26:48
784005    784005 5楼
2011-10-21 17:27:10

未必吧。被证明搞不出来了?

永忆相逢千万好,江湖。归渡扁舟去也无?




精华:11
帖数:163
魅力:836
经验:406
金钱:497
注册:2009-07-29 20:56:46
793003    793003 6楼
2011-10-21 21:34:56

不是被证明搞不出来,而是大量的实践证明这是一个非常,非常难的技术,所需要的知识和理论现在还没有积累够。<br/><br/>图像模式识别和自然语言解析是人工智能技术中的两大圣杯,全世界花了几十年的时间投入无数人力物力研究,后者的进展比前者还差。即使是最强势,逻辑性也相当强的语言英语,现在也没有做出一个可以接受的人工智能分析器。这方面的研究,最前沿在大学和研究机构,尤其是政府资助的研究机构,而不在企业。不是企业看不到它的巨大商业前景,而是这种研究要求的纯理论准备、时间投入和沉淀积累太过巨大。企业很难接受。<br/>如果你做出一种语言的语义分析器,你马上就可以做出接受自然语言或者声控的操作系统。如果你做出两种语言的语意分析器,你就能做出一个真正合用的翻译机。--看看google,研发实力超强的公司,做出的自动翻译现在是什么效果。<br/><br/>图像模式识别的实质是归纳能力。自然语言分析的实质是演绎能力。是真正的人的智能中最精华的两个部件。人工智能真要能做到,离以假乱真的智能也就不远了。<br/><br/>按中国现在搞科研的水平,这种公司,这种时限,只能认为他是扯淡。





精华:11
帖数:163
魅力:836
经验:406
金钱:497
注册:2009-07-29 20:56:46
793005    793005 7楼
2011-10-21 21:45:49

顺便说一个中国搞这方面科研的实例:<br/>大概在5年前,随着维稳春风的吹来,公安部渴求一个能够实用的人脸识别系统,起初要求是能在监控录像品质的图像中双向80%(即在有标准照片的情况下,对于品质达标的自然人脸图像,误警率和漏警率都低于20%)。人脸识别系统做得最好的是美国,也是司法机构搞出来的,基本能做到实用,但是技术是严密封锁的。公安部的标准一出,中国所有搞相关技术的企业和机构大眼瞪小眼,谁都不敢接招。因为这标准已经大大超出世界最高水平了。<br/>然后公安部调低标准,给出的经费预算高达几个亿。这次有实力的单位还是谁都不敢接招,因为做不出来,理论积累严重不足。而各种花架子,关系户勇敢地上了。<br/>结果是某个小公司用了1500万做了一个纯粹的废品。<br/>到现在这个悬赏还挂着。





精华:1
帖数:3726
魅力:13980
经验:15334
金钱:9203
注册:2009-03-15 22:26:48
784007    784007 8楼
2011-10-21 22:27:41

siri 你怎么看?<br/><br/>google 翻译英译中不行,中译英不错。我觉得主要是差在中文水平。

永忆相逢千万好,江湖。归渡扁舟去也无?




精华:11
帖数:163
魅力:836
经验:406
金钱:497
注册:2009-07-29 20:56:46
793006    793006 9楼
2011-10-21 22:39:02

siri是针对一个很小的固定指令集合的自然语言适配器,它真正牛B的地方在于有学习程序来和个人口音和语言习惯逐渐调谐。学习程序也是人工智能的一大重点,虽然现在的主流学习机制和真正的人脑学习机制完全不同---基本还是靠暴力。siri和通用的自然语言分析器还有很大的差距。自然语言分析器现在理论上最重要的一个功能是可以用语言学习语言:利用已知指令集自行演绎出更大的指令集。<br/>





精华:1
帖数:3726
魅力:13980
经验:15334
金钱:9203
注册:2009-03-15 22:26:48
784008    784008 10楼
2011-10-21 22:47:22

用于封网的大概不需要用语言学习语言,只要识别一系列固定模式就行了。语言更新毕竟是很慢的。

永忆相逢千万好,江湖。归渡扁舟去也无?




精华:11
帖数:163
魅力:836
经验:406
金钱:497
注册:2009-07-29 20:56:46
792005    792005 11楼
2011-10-21 23:01:00

我说几个技术上的相关难点,可以认识下自然语言分析是多么的难:<br/><br/>计算机分析自然语言的难度不在于语法,语法再多,都是可以用范式来逐渐简化的。最难的部分是那些自然语言中和高级思维密切相关的部分。毕竟自然语言本身就可以认为是有声的思维。<br/><br/>比如说,人脑的某个部位受损,可以导致人认识不出讽刺。这种病变会导致人逐字逐句地理解字面意思(这种活计算机可以干得不错),对很明显的讽刺浑然不觉。讽刺是一种外延思维,跟语境和上下文密切相关,还需要背景知识。这种东西在大脑里面也是有专门机制处理的(否则就不会损伤了能听话但不认识讽刺了),究竟怎么干的,神经生理学还是一无所知。现在也找不到任何一种可以摸到边的计算机思路。你的“胡奥赛斯库”这种要求,就必须懂得讽刺。<br/><br/>还有,计算机分析器对一个很简单的自然语言区别:question和rhetorical question,无计可施,基本都会混淆。rhetorical question没有确切的中文翻译,是指那种答案不言自明的问句,用“反问句”不能完全代替。<br/><br/>除了外延性自然语言现象,计算机处理派生语言现象时也无力。比如说现代英语中遍地都是的用几个连接号连接起来的复合词,拥有强大语法功能的计算机程序,很多时候连复合词的词性都认不出来,名字误认为形容词,形容词误认为名词。根子就是演绎能力的欠缺。<br/><br/>还有就是容错性。自然语言的自然状态,都是有错的。这些错误在计算机处理时会共振放大。而人的理解能力则会忽略或控制住。比如你可以理解老外说得很烂的中文,可以大致理解计算机翻译的中文,倒过来的话就是灾难。<br/>





精华:1
帖数:3726
魅力:13980
经验:15334
金钱:9203
注册:2009-03-15 22:26:48
794002    794002 12楼
2011-10-21 23:16:54

讽刺和笑的实质都是联想,联想到禁忌就可以了。程序上只要对相关素材做个遍历,找到禁忌所在。就“胡奥塞斯库”的例子来说,和你下面说的容错有交集,先发现这段文字无法解析,然后试图解析(并联想)它的子串,发现齐奥塞斯库,再根据背景知识联想到胡,胡是一个禁忌。这样就完成了讽刺思维的过程。<br/><br/>rhetorical question,你能举一个中文的例子么?<br/><br/>至于派生语言,也是容错的一部分。复合词的词性不是由内部结构决定,而是更多地取决于在句子中的作用。就像随便删掉句子里的一个词,留下空格,你大概能知道删掉的词的词性。如果这个位置可以放置多种词性,连人也会拿不准的,这是语言本身的问题。

永忆相逢千万好,江湖。归渡扁舟去也无?




精华:11
帖数:163
魅力:836
经验:406
金钱:497
注册:2009-07-29 20:56:46
794003    794003 13楼
2011-10-21 23:30:04

你举的这些解释,对人脑都是自然的流程,对程序来说,难得很哪。而且你的思路不是通用分析器,是专门用来封网的分析器,这种东西做出来的唯一效果就是滥杀无辜,杀到话不成话,网不成网。<br/><br/>中文举例:<br/><br/>给你多少时间和钱,才能造出一个从一堆火药和钢铁里自己长出一个炸弹的机器?<br/><br/>有点常识的人知道这是一个rhetorical question, 表示对可能性的否定。有些背景知识的人还能知道这是在说胚胎发育的niubibility, 不可模仿性,不可类比性。<br/><br/>而按计算机的思路,它多半会去认真考虑要多少钱。<br/><br/>再举个不需要背景知识的rhetorical question:<br/><br/>我要你这种女人有什么用?<br/><br/>如果是计算机在冒充女人,它会说我也有生殖器官的...





精华:1
帖数:3726
魅力:13980
经验:15334
金钱:9203
注册:2009-03-15 22:26:48
791006    791006 14楼
2011-10-21 23:47:14

对于讽刺,我说的就是一个程序过程。它表明了一个讽刺或者笑话的常规分析过程,不是专门用来封网的。<br/><br/>[quote]给你多少时间和钱,才能造出一个从一堆火药和钢铁里自己长出一个炸弹的机器?<br/><br/>有点常识的人知道这是一个rhetorical question, 表示对可能性的否定。[/quote]<br/>那么没有常识的人呢?有点常识的机器呢?<br/><br/>[quote]我要你这种女人有什么用?<br/><br/>如果是计算机在冒充女人,它会说我也有生殖器官的... [/quote]<br/>这机器都会说笑话了。

永忆相逢千万好,江湖。归渡扁舟去也无?




精华:11
帖数:163
魅力:836
经验:406
金钱:497
注册:2009-07-29 20:56:46
784010    784010 15楼
2011-10-22 00:12:21

机器的问题不是怎么去分析一个讽刺,而是它认不出哪个是讽刺,哪个不是。<br/>没有常识的人和有点常识的机器都会回答:我不知道。在这个高级语言问题上它们差不多的笨。<br/><br/>顺便说下讽刺、rhetorical question乃至比喻这些高级语言现象所反映的,正是现在比较流行的对高级智能的特征定义。<br/><br/>生物学上的所谓高级智力,其实就是人的智能,是相对于研究得很多的动物智能来说的,这就涉及到一个老问题,在进化的连续光谱上,用什么特征能最准确地界定人?<br/>以前有直立行走,火,语言,社会合作,制造工具,制造制造工具的工具,文化动物。。。很多个答案,相继一个一个被否定,在动物界都找到了反例。<br/>最近最流行也比较深刻的一个定义是:人特有的高级智能,能够认识到其他的高级智能(人)也在进行同等程度的思维。而动物式的智能不能。动物智能把所有的客体都当做自动机对待,与对方交互的方式是纯粹的条件反射。<br/>一个显著现象就是很多动物都会装死,但都不能从思维上能识破逼真的装死,即使屡次遇到。它们自己有诡计,但它们不知道客体也会耍诡计。<br/>这个定义在进化史上的影响最大,以前认为人的智力进化爆炸来自于处理客观世界,比如制造工具,应对环境什么的。现在认为智力爆炸的驱动力在于人与人的智力博弈。<br/><br/>自然语言中计算机难以处理的现象,基本都是需要预设使用语言的客体有思维的现象。这种思维预判就像正反馈,可以无限往来增加复杂性,当然对智力的进化推动很大。也正是现在的计算机胜任不了的。<br/><br/><br/><br/>



刷新树形列表
786003 ● - [灌水]人类还能阻止他们吗? 175字1楼 天衣居士 2011-10-20 19:54:15
792001 ◆ - 什么是语意解析?[edit]2011-10-21 14:22:12.578659[/edit] 338字2楼 小麦 2011-10-21 14:12:04
792003 ◆ - 就是通过人工智能理解语句的意思。比如,看到“胡奥塞斯库”五个字,就知道这是对今上的诚挚问候和良好祝愿。 51字3楼 天衣居士 2011-10-21 16:10:24
792004 ◆ - 我还以为是机器语言的分析技术,原来是说自然语言。标准骗钱项目,给他20年+20亿他也搞不出来,还半年,批项目的人对人工智 68字4楼 小麦 2011-10-21 16:53:51
784005 ◆ - 未必吧。被证明搞不出来了? 13字5楼 天衣居士 2011-10-21 17:27:10
793003 ◆ - 不是被证明搞不出来,而是大量的实践证明这是一个非常,非常难的技术,所需要的知识和理论现在还没有积累够。&lt;br/ 489字6楼 小麦 2011-10-21 21:34:56
793005 ◆ - 顺便说一个中国搞这方面科研的实例:大概在5年前,随着维稳春风的吹来,公安部渴求一个能够实用的人脸识别系统,起初 346字7楼 小麦 2011-10-21 21:45:49
784007 ◆ - siri 你怎么看?google 翻译英译中不行,中译英不错。我觉得主要是差在中文水平。 54字8楼 天衣居士 2011-10-21 22:27:41
793006 ◆ - siri是针对一个很小的固定指令集合的自然语言适配器,它真正牛B的地方在于有学习程序来和个人口音和语言习惯逐渐调谐。学习 188字9楼 小麦 2011-10-21 22:39:02
784008 ◆ - 用于封网的大概不需要用语言学习语言,只要识别一系列固定模式就行了。语言更新毕竟是很慢的。 44字10楼 天衣居士 2011-10-21 22:47:22
792005 ◆ - 我说几个技术上的相关难点,可以认识下自然语言分析是多么的难:计算机分析自然语言的难度不在于语法,语法 710字11楼 小麦 2011-10-21 23:01:00
794002 ◆ - 讽刺和笑的实质都是联想,联想到禁忌就可以了。程序上只要对相关素材做个遍历,找到禁忌所在。就“胡奥塞斯库”的例子来说,和你 306字12楼 天衣居士 2011-10-21 23:16:54
794003 ◆ - 你举的这些解释,对人脑都是自然的流程,对程序来说,难得很哪。而且你的思路不是通用分析器,是专门用来封网的分析器,这种东西 379字13楼 小麦 2011-10-21 23:30:04
791006 ◆ - 对于讽刺,我说的就是一个程序过程。它表明了一个讽刺或者笑话的常规分析过程,不是专门用来封网的。[qu 274字14楼 天衣居士 2011-10-21 23:47:14
784010 ◆ - 机器的问题不是怎么去分析一个讽刺,而是它认不出哪个是讽刺,哪个不是。没有常识的人和有点常识的机器都会回答:我不 682字15楼 小麦 2011-10-22 00:12:21
796002 ◆ - 对于生长炸弹的问题,没有常识的人或机器都会去计算需要多少资源,而有常识的人或机器都能意识到这是个rhetorical q 247字16楼 天衣居士 2011-10-22 09:35:20
794005 ◆ - 刚看过PBS制作的一个节目-Smartest Machine on Earth, 说的是IBM研究的超级电脑在智力游戏J 256字17楼 Taotaoba 2011-10-22 12:06:09
797002 ◆ - 能否详细谈谈你试过翻译多么复杂的内容,结果如何? 24字18楼 天衣居士 2011-10-22 12:11:38
783006 ◆ - 找一个iPhone试一试就知道了。我没有iPhone,没机会多试。就是一些简单的日常对话,可以在几种语言中翻译转换,当然 185字19楼 Taotaoba 2011-10-22 19:12:48
786004 ◆ - 我也没有。。 6字20楼 天衣居士 2011-10-22 20:05:08
788003 ◆ - 网页有问题,第二页显示不出来。 15字21楼 Taotaoba 2011-10-23 08:18:34
782005 ◆ - 是说在列表页点[灌水]人类还能阻止他们吗? [2]后边的2的问题吧?改好了。&lt;b 73字22楼 天衣居士 2011-10-23 09:59:40
795007 ◆ - 我党虽然想要彻底消灭(至少是全部跨省掉)反对他的百信,但是他一直没有成功。这个系统能取得多少效果是一回事,需要投 163字23楼 冷眼 2011-10-29 08:37:54


Copyright ©2001 - 2026 大江东去,科幻长城
Powered By Djdqbbs Version 0.0.2