[灌水]人类还能阻止他们吗?
2011-10-20 19:54:15
第一手资料:盘古搜索,也就是中移动与新华社合资的搜索公司,正打算做一个语义解析工具,打算半年内完成。
<br/>
<br/>到时长城内外,惟余诺诺,大江上下,顿失滔滔。爬虫所至之处,只能留下些虫粪了。
<br/>
<br/>要挡住爬虫,只能通过 user-agent 识别,只要它用别人的 ua,就没法挡住。人类还能阻止他们吗?只能期待他们做不出来。
永忆相逢千万好,江湖。归渡扁舟去也无?
![]() |
[灌水]人类还能阻止他们吗?
2011-10-20 19:54:15
第一手资料:盘古搜索,也就是中移动与新华社合资的搜索公司,正打算做一个语义解析工具,打算半年内完成。
<br/>
<br/>到时长城内外,惟余诺诺,大江上下,顿失滔滔。爬虫所至之处,只能留下些虫粪了。
<br/>
<br/>要挡住爬虫,只能通过 user-agent 识别,只要它用别人的 ua,就没法挡住。人类还能阻止他们吗?只能期待他们做不出来。
永忆相逢千万好,江湖。归渡扁舟去也无?
|
![]() |
2011-10-21 21:34:56
不是被证明搞不出来,而是大量的实践证明这是一个非常,非常难的技术,所需要的知识和理论现在还没有积累够。<br/><br/>图像模式识别和自然语言解析是人工智能技术中的两大圣杯,全世界花了几十年的时间投入无数人力物力研究,后者的进展比前者还差。即使是最强势,逻辑性也相当强的语言英语,现在也没有做出一个可以接受的人工智能分析器。这方面的研究,最前沿在大学和研究机构,尤其是政府资助的研究机构,而不在企业。不是企业看不到它的巨大商业前景,而是这种研究要求的纯理论准备、时间投入和沉淀积累太过巨大。企业很难接受。<br/>如果你做出一种语言的语义分析器,你马上就可以做出接受自然语言或者声控的操作系统。如果你做出两种语言的语意分析器,你就能做出一个真正合用的翻译机。--看看google,研发实力超强的公司,做出的自动翻译现在是什么效果。<br/><br/>图像模式识别的实质是归纳能力。自然语言分析的实质是演绎能力。是真正的人的智能中最精华的两个部件。人工智能真要能做到,离以假乱真的智能也就不远了。<br/><br/>按中国现在搞科研的水平,这种公司,这种时限,只能认为他是扯淡。
|
![]() |
2011-10-21 21:45:49
顺便说一个中国搞这方面科研的实例:<br/>大概在5年前,随着维稳春风的吹来,公安部渴求一个能够实用的人脸识别系统,起初要求是能在监控录像品质的图像中双向80%(即在有标准照片的情况下,对于品质达标的自然人脸图像,误警率和漏警率都低于20%)。人脸识别系统做得最好的是美国,也是司法机构搞出来的,基本能做到实用,但是技术是严密封锁的。公安部的标准一出,中国所有搞相关技术的企业和机构大眼瞪小眼,谁都不敢接招。因为这标准已经大大超出世界最高水平了。<br/>然后公安部调低标准,给出的经费预算高达几个亿。这次有实力的单位还是谁都不敢接招,因为做不出来,理论积累严重不足。而各种花架子,关系户勇敢地上了。<br/>结果是某个小公司用了1500万做了一个纯粹的废品。<br/>到现在这个悬赏还挂着。
|
![]() |
2011-10-21 22:39:02
siri是针对一个很小的固定指令集合的自然语言适配器,它真正牛B的地方在于有学习程序来和个人口音和语言习惯逐渐调谐。学习程序也是人工智能的一大重点,虽然现在的主流学习机制和真正的人脑学习机制完全不同---基本还是靠暴力。siri和通用的自然语言分析器还有很大的差距。自然语言分析器现在理论上最重要的一个功能是可以用语言学习语言:利用已知指令集自行演绎出更大的指令集。<br/>
|
![]() |
2011-10-21 23:01:00
我说几个技术上的相关难点,可以认识下自然语言分析是多么的难:<br/><br/>计算机分析自然语言的难度不在于语法,语法再多,都是可以用范式来逐渐简化的。最难的部分是那些自然语言中和高级思维密切相关的部分。毕竟自然语言本身就可以认为是有声的思维。<br/><br/>比如说,人脑的某个部位受损,可以导致人认识不出讽刺。这种病变会导致人逐字逐句地理解字面意思(这种活计算机可以干得不错),对很明显的讽刺浑然不觉。讽刺是一种外延思维,跟语境和上下文密切相关,还需要背景知识。这种东西在大脑里面也是有专门机制处理的(否则就不会损伤了能听话但不认识讽刺了),究竟怎么干的,神经生理学还是一无所知。现在也找不到任何一种可以摸到边的计算机思路。你的“胡奥赛斯库”这种要求,就必须懂得讽刺。<br/><br/>还有,计算机分析器对一个很简单的自然语言区别:question和rhetorical question,无计可施,基本都会混淆。rhetorical question没有确切的中文翻译,是指那种答案不言自明的问句,用“反问句”不能完全代替。<br/><br/>除了外延性自然语言现象,计算机处理派生语言现象时也无力。比如说现代英语中遍地都是的用几个连接号连接起来的复合词,拥有强大语法功能的计算机程序,很多时候连复合词的词性都认不出来,名字误认为形容词,形容词误认为名词。根子就是演绎能力的欠缺。<br/><br/>还有就是容错性。自然语言的自然状态,都是有错的。这些错误在计算机处理时会共振放大。而人的理解能力则会忽略或控制住。比如你可以理解老外说得很烂的中文,可以大致理解计算机翻译的中文,倒过来的话就是灾难。<br/>
|
![]() |
2011-10-21 23:16:54
讽刺和笑的实质都是联想,联想到禁忌就可以了。程序上只要对相关素材做个遍历,找到禁忌所在。就“胡奥塞斯库”的例子来说,和你下面说的容错有交集,先发现这段文字无法解析,然后试图解析(并联想)它的子串,发现齐奥塞斯库,再根据背景知识联想到胡,胡是一个禁忌。这样就完成了讽刺思维的过程。<br/><br/>rhetorical question,你能举一个中文的例子么?<br/><br/>至于派生语言,也是容错的一部分。复合词的词性不是由内部结构决定,而是更多地取决于在句子中的作用。就像随便删掉句子里的一个词,留下空格,你大概能知道删掉的词的词性。如果这个位置可以放置多种词性,连人也会拿不准的,这是语言本身的问题。
永忆相逢千万好,江湖。归渡扁舟去也无?
|
![]() |
2011-10-21 23:30:04
你举的这些解释,对人脑都是自然的流程,对程序来说,难得很哪。而且你的思路不是通用分析器,是专门用来封网的分析器,这种东西做出来的唯一效果就是滥杀无辜,杀到话不成话,网不成网。<br/><br/>中文举例:<br/><br/>给你多少时间和钱,才能造出一个从一堆火药和钢铁里自己长出一个炸弹的机器?<br/><br/>有点常识的人知道这是一个rhetorical question, 表示对可能性的否定。有些背景知识的人还能知道这是在说胚胎发育的niubibility, 不可模仿性,不可类比性。<br/><br/>而按计算机的思路,它多半会去认真考虑要多少钱。<br/><br/>再举个不需要背景知识的rhetorical question:<br/><br/>我要你这种女人有什么用?<br/><br/>如果是计算机在冒充女人,它会说我也有生殖器官的...
|
![]() |
2011-10-21 23:47:14
对于讽刺,我说的就是一个程序过程。它表明了一个讽刺或者笑话的常规分析过程,不是专门用来封网的。<br/><br/>[quote]给你多少时间和钱,才能造出一个从一堆火药和钢铁里自己长出一个炸弹的机器?<br/><br/>有点常识的人知道这是一个rhetorical question, 表示对可能性的否定。[/quote]<br/>那么没有常识的人呢?有点常识的机器呢?<br/><br/>[quote]我要你这种女人有什么用?<br/><br/>如果是计算机在冒充女人,它会说我也有生殖器官的... [/quote]<br/>这机器都会说笑话了。
永忆相逢千万好,江湖。归渡扁舟去也无?
|
![]() |
2011-10-22 00:12:21
机器的问题不是怎么去分析一个讽刺,而是它认不出哪个是讽刺,哪个不是。<br/>没有常识的人和有点常识的机器都会回答:我不知道。在这个高级语言问题上它们差不多的笨。<br/><br/>顺便说下讽刺、rhetorical question乃至比喻这些高级语言现象所反映的,正是现在比较流行的对高级智能的特征定义。<br/><br/>生物学上的所谓高级智力,其实就是人的智能,是相对于研究得很多的动物智能来说的,这就涉及到一个老问题,在进化的连续光谱上,用什么特征能最准确地界定人?<br/>以前有直立行走,火,语言,社会合作,制造工具,制造制造工具的工具,文化动物。。。很多个答案,相继一个一个被否定,在动物界都找到了反例。<br/>最近最流行也比较深刻的一个定义是:人特有的高级智能,能够认识到其他的高级智能(人)也在进行同等程度的思维。而动物式的智能不能。动物智能把所有的客体都当做自动机对待,与对方交互的方式是纯粹的条件反射。<br/>一个显著现象就是很多动物都会装死,但都不能从思维上能识破逼真的装死,即使屡次遇到。它们自己有诡计,但它们不知道客体也会耍诡计。<br/>这个定义在进化史上的影响最大,以前认为人的智力进化爆炸来自于处理客观世界,比如制造工具,应对环境什么的。现在认为智力爆炸的驱动力在于人与人的智力博弈。<br/><br/>自然语言中计算机难以处理的现象,基本都是需要预设使用语言的客体有思维的现象。这种思维预判就像正反馈,可以无限往来增加复杂性,当然对智力的进化推动很大。也正是现在的计算机胜任不了的。<br/><br/><br/><br/>
|