1. 首页
  2. 软文营销

“文案工作终结者”来了?亲测OpenAI“假新闻”生成器


还记得 OpenAI 在今年 2 月放出的 GPT-2 吗?一个拥有 15 亿参数的自然语言处理(NLP)模型,能够根据用户给出的一段文字、一句话,甚至是一个单词,续写出符合文法的连贯文本,真正实现了 “开头一句话,剩下全靠编”。

当时在公布研究成果时,OpenAI没有遵照业界以往的开源惯例,只是象征性地公开了包含 1.17 亿参数的模型,不到全部参数的十分之一。据说因为他们认为自己的模型太过强大,怕被别有用心的人拿去编造假新闻,糟蹋了这套 AI 系统的初衷。

这一做法招来了很多争议,“阉割版” GPT-2 的效果比官方展示的效果差了很多,让一些人认为 OpenAI 只是在制造噱头,还嘲讽他们变成了CloseAI。
“文案工作终结者”来了?亲测OpenAI“假新闻”生成器
2 月初放出的 GPT-2 模型(来源:OpenAI)

不过在 5 月初,OpenAI 用行动回击了质疑。他们将公开的模型参数翻了一倍,提升到了 3.45 亿,还宣布向AI业界合作伙伴开放 7.62 亿和 15 亿参数模型,供他们研究和参考,共同推动 NLP 技术的发展。

另一方面,鉴于 OpenAI 将 GPT-2 模型开源在了 GitHub 上,一名加拿大工程师 Adam King 利用里面的代码,创建了一个名为 TalkToTransformer.com 的网页。这样一来,即使是不会编程的人,也可以在网页上随意输入文字,体验一下如何调戏 AI。

看似流畅连贯,但缺乏逻辑

如果你初次访问网页,不知道该填写些什么,网页上面贴心地预设好了一些英文情景和段落,比如“科学家发现了一种会说英语的独角兽”或者“今天科学家确认一颗大型小行星将会撞击地球”。选取一种之后,AI就会自动续写之后的文字。即使是相同的开头,AI 每次也都会续写出完全不一样的段落。

支持多语种,但只有英语最好

根据测试,AI 可以识别出中文、日语、法语、西班牙语、土耳其语,甚至是很多从没听说过,但存在于谷歌翻译上的小众语言,比如宿务语和库尔德语。只是输出的文字并不像英语那么通顺,续写效果非常差。如果输入了中文,不仅不会写出连贯句子,还会经常出现乱码。
“文案工作终结者”来了?亲测OpenAI“假新闻”生成器
你能看懂这是在说什么吗?但除了中文之外,AI 似乎无法识别绝大多数非字母的语言,像是韩语、阿拉伯语和老挝语等,它都无法识别和续写,只能原封不动地显示输入内容。看来 GPT-2 并没有大家想象的那样智能。

“文案工作终结者”来了?亲测OpenAI“假新闻”生成器

切换回英文,我们输入“如何制造时光机?”

“文案工作终结者”来了?亲测OpenAI“假新闻”生成器

“文案工作终结者”来了?亲测OpenAI“假新闻”生成器
(……算了)

不过相比这些,AI 更擅长的还是编写假消息。

“文案工作终结者”来了?亲测OpenAI“假新闻”生成器

上图中,我们输入的开头是“美国总统特朗普对俄罗斯宣战。一发导弹…(假新闻)。”

AI 续写:“…美国国防部长 James Mattis 周三警告称,尽管俄罗斯拒绝承认在克里米亚地区部署了核轰炸机和巡航导弹,但美国的一发导弹已经从驱逐舰上发射,标志着国际问题的剧烈升级。五角大楼表示,这是对俄罗斯参与乌克兰军事行动的回击。”

除了 Mattis 已经辞职这一事实,面对AI的续写,无论是通顺程度,还是逻辑思维,普通人很难一眼看出破绽。

对关键词求证之后,这样的假新闻很容易被识破。但在现阶段来看,Facebook 和推特等平台依靠筛查系统,几乎不可能第一时间将其屏蔽,很可能借助社交媒体广泛传播,造成非常恶劣的社会影响。

由此看来,OpenAI 最初的顾虑不无道理,科技的确是一把双刃剑。

从整体来看,这套 GPT-2 模型的续写水平足以让人眼前一亮,而且对语境拥有一定的了解,仅凭哈利这个关键词就引出伏地魔。得益于天然英文素材的训练内容,在大部分情况下,只要肯多刷新几次,我们总会找到语法、词汇和句式都能衔接很好的段落。整个过程颇有几分抽奖的乐趣。

无独有偶,中国的国内企业在机器新闻写作领域也做出了一系列探索与尝试。腾讯推出“Dream Writer”,在2015年9月10日发布了第一篇机器写作新闻《8月CPI同比上涨2% 创12个月新高》。这篇稿件从国家统计局中获取数据,涵盖高级统计师的评论建议,用时仅为一分钟。目前,Dream Writer写作的主要领域是财经和体育。

同年11月7日,新华社推出“快笔小新”机器人,为体育部、经济信息部和中国证券报部门提供新闻稿件。

2016年,由北京大学和今日头条合作研发的Xiaoming bot在里约奥运会期间发稿超过450篇[5]。Xiaoming bot主要应用在体育赛事当中。技术上,它是首个基于文字直播数据进行新闻生成的系统,并在语言情感自适应等技术上实现了突破。还能够图文自动关联发稿,基于大量的图文数据库,采用机器学习算法,学习图文语义匹配模型,为文本自动挑选合适的图片。

DT稿王是第一财经媒体实验室开发的一款自动化的新闻写作工具,2015年5月正式推出。它具有信息采集、语义分析、搜索、联想等功能,通过与DT稿王的自动写作功能连接,能代替作者完成简单而庞大的片段写作。

南方都市报社的写稿机器人“小南”也在2017年1月18日正式上岗,首篇文章为300余字的春运报道。在数据自动抓取完成之后,这篇报道的生成只用了不到1秒的时间。与前面提到的新闻写作机器人有所不同的是,“小南”并没有着力于体育和财经领域,而是聚焦于民生。此外,广州日报写稿机器人“阿同”的强项则是分析政府工作报告。

如果你也想试试GPT-2 模型的AI续写功能,这里是它的链接:https://talktotransformer.com/
信息来源DeepTech深科技

分享人:凤城狂客。此原创文章、图片版权归作者所有,供大家分享学习:https://www.baoliyingxiao.com/ruanwen/25908.html