在电脑上输入几个词,等着在屏幕上看到它们被转化成图片,比如山川湖海、鸟兽鱼虫、楼宇院落、人物肖像。不管效果如何,都不是容易的事。
因为实现这些前,需要解决计算机视觉和自然语言处理中那些最难的问题:电脑要学会听懂我们说的话,知道我们想表达什么,还要知道怎么把我们的话变成图画里的东西,最后还要尽可能好看。
这方面的产品化已经相对成熟,譬如 Stable Diffusion、Midjourney、OpenAI 旗下的 DALL·E 2,以及百度的文心一格。背后的实现算法也大同小异。
但上周文心一格画了一些让人难以理解的 “错图”。例如收到提示词 “起重机” 后画了一幅 “仙鹤”,或者把 “鼠标” 画成 “老鼠” 等。
百度用 177 字声明为其人工智能研发能力辩护,称是用 “符合行业惯例” 的全球互联网公开数据训练自研模型。它回应了有关 “抄袭”“套壳” 的质询,但没有说清楚为什么会出现这些错误。
https://weibo.com/ttarticle/p/show?id=2309404884223529189457
https://weibo.com/ttarticle/p/show?id=2309404884223218548889
https://weibo.com/ttarticle/p/show?id=2309404884222732271633
https://weibo.com/ttarticle/p/show?id=2309404884222320967683
https://weibo.com/ttarticle/p/show?id=2309404884222002200885
https://weibo.com/ttarticle/p/show?id=2309404884225294991426
https://weibo.com/ttarticle/p/show?id=2309404884225034682449
https://weibo.com/ttarticle/p/show?id=2309404884224766509134
https://weibo.com/ttarticle/p/show?id=2309404884224518783215
https://weibo.com/ttarticle/p/show?id=2309404884224221249784

