人工智能图像生成器是如何工作的?我见过很多其他用于图像的人工智能工具,它们令人困惑。人工智能是如何独立创作艺术的?

推荐答案1

神经网络,背突出,扩散模型,变形金刚等,如果您想学习和理解这些东西,应该谷歌搜索.

图像发生器和大型语言模型(例如Chatgpt)都通过学习如何在数据上进行有损压缩来工作.他们一遍又一遍地迭代,查看他们从未见过的数据,其中一些数据缺失了.他们尝试猜测丢失的数据,然后将他们的猜测与实际数据进行比较,然后调整其算法,以便更好地猜测.这个想法是,您对世界的了解越多,就越能猜测丢失的信息(反之亦然).这是压缩的,您可以拥有更少的数据,可以将其扩展到完整数据中.似乎很奇怪,但是从某种意义上说,压缩是智能的.

以下面的3张图像,同一车辆的3张图像,并且从它们中移除了5个矩形(蓝色).想象一下,您将这些图像显示给AI,并要求它猜测蓝色区域中的某些像素是什么.在区域1中的猜测非常容易,它看起来很容易,它可以看起来附近的像素,并且很容易估计缺失的绿色阴影. (请注意,使用油漆程序的人可以很容易地做到这一点,没有人会注意到)

猜测区域2中的像素更难.周围的像素没有任何迹象表明,由于转弯信号,区域2中的大多数像素实际上都是橙色的.它可能能够查看其他图像,并说明那里有橙色,或者是在看一堆不同的汽车图像.但是,要做得很好,它必须至少在某种程度上能够理解观点的工作原理.基本上,它需要具有3维车的内部模型,而不仅仅是将其视为像素的大列表.

box 3中的猜测是如果了解双边对称性的工作原理,它可以帮助您查看相同的图像并在驾驶员端看到相同的功能.但同样,它必须理解透视和照明等,依此类推才能将其正确复制到中心的另一侧.

最后一个区域4和5,它可能会猜测它是否看起来在其他图像(甚至是门手的同一图像)上,以估计可能存在的内容.但是要有效地执行任何操作,它需要了解很多,并且可以包括透视图,光学,镜面反射,一般的汽车等等.当它训练时,它使用了一个称为背部的概念,该概念是在80年代发明的.基本上,它可以通过大量数字(通常称为权重或向量)来实现结果.这些可能会从随机开始,但是只要它出错了,它就会返回并调整这些数字 ,以便它可能会更接近预期的答案 .这是一种相当复杂的算法,其中包括一些演算,但不是 复杂. ,并且您有足够的权重调整,最终会得到一个内部模型,虽然对人类完全无法理解,但其结构非常高.通常有数万亿个可调节的值,这些价值基本上代表了"世界"的模型,它非常复杂.它不了解所有内容,但要了解很多.

不难看出如何,如果要求做的一切只是在数百万张图像中猜测像素,所有这些图像都是相同的绿色汽车(仅从不同角度),它最终会学会理解透视和照明足够好,以便能够准确地猜测.如果它是以前从未见过的,并且它是从头开始创建图像,它会变得更加困难.但是,它需要做的一切都只是对上面正在做的事情的扩展,它在猜测图像的缺失部分.它甚至可以做下面的事情更令人惊奇,但是您是:

我个人认为它可以做到这一点,就像令人震惊的是,自然选择的进化可能会产生另一种智力来源,即人脑.但是显然可以,而且确实如此.我的意思是确定它几乎没有狗狗,而且已经看到了鸟翅膀,并且看到了苔藓的树枝,而且看到了蘑菇 - 但是将它们连贯地结合在一起,并提供了我要求的确切的照明状况.如果一个人可以绘制这样的图像,即使他们有特定的说明,他们也将被认为是很有才华的.在这次出色的演讲中,虽然他大多谈论大型语言模型,但他为这些AIS实际上确实了解事物的想法提供了一个很好的理由.即使他们也是真的,他们受到了统计预测缺失的数据的训练.