对话a16z被投PhotaLabs联创张璇儿:在Photoshop与美图之间,如何杀出一条新路?

Phota Labs 联合创始人:CEO 张璇儿 Cecilia、CTO 夏志豪 Zach
导语
当《白日梦想家》中的肖恩·潘在山顶宁静地等待,最终面对那个决定性瞬间,却选择放下相机时,那不仅是勇气与艺术的胜利,更是所有摄影者心底的渴望——在那个无法重来的时刻,有人能读懂光、读懂情绪,预判瞬间,将“此刻发生”的画面永远定格。
在摄影的世界里,这种瞬间并不罕见,但极难被捕捉。最动人的作品背后,总有一位“懂得等待一束光”的创作者——他们预判光影的走向,体察情绪的流动,用直觉按下快门。而今,Phota Labs 的联合创始人 Cecilia Zhang 正试图用算法,让这种不可言传的“在场感”,不再只是少数摄影师的天赋。她希望,让每一张平凡的照片,都有机会被“光”照亮。
这个念头并非一时兴起。Cecilia 的读书生涯和在 Adobe 工作的几年,正好见证了计算摄影和生成式 AI 技术的快速演进:从 Stable Diffusion 的爆发式传播,到 DALL·E 让大众第一次感受到 AI 生成图像的魔力,再到 OpenAI 和 Google 最新一代模型逼近真实拍摄的质感。技术越来越强大,但 Cecilia 意识到,仅仅“生成”并不能让一张图片打动人。真正让人难忘的,是照片背后承载的记忆和情感。
从伯克利博士期间专攻计算摄影这个方向到加入 Adobe,Cecilia 几乎每天都能看到算法的进步,但这些进步往往落在“工具”的范畴里:更精准的抠图,更智能的修饰,更高效的增强。她也经常听到用户反馈,“工具很好用,但它只是工具”。Cecilia 渐渐意识到,这里面还缺了点什么——一个能与人的情感和记忆真正建立连接的产品。
有位用户的一句话让她印象深刻:“我不是想修好这张照片,我只是希望能‘再回到那个瞬间’。”这句话成了她后来的创业灵感——如果 AI 真能帮助人们“回到拍照那一刻”,它就不只是技术创新,而是情感延伸。

她看到的创业窗口并不仅仅是一条“修图升级”的赛道,而是一个几乎空白的品类:用生成式 AI 重构记忆场景。她创办了 Phota Labs,目标是重新定义“照片”与“记忆”的关系。Phota Labs 并不满足于修饰和增强图像,它试图“重构”场景:不只是弥补瑕疵,而是回到那个瞬间,重新决定光线、构图和故事。在产品设计中,Phota Labs 引入了“身份保持”和“上下文理解”两大技术原则,确保生成结果不仅真实,还符合拍摄当时的记忆语境。比如,在一张朋友旅行的合照中,AI 不只是补光、磨皮,而是能理解这是“清晨的海边”,能还原那束穿透薄雾的阳光。
与现有的图像工具相比,Phota Labs 的目标从一开始就不一样。Photoshop、Lightroom 等专业工具强调的是“修复”与“增强”,而美图类产品则聚焦在特定功能上,比如美颜或滤镜。Phota Labs 则是 category-defining( 品类定义者 ):它关注的不是“工具好不好用”,而是“结果是否能让人心动”。她也很早就排除了走硬件路径的可能——“硬件创业的成本与节奏其实会远高于软件,我们的目标是用算法和审美去重构用户记忆,而不是进入硬件的迭代竞争。”她更相信,纯软件的灵活性和更贴近日常拍摄场景的特性,才是产品能够快速进入用户生活的关键。
“我们希望 Phota Labs 成为每个人记录生活时的‘第二视角’。”Cecilia 说,“无论人们使用什么设备拍照,是手机、GoPro,还是智能眼镜,他们都会好奇:‘如果我把这张照片放进 Phota Labs,会变成什么样?’”在她的设想里,这是一种“再看一次”的体验。用户输入可以是照片,甚至是视频片段,输出则是一张经过算法重新演绎的、最接近记忆中理想状态的照片。
Cecilia 清楚这条路不会轻松。创业初期她没有一头扎进大众市场,而是选择了有摄影基础的早期用户群体——他们拍照多,对成片效果有清晰预期,也能在产品迭代中提供更有价值的反馈。但她的初心始终明确:"Transform everyday photos into beautiful memories"。“我们希望 Phota 能让用户联想到‘记忆’和‘分享’。照片与记忆紧密相连,我们的目标是通过照片让每个人的记忆变得更加美好。”Cecilia 说。
从技术出发,却不止于技术,以算法为基点,却想重构的是记忆本身。Phota Labs 所探寻的,远非又一款图像工具——它试图回答一个在 AI 时代愈发重要的问题:当技术能生成一切,什么才是独属于我们、值得被珍藏的“真实”?
此次,Z Potentials 对话了 Phota Labs 联合创始人 Cecilia Zhang,她与我们分享了关于计算摄影技术演变和如何在 AI 时代重新定义照片工具的思考。enjoy~
1、从某种意义上说,这是一种“前期思维”。虽然我们在技术上处理的是已成型的照片,但通过重新构想和重构,我们力求让最终效果能够媲美在理想条件下拍摄的作品。所以,虽然形式上属于后期处理,但我们本质上是在重新演绎拍摄时的决策过程,这更像是一种对“前期规划”的数字化实现。
2、我认为好照片包含两个层面:首先是传统三要素——构图、光线和瞬间。这是摄影基础课程都会强调的,也是专业摄影师评判照片的基本标准。“瞬间”最为关键,它决定了照片从“好”到“杰出”的差距,因为它承载着故事性。
3、最重要的是一张照片能否与观看者建立强烈的情感连接,一旦有了这种连接,就已经达到了好照片的重要标准。所以既有技术层面的评判,也有故事层面的考量,这两个维度都很重要。
4、我们一直希望 Phota 能让用户联想到“记忆”和“分享”。照片与记忆是紧密相连的,我们的目标是通过照片让每个人的记忆变得更加美好。
5、每个人对“自己希望在照片中是什么样子”的理解都不同,而这恰恰是我们希望 AI 能够更好理解的部分。
6、我们更关注如何定义和建立一个稳定的“taste”框架,“控制”的形式我们会通过提供给用户一个反馈回路 (feedback loop) 去持续改进系统的审美,而不是让用户自己进行细粒度的操作。
6、希望 Phota Labs 成为每个人记录生活时的“第二视角”。照片的采集方式可以多样,甚至未来输入可能是视频,但最终输出依然是一张“记忆的最美版本”的照片。这种“再看一次”的体验,就是我们想持续探索的方向。
8、目前市场上还没有一个完全相似的产品。我们带来的是一种全新的“照片重构”方式,因此在品类上是一个category-defining product( 品类定义者 )。
9、硬件创业的成本与节奏其实会远高于软件。我们的目标是用算法和审美去重构用户记忆,而不是进入硬件的迭代竞争。对我们而言,纯软件方案更灵活,也更符合当下用户的使用习惯。
从伯克利到 Adobe:一位计算摄影博士的 AI 创业之路

ZP:首先可以请你介绍一下你的背景吗?
Cecilia Zhang:我在美国读的本科,在 Rice 大学学习计算机和电子工程。大二时第一次接触图像处理课程,从那时开始就对计算机视觉和摄影的结合产生了浓厚兴趣。后来去伯克利读计算机博士,专攻计算摄影这个方向。这个领域其实挺新的,它处在计算机图形学和计算机视觉的交叉点,特别是随着手机摄影的普及,这个方向变得越来越重要。我的导师是 Lytro 公司的创始人,他在创业十年后回到学术界,而我很幸运地成为他的第一届博士生。
ZP:听起来你一直在这个领域深耕。这是你主动选择的方向吗?
Cecilia Zhang:是的,这确实源于我从小对摄影的热爱。我拥有第一台相机大概是 20年前,那时还在上初中,记得当时班里任何活动,无论是课间休息、集体舞排练还是做操,只要有机会,我都会拿着相机拍照。后来班级活动、毕业典礼需要的照片,基本都出自我之手。最开始是一台粉色的三星卡片机,后来陆续用过各种相机,从卡片机到单反,再到现在的手机摄影,最近我甚至重新开始尝试胶片摄影。各种摄影形式我都愿意尝试,很享受通过镜头观察生活、捕捉精彩瞬间的过程。
ZP:所以你是把兴趣和专业完美结合了。
Cecilia Zhang:确实很幸运,博士期间我主要研究计算摄影,这个领域的核心目标就是让更多人能拍出好照片。我们既从硬件角度改进光学系统和传感器,也从软件层面探索如何通过算法处理图像数据。比如 iPhone 中的人像模式,还有视频的“电影效果”模式,能够实时追踪并对焦主体,这些功能背后的算法都是我博士期间的研究方向。
让普通用户也能拍出专业质感的作品是我博士研究的核心思想:“摄影民主化”。我们希望打破技术和设备的限制,让每个人在任何条件下都能记录下美好的瞬间。有个故事让我印象深刻:我的导师提到一位战地记者,他放弃专业相机转而使用 iPhone 进行采访。因为手机不像专业设备那样具有侵入性,让被采访的士兵和居民更容易放松,反而能捕捉到最真实的情感和场景。这让我意识到,手机摄影在某些场合确实具有独特优势,它已经融入日常生活,成为记录真实的最佳工具。
后来我加入了 Adobe,当时 Mark Levoy 也从 Google 来到了 Adobe。Mark 在学术界和工业界都堪称传奇人物,他最著名的工作是扫描米开朗基罗的雕像,在 2000年左右,他采用了一种非常高效的方法来处理如此大规模的数据。之后他转向光场研究,这相当于不仅记录画面,还记录了角度变化等更多信息,可以实现场景重建、重新计算光线、调整焦点等功能,他是这个领域的奠基人。在 Google 期间,他几乎从零开始构建了 Pixel 相机的计算摄影体系。从某种意义上说,他是将计算摄影带入消费级产品的关键人物。他加入 Adobe 时,我也在同一时间加入了,可以说我是他组建团队时的第一批成员。在 Adobe,我们继续从事计算摄影研究,不过这次是从第三方软件的角度出发,专注于算法创新,比如多张照片的融合等技术。Mark 对这个团队的定位是介于研究和产品之间,我们既要保持创新性,又要拥有自己的产品。每个人都需要在两者之间找到平衡,不能纯粹为了发表论文而研究,但产品中必须包含最前沿的摄影技术探索,我们当时做的项目就是 Indigo。
ZP:Indigo 这个产品现在是什么状态?
Cecilia Zhang:现在已经开放下载了。
ZP:我下载过,但感觉对普通用户来说还是有些复杂,参数设置比较专业。
Cecilia Zhang:它的设计初衷确实是面向更懂摄影的用户。不过初始界面可以简化,很多功能都可以隐藏起来。最简单的使用模式其实和 iPhone 自带相机差不多,但它还有一个专业模式,可以手动调整各种参数。像顶部的数据区域是直方图,用来显示场景的明暗分布。从左到右表示从暗到亮的区域,如果右侧较多就说明画面偏亮,左侧较多则偏暗。专业摄影师会根据这个分布来判断画面对比度等情况,不过这个功能其实也是可以关闭的。
ZP:你在 Adobe 期间主要精力都投入在 Project Indigo 这个项目上,同时兼顾研究和产品化工作?
Cecilia Zhang:我从 2020年到 2024年在 Adobe,大部分时间都在开发 Project Indigo,但也分配了一部分精力进行前沿研究。有些研究成果其实能更快地应用到现有产品中,比如 Photoshop 和 Lightroom。我记得有个很有意思的实习项目,专注于电线分割和移除,这是专业摄影师经常需要的功能。他们在清理照片时,经常需要去除电线等杂物,但电线又细又长,具有独特的视觉特征,让这个任务变得颇具挑战性。我们还为 Lightroom 开发过一些功能,比如降噪等,这些功能很多都运用了 AI 技术。Adobe 一直在积极地将最新的模型和技术整合到现有产品中,所以当时我们也与这些产品团队保持了紧密合作。
ZP:你在 2024年离开 Adobe 决定创业,当时是什么契机促使你做这个决定?
Cecilia Zhang:生成式 AI 在 2022年崭露头角,2023年是大模型爆发的一年,2024年这个趋势仍在延续。我观察到从最初的 Stable Diffusion,到后来的 DALL-E,再到最近 OpenAI 和 Google 的模型,图像生成领域的技术已经成熟到可以产品化的阶段。但大模型本身并不构成完整的产品,还需要针对特定使用场景和需求进行精心设计和打磨。我觉得 AI 的时机已经到来,同时我在 Adobe 工作时也发现了行业一个长期未被解决的问题。
摄影始终围绕两个核心环节:拍摄和后期。但人们还是会觉得“为什么我拍的照片不如你拍的好?”很多时候问题既不在于相机,也不在于后期,因为在按下快门的那一刻,拍摄者的角色太关键了,拍出好照片本身就是一件很有难度的事。这种技术门槛导致很多照片在后期阶段难以挽救。当然,你也可以说这是因为后期工具还不够强大。但我们希望从一个全新的角度来思考这个问题,而 AI 正好提供了这样的机会。所以我们认为时机成熟了,应该出来尝试用不同的方式解决这个问题。
ZP:我非常认同。对大多数人来说,表情管理和姿态控制确实是个难题。你刚才提到后期处理比较困难,你们公司目前做的还是偏后期的工作?
Cecilia Zhang:虽然我们确实从后期入手,但我们的核心理念是:对于任何照片或场景,我们都希望达到这样一个效果,就好像当时有一位专业摄影师,或你最会拍照的朋友就在你身边。他会如何构图?捕捉哪个瞬间?等待哪束光线?甚至会使用什么器材?从某种意义上说,这是一种“前期思维”。虽然我们在技术上处理的是已成型的照片,但通过重新构想和重构,我们力求让最终效果能够媲美在理想条件下拍摄的作品。所以,虽然形式上属于后期处理,但我们本质上是在重新演绎拍摄时的决策过程,这更像是一种对“前期规划”的数字化实现。
ZP:我看过官网上的案例,能理解这个理念。但这是否需要用户尽可能多拍照呢?比如我妈妈给我拍的照片,经常表情不好或者把我拍得很矮。这种情况用我们的产品能解决吗?
Cecilia Zhang:这涉及到用户输入的要求。理想情况下,用户可以对同一场景进行多次尝试,或者从不同角度拍摄更丰富的内容,我们支持这两种方式。
ZP:具体来说,产品对用户有什么要求?或者在什么场景下效果更好?是人像还是风景?
Cecilia Zhang:我们的流程是这样的:首先需要用户上传一组照片,目的是学习用户的外貌特征,我们称之为“建立个人档案”。完成这个一次性设置后,之后拍摄任何照片都可以直接使用这个模型。这个过程的关键在于“身份保持”,不仅要在一张照片中保持人物特征,还要在所有照片中都保持一致,包括不同角度、光线和构图。这是个很有挑战性的任务,但现在借助大模型对人脸和人体的先验知识变得可能实现。初始阶段我们需要用户提供 30 到 50 张照片来构建个人档案。完成之后,后续拍摄单张照片即可使用。之所以需要较多初始照片,一方面是为了身份保持,另一方面也是为了获取更丰富的上下文信息。

当 AI 理解“你希望在照片中的样子”:Phota Labs 的情感连接壁垒
ZP:回到 Adobe 的经历,你们做的 Project Indigo 似乎面向的是专业或至少是进阶摄影用户。在这个过程中你们遇到的主要技术挑战和收获有哪些?
Cecilia Zhang:在 Adobe 期间,我们面临的最大挑战可能是如何在研究和产品之间找到平衡。作为第三方软件,确实会遇到一些技术难点,但更核心的是在手机摄影已经发展成熟的阶段,如何做出差异化。计算摄影领域已经有多个厂商在深耕,这时需要思考:应该专注于哪些功能?如何通过这些功能脱颖而出?你可以从科研角度深入探索复杂的技术,但关键在于如何将研究成果转化为真正具有差异化优势的产品功能。掌握好这个“度”非常重要,就像做研究要知道何时停止。找到技术探索与产品落地的平衡点,知道创新应该进行到什么程度,这在我们现在的创业过程中同样适用。只要涉及创新,就需要权衡创新性与实用性之间的关系。
ZP:如何定义照片的优化方向?什么是一张好照片?是亮度、饱和度这些参数,还是给用户充分的自定义空间?不同产品会有不同选择。你们在 Adobe 做产品时遇到过类似问题吗?当时的经验对现在创业有什么影响?
Cecilia Zhang:关于好照片的定义,我的理解一直比较一致。我认为好照片包含两个层面:首先是传统三要素——构图、光线和瞬间。这是摄影基础课程都会强调的,也是专业摄影师评判照片的基本标准。“瞬间”最为关键,它决定了照片从“好”到“杰出”的差距,因为它承载着故事性。
另一方面,照片对每个人来说都非常独特,它连接着我们的记忆和真实经历,是非常个人化的,因此好照片的定义往往很主观。最重要的是一张照片能否与观看者建立强烈的情感连接,一旦有了这种连接,就已经达到了好照片的重要标准。所以既有技术层面的评判,也有故事层面的考量,这两个维度都很重要。
ZP:你们的产品为什么取名叫 Phota Labs 呢?
Cecilia Zhang:我们希望找一个好记、易发音,并且能让人一眼看出业务方向的名字,Phota 在希腊语中是“光”的意思。其实还有个有趣的点:我们现在并不确定生成的内容该如何定义,它是一张照片?还是 AI 图像?似乎都不太准确。所以我们干脆把它叫做 "Phota"。
ZP:如果用一句话介绍公司或产品,会是什么?
Cecilia Zhang:我们官网上的那句话很贴切:"Transform everyday photos into beautiful memories."
ZP:能否具体描述一下用户使用场景?是任何随手拍的照片都可以,还是预设了特定场景?在什么情况下用户会想到使用我们的产品?

Cecilia Zhang:回到之前的比喻:想象在任何场景下,你身边都有一个最会拍照的朋友或专业摄影师,他会如何拍摄这个场景?比如在公园里随手拍孩子奔跑或朋友聚会的照片。专业摄影师会考虑角度、镜头选择,以及捕捉哪个瞬间。普通人可能只顾着抓拍瞬间,不会考虑构图,甚至可能拍虚了,这就是一个典型的使用场景。
还有其他挑战性场景,比如昏暗的餐厅里拍摄家人聚餐。摄影师会如何拍摄?或者无法停下来好好构图的场景,比如我博士导师上周参加孩子的森林音乐会,作为家长他只能坐在远处,无法靠近舞台拍摄孩子拉小提琴的特写。他可以从自己的视角拍摄很多照片,或者在结束后拍摄舞台近景,但永远无法在孩子表演时拍到理想的照片,这类场景我们都能应对。应用范围其实很广,任何你觉得“如果这时有个摄影师在身边就好了”的时刻,Phota 都能发挥作用。
ZP:比如音乐会的例子,虽然地理位置无法改变,但我们会重新思考:如果是一个摄影师站在那个位置,他会如何拍摄他女儿?
Cecilia Zhang:虽然位置不变,但我们可以使用长焦镜头。实际上,从某种意义上说,通过算法我们也能改变拍摄视角。
ZP:长焦这个问题后期能解决吗?现在还有一些创业公司在做长焦镜头,用于观鸟、天文摄影等。这个问题能从算法层面解决了吗?
Cecilia Zhang:因为我们做的是场景重构,意味着我们可以重新选择拍摄位置、相机和镜头,对整个场景进行重新想象,所以我们确实能够实现非常大的视角变化。不过像天文摄影这类场景可能不太适合,比如中秋节拍月亮,这些需要科学上的精确性,不是我们擅长的领域。
ZP:第一波目标用户会是什么样的群体?是完全的摄影新手,还是有一定摄影基础的用户?
Cecilia Zhang:我们最近开始逐步向测试用户开放。目前的计划是先面向有一定摄影基础的用户,这个策略未来可能会调整。选择这个群体主要是因为产品还处于早期阶段,有很多需要改进的地方。有摄影基础的用户通常拍照较多,他们对照片应该呈现什么样子有更清晰的概念。当他们自己拍摄效果不理想或受到条件限制时,会对成片有明确的期待,我们希望现阶段的产品能够达到满足这些期待的水平。所以希望有一定摄影知识的用户能在早期阶段帮助我们完善技术。
ZP:选择这个用户群体主要是出于算法优化的考虑?
Cecilia Zhang:是的,同时这些用户很可能也是未来会深度使用我们产品的人。他们对图片质量有要求,希望将自己的照片优化到理想状态,我相信他们之后也会愿意持续使用这个产品。目前优先服务这个群体,确实有迭代算法和提升产品质量的考虑。但最终目标肯定是让摄影小白和不擅长拍照的人也能使用我们的产品,这始终是我们的终极目标。
ZP:现在市场上有许多 AI 修图和图片生成工具。你认为我们与这些工具最根本的区别是什么?以及我们希望在用户心中建立怎样的认知,用户在什么场景下会第一时间想到我们?他们脑海中浮现的第一个关键词会是什么?
Cecilia Zhang:我们一直希望 Phota 能让用户联想到“记忆”和“分享”。照片与记忆是紧密相连的,我们的目标是通过照片让每个人的记忆变得更加美好。
我们与现有工具的根本区别在于:现有工具可以分为两大类,一类是 Photoshop 和 Lightroom 这样的专业修图工具,另一类是美图秀秀这类专注于特定功能 ( 比如美颜 ) 的产品。这些工具主要是在修补照片的缺陷或增强某些方面。而 Phota 是从根本上重构场景,这是一个生成的过程。我们的生成遵循两个核心原则:身份保持和上下文理解。关键在于如何让生成的结果既真实又符合用户的记忆场景,这是我们非常独特的切入点。
ZP:“记忆”和“分享”这种感性层面的定位,以及建立情感连接,长期来看很有壁垒,但短期确实很难实现。我们打算如何在产品中体现这一点?
Cecilia Zhang:这是个很有意思的问题。直到真正接触到用户后,我才意识到这个问题的重要性。我们通过官网、视频和示例等公开信息让用户了解我们的产品,但最有意思的是当用户第一次看到自己照片的处理结果时的反应,有些人的惊讶程度让我很意外,因为他们了解了产品功能。
我逐渐意识到,当你看到认识的人的照片被重新构建,所有元素都如此熟悉却又焕然一新时,那种感受是非常独特的。从新用户的反馈中,我们能感受到那种个人情感的连接。这就是照片的力量所在,当一张照片属于你个人时,它就不仅仅是一张图片了。用户之前看到的所有示例对他们来说都只是“图片”,但当他们看到自己的记忆瞬间被重新生成,却依然保持着那个时刻的真实感时,就会产生强烈共鸣。我认为这是照片这个载体与生俱来的属性。在摄影这个领域,本身就很容易与用户建立情感连接。
ZP:目前还在内测?内测用户是如何找到的,大致是什么样的画像?有没有哪位用户或哪句评价让你印象特别深刻?
Cecilia Zhang:我们目前仍处于内测阶段,最初的内测用户主要来自我们身边的朋友和家人。最近一周我们开始逐步向外小规模开放,因为在早期我们开放了一个 Beta 申请的入口,发现还是有非常多感兴趣的人来使用。用户可以填写一份表格说明自己为什么想用这个产品,以及他们当前的一些摄影需求或期待。我们会从中筛选出一批具有一定摄影基础、对照片质量有明确需求和期待的人来作为我们的内测用户。
在这些用户中,有一位让我印象非常深刻。他曾经是一位专业的婚礼摄影师,也会在日常使用专业设备拍摄家人,但是他很少为自己照相,因为他一直觉得自己在照片里不好看,从来没有一张让他满意的照片。有一天他告诉我,用我们的产品生成的那张照片,是他第一次真心喜欢的一张自己的照片。这个反馈让我非常惊讶,也让我印象深刻。
我其实也不确定他为什么如此喜欢它,因为那张照片并不“专业”,也没有特别明显的技术优势。它之所以打动他,我猜想可能是因为我们在生成中捕捉到了某种他自己熟悉的神态,这种神态让他觉得照片中的自己“真实”。我认为这是一件非常主观、非常个人的事情。每个人对“自己希望在照片中是什么样子”的理解都不同,而这恰恰是我们希望 AI 能够更好理解的部分。
从修图到重构记忆,Phota Labs 正在重新定义摄影的 AI Pipeline
ZP:能否为我们系统地介绍一下 Phota Labs 的技术架构或核心技术管线 (Pipeline)?当一张普通照片输入后,它会经历哪些关键的处理步骤,最终生成一张“Beautiful Memory”?
Cecilia Zhang:目前的产品以单张照片为输入,但我们未来会扩展到多张照片输入,甚至多对多的形式,也就是不会仅仅局限在一张照片的功能上。整体 pipeline 可以分为两大部分:理解 (Understanding) 和生成 (Generation)。
理解就是是模型对上下文 (Context) 的把握,包括人物关系、场景内容、拍摄环境等。例如模型需要识别“谁是谁”、“这是在哪里”、“他们在做什么”。生成阶段是基于这种理解,再结合摄影学的知识,比如什么是一张好的照片、它的构图、光线、审美原则等,去生成一张既具摄影美感又能保留真实性的照片。整个系统就是由“理解+生成”两部分构成的。
技术上我们将理解与生成分开处理。理解的技术部分并不是我们自研的,主要依赖语言模型的能力,因为它涉及到语义理解和上下文推理。但这不仅仅是一个单独的模型,还包括识别 (recognition)、聚类 (clustering)、检测 (detection) 等多个环节,用来判断照片中人物身份及场景结构。这是一整套复杂的 pipeline,算法与工程结合得非常紧密。
ZP:在重构照片时,用户可能会觉得“太不像自己”或“太完美了”。你们是如何平衡“美化”与“保真”的?
Cecilia Zhang:这是一个非常重要的平衡点。我们不会让算法过度追求“更美”,我们的目标始终是保证真实性 (authenticity)。当然,如果用户觉得生成结果不符合自己的审美 ( 比如光、角度 ),我们也会提供不同摄影师风格的选项给到用户。

这些风格不是简单的滤镜,而是反映了某个真实摄影师的摄影习惯。例如,有些摄影师偏好长焦,有些偏好广角;有人喜欢低角度构图,制造戏剧感,而有人追求自然光的柔和层次。这些差异都会反映在我们提供的风格中。未来用户可以像选择摄影师一样,挑选自己喜欢的“风格”,而非一张机械修饰的照片。早期阶段我们会提供一些我们偏好的摄影师风格,但在这个过程中会去不断地了解用户以及它们真正的需求是什么,从而不断迭代和增加其他风格。
用户的选择更像是在挑选“摄影师”,而不是调整曝光、亮度这样的参数,我们希望这种交互方式更接近人与摄影师的沟通。用户不会精确描述“曝光+0.3”或“光线再暖一点”,而是表达一种感受,比如“我希望它更自然”、“我喜欢这张的氛围”。系统会像摄影师那样去理解这种主观语言,我们正在探索如何让这种“感性沟通”变得有效。
ZP:从技术角度看,“身份保留”和“风格多样性”是否是你们的主要技术难点?
Cecilia Zhang:是的。风格部分的难点主要在于“taste”,也就是审美的判断。taste 在不同的 AI 产品中的重要性也在逐渐变大,AI 可以学习风格,但如何让系统理解什么是“好看”是一个更复杂的问题。
我认为“taste”不仅是产品层面的问题,也是技术难点。我们的团队在招人时,会非常重视候选人对视觉信号或信息的敏感度。无论是工程师还是产品设计师,大家都需要具备对图像美感的判断。因为在这样一个以视觉为核心的产品中,每个环节都要处理图像信号,审美判断必须渗透到整个工程中。
一个有意思的点是,AI 在图像生成上既擅长又不擅长。它非常擅长生成高质量的图像,在不去考虑内容本身的意义之上,目前 AI 生成图像在细节、光影、构图方面往往都接近真实摄影作品。但它不擅长的是“精细化控制”,比如我想要特定角度的光、特定位置的主体,这种级别的控制目前仍是有挑战的。
不过我们的产品面向的是普通消费者,而非专业摄影师,所以并不需要提供过于复杂的参数控制,就是没有太大必要做非常精细化的控制。我们更关注如何定义和建立一个稳定的“taste”框架,“控制”的形式我们会通过提供给用户一个反馈回路 (feedback loop) 去持续改进系统的审美,而不是让用户自己进行细粒度的操作。
ZP:从技术发展的角度看,过去几年 ( 比如从 2021年到现在 ),这类技术的演变有什么重大变化?如果三年前你们想做同样的产品,是否可实现?
Cecilia Zhang:我觉得 personalization( 个性化 ) 这一步,本质上就是在学习“如何去理解一个人”。技术的进步,并不是让用户提供的信息量减少,而是让我们能更高效地利用这些信息。用户的数据输入始终是必要的,必须有一定规模,模型才能真正“认识”这个人。这一点和其他技术演进类似,是两个维度的问题。
就像人类认人一样。如果我只在视频上见过你几次,对你的面部特征有大致印象,但明天在线下咖啡馆遇到你,未必能立刻认出来,甚至会犹豫。因为人的识别能力依赖于在不同场景、状态下对他人的动态观察,才能形成稳定的认知。AI 也是一样的。它也需要一定量的信息才能建立清晰的“身份”认知。三年前可能需要 30 张图,如今依然如此。不同的是,以前模型可能要花一天来学习,现在可能很快就能完成。这体现的是模型在架构、推理速度和计算效率上的巨大进步,而对信息量的要求并未降低。
当然,这只是 identity( 身份 ) 层面的能力。除此之外,还有 context( 上下文 )、图像美感、摄影光影等维度。三年前这些要素很难同时实现,而今天,随着基础模型和架构的进步,这些能力得到了大幅提升,整体效果也上了一个台阶。
现在的视觉理解已经和语言模型的训练深度融合在一起了。也就是说,视觉模型在训练时本身就利用了语言模型的能力。由于语言模型的发展已经非常成熟,智能水平也很高,而且它所能利用的数据规模远远超过视觉模型,文字数据的体量也远胜于图像,所以语言模型在整个体系中起到非常关键的作用。
目前最优秀的视觉模型,基本都在借助自身的大语言模型来完成理解和生成任务,视觉和语言的信息在底层已经是融合的。所谓的 world knowledge( 世界知识 ),主要指的是语言模型层面能够提供的丰富信息,而这些信息也被应用到了视觉的理解和生成中。
ZP:除了静态照片,你们是否考虑过将技术延伸到动态的视频领域?在技术实现上,这会带来哪些新的、更大的挑战?
Cecilia Zhang:我们可能会首先用现在做图片的方式去尝试,因为视频和照片在底层技术上是有一定重合的,但难度并不低于照片生成。最主要的挑战在于identity consistency( 身份一致性 )。
在静态图像中,我们只需要让模型生成一张“像你”的照片;但在视频中,即使每一帧都“像你”,连在一起看可能依然“不像你”。因为人的表情、动作、笑的方式都有自己的节奏和特征,而一个人大概率不会完全像 AI 生成的那样去动。如果这些细节不对,即使外貌特征完全正确,你也会觉得那不是自己。
因此,视频生成在技术上多了一层“时间维度”的一致性问题,不是说在每一帧做到完美就可以的,需要对 identity 进行大量的研究。我们计划未来探索短视频或“动态照片”的形式,但会非常谨慎。我们目前的重点仍然是静态照片,因为这个领域还有大量空间值得深耕。
ZP:到 2030年 Phota Labs 会是一家什么样的公司?Phota Labs 的长期愿景是什么?
Cecilia Zhang:我们目前仍会专注于“照片”这一领域。到 2030年我的愿景是,无论人们使用什么设备拍照,是手机、GoPro,还是智能眼镜,他们都会好奇:“如果我把这张照片放进 Phota Labs,会变成什么样?”
换句话说,我们希望 Phota Labs 成为每个人记录生活时的“第二视角”。照片的采集方式可以多样,甚至未来输入可能是视频,但最终输出依然是一张“记忆的最美版本”的照片。这种“再看一次”的体验,就是我们想持续探索的方向。

如果 Phota Labs 能从一个十分钟的视频中帮用户挑出最美的一张照片,那会非常有价值。其实这正是我们 roadmap 上的一个方向。视频作为输入的优势在于,它提供了丰富的上下文信息。你不必刻意摆拍,而是自然记录生活。系统可以在数百帧中捕捉到那些真正能代表情绪、关系和场景的瞬间。
我们甚至设想,未来 Phota Labs 能为一次活动自动生成一组精选照片,比如旅行、婚礼、生日等场景。这比传统的一键剪辑更具意义,因为我们关注的是记忆中最值得留下的瞬间,而不是模板化的视频片段。
ZP:Phota Labs 的商业模式会是怎样的?是面向 C 端的订阅制、按次付费,还是有 B 端的合作模式?
Cecilia Zhang:我们目前仍在探索阶段,但整体方向比较明确。首先,移动端应用会采用基础功能免费,高级功能通过订阅或付费解锁。其次,我们会开放 API,服务 B 端的一些合作伙伴,尤其是涉及图像、摄影和记忆记录的产品。
我们已经收到一些来自企业的 interest,比如希望通过 Phota Labs 的“风格化 API”集成到他们自己的应用中。这部分我们正在积极对接和研究。总体来说,C 端订阅与 B 端授权会是并行的两条路线。
ZP:你们计划如何进行市场推广 (Go-to-Market) 来触达第一批核心用户?
Cecilia Zhang:我们希望先从 Beta 版本中获得足够多的用户反馈。正式发布的版本可能会与现在的内测产品有明显不同,包括输入和输出的形式、交互方式等。因此还没有具体的推广计划,而是先聚焦在产品打磨与用户验证。
ZP:你们认为潜在的竞争对手会是哪些类型的公司?传统修图软件巨头、AI 生成内容的新贵,还是手机厂商自带的相册功能?Phota Labs 的核心竞争壁垒是什么?
Cecilia Zhang:目前市场上还没有一个完全相似的产品。我们带来的是一种全新的“照片重构”方式,因此在品类上是一个category-defining product( 品类定义者 )。
我相信这种创新会逐渐改变用户的一些使用习惯,比如他们可能会因此改变拍照方式或分享方式。所以我认为未来潜在的竞争对手可能会是手机厂商,因为他们天然掌握了用户的照片入口。但相比之下,创业公司在迭代速度和用户理解深度上有优势。我们能够更快地验证想法,与用户形成持续反馈。
ZP:也有创业者希望从硬件层面切入,比如打造一个软硬一体的智能拍摄设备。你认为对于普通用户而言,纯软件的解决方案和软硬一体的方案,各自的吸引力在哪里?作为一个创业者,为什么你们坚定地选择从软件层面切入?
Cecilia Zhang:首先,从技术角度来说,我们目前想实现的功能完全可以在现有硬件上完成。手机、相机、GoPro 等设备都能满足基础采集需求,我们还有很大的空间去优化“如何用已有硬件拍出更好的照片”。因此没有必要为此制造新的设备。
第二,从产品逻辑上看,很多硬件团队希望在“拍摄 moment”解决问题,比如通过自动检测瞬间、自动转镜头、实时构图优化等方式。但那样的设备会受限于体积与形态 (form factor)。小型设备在传感器尺寸、镜头性能、光学焦段等都有局限,无法达到专业摄影的画质。而 Phota Labs 走的是“后期重构”的路线,反而绕过了这些物理限制。
最后,硬件创业的成本与节奏其实会远高于软件。我们的目标是用算法和审美去重构用户记忆,而不是进入硬件的迭代竞争。对我们而言,纯软件方案更灵活,也更符合当下用户的使用习惯。
ZP:近期公司也在招人,Phota Labs 希望吸引什么样的人加入?最看重团队成员的哪些特质?
Cecilia Zhang:我们希望找到在各自专业领域非常优秀,同时对视觉、摄影有热情的人。不要求每个人都是摄影师,但要对图像有敏感度,就是能够分辨出一张照片为什么好、为什么打动人。
我们是一个视觉驱动的团队,所以这种对“taste”的感知必须贯穿整个工作流程。无论是研究人员、工程师还是产品经理,都需要对视觉信号或信息保持敏锐。
快问快答
ZP:你的星座或 MBTI 类型?
Cecilia Zhang:我是巨蟹座,INFJ。
ZP:日常生活中,你有哪些兴趣爱好?
Cecilia Zhang:我非常喜欢电影。电影是一门视听语言的艺术,电影摄影 (cinematography) 是摄影艺术的延伸,它强调构图、光线、叙事节奏的控制。电影里的每一盏灯、每一个镜头都在为故事服务。摄影也是如此,再高级的技术,最终目的都是讲好故事本身。
我没有单一最喜欢的某部电影,但偏好故事性强的现实题材,比如《达拉斯买家俱乐部》《海边的曼彻斯特》《三块广告牌》,以及诺兰的大多数作品。我也很喜欢李安的电影。它们共同点是“讲故事讲得好”。我认为好的运镜是为故事服务的,如果你注意到“镜头很巧妙”,那说明它喧宾夺主了。
ZP:你最喜欢的 AI 产品?
Cecilia Zhang:我最近非常喜欢特斯拉的 FSD( 自动驾驶系统 )。它已经达到 garage-to-garage 几乎全自动的水平,大约 99.9%的驾驶都可以完全依赖它。作为一个长期关注科技的人,我对 FSD 的成熟度印象很深,因为它解决了真实的需求,也真正进入了“能用”的阶段。
ZP:你最常看/听的 Blog 和播客?
Cecilia Zhang:我大概会听两类播客。一类与工作有关,比如创业、科技和产品方向;另一类更偏人文和社会科学。我很喜欢一个由著名电影摄影师 Roger Deakins 和他太太共同主持的播客。他们会邀请电影行业各个工种的资深电影人,分享电影幕后创作者的视角,尤其是从摄影师的角度讲述故事中的角色,这类内容让我能从另一个角度思考“视觉表达”这件事。
友情提醒:98出海目前仅有微信群与QQ群,并无在Telegram等其他社交软件创建群,请白鲸的广大用户、合作伙伴警惕他人冒充我们,向您索要费用、骗取钱财!











