iOS应用程序!
我的一个朋友已经沉迷于过去三个月的开发了一个令人真正Impressive的东西。他是那些“深度工程”的类型,不在Reddit注册账户,但由于我一直在测试他的程序,并且在真正为长途通勤节省了我的自我,所以我告诉他我会在这里分享它,希望从社区获得一些反馈。
它被称为LoudReader。它是一款Neural TTS (Text-to-Speech)应用,完全在你的iPhone上运行—没有账号,设备上没有数据离开,和一个月的定价。
他自己的说法:
目标:Airplane 模式下“Kindle for Ears”
我不想上传我的图书馆到第三方云或使用移动数据进行语音合成,以及我经常无法在飞机上播放我的播客,所以我在周末上班时让 Kokoro TTS 运行本地。
这种方式可以让它在 essay,文章和书中发出高质量的神经语言。安装后,您可以完全断网。
为什么它比我想的困难:
展示一个模型可以读出一句句子,是一个demo;做一个产品是一个工程上的研磨。
- 流式传输的斗争:Kokoro不本机流式传输。对于阅读应用程序,等待一个小组段后播放前的等待就不行了。因此,我建立了一个自定义的层,分割了“Goldilocks”窗口——长度足以自然吐槽短得足以启动播放几乎立即。
- “Cruise 模式”策略:为了节省电池,我建立了一种前向呈现未来的部分,而智能手机充电时。在屏幕关闭时,您可以切换重型神经引擎为轻量级硬件解析AAC播放器。
- CoreML & 神经引擎:我发现强制实现
.cpuAndNeuralEngine实际上比.cpuAndGPU慢,很可能是分区开支。这里的CoreML专家如果有一个有原则的解释,我将欢迎您。 - iPhone 12 mini 神秘现象:在旧硬件和模拟器上,延伸性会有破裂的音调,尽管它完美地在我的14 Pro上工作。作为修复,我将 KittenTTS 别名为更轻的替代方案。
内部内容:
- EPUB/PDF 导入:(尽管 PDF 仍然是我的劲敌,关于这个话题的更多详细信息见下文)。
- Project Gutenberg:直接浏览和下载经典选项。
- Saved Articles 缓冲队列:很适合追上长篇大论的网站内容。
- 开源fallback:我开放源码的.iOS 端口,所以其他人都有时可以看到,在没有额外负担下跑一款神经模型的方法:github.com/pepinu/KittenTTS-iOS
我需要您的帮助:
- PDF 解析器:学术论文以及两列layout和方程式仍然有混乱。有人在此处推送了一款可以在本机设备上解析复杂布局的PDF解析器吗?
- UI/UX 反馈:由技能的后端/机器学习工作者,我有第一次设计的用户界面。想要知道您对工作流的看法。
我在还没有在我的iPhone上得到这个移动优化之前,大部分时间上车都把MacBook放在挎背上,我在车里为你的 MacBook。它非常不便,但是使我牢记完成。
我将在以下评论(通过我的朋友)回答所有技术问题!
评论 (0)