Publications | Masaya Kawamura

川村真也, 蓮実拓也, 白旗悠真, 山本龍一 (2025). BitTTS: 1.58-bit 量子化と重みインデキシングによる軽量なテキスト音声合成. 日本音響学会 2025年秋季研究発表会.

寺島涼, 白旗悠真, 川村真也 (2025). SLASH: 信号処理と自己教師あり学習を組み合わせた基本周波数推定法. 日本音響学会 2025年秋季研究発表会.

Ryo Terashima, Yuma Shirahata, Masaya Kawamura (2025). SLASH: Self-Supervised Speech Pitch Estimation Leveraging DSP-derived Absolute Pitch. In Proc. Interspeech 2025.

PDF arXiv

Reo Yoneyama, Masaya Kawamura, Ryo Terashima, Ryuichi Yamamoto, Tomoki Toda (2025). Comparative Analysis of Fast and High-Fidelity Neural Vocoders for Low-Latency Streaming Synthesis in Resource-Constrained Environments. In Proc. Interspeech 2025.

PDF arXiv

Masaya Kawamura, Takuya Hasumi, Yuma Shirahata, Ryuichi Yamamoto (2025). BitTTS: Highly Compact Text-to-Speech Using 1.58-bit Quantization and Weight Indexing. In Proc. Interspeech 2025.

PDF arXiv Demo

Ryuichi Yamamoto, Yuma Shirahata, Masaya Kawamura, Kentaro Tachibana (2025). Description-based Controllable Text-to-Speech with Cross-Lingual Voice Control. In Proc. ICASSP2025.

PDF arXiv Demo

Masaya Kawamura, Ryuichi Yamamoto, Yuma Shirahata, Takuya Hasumi, Kentaro Tachibana (2024). LibriTTS-P: A Corpus with Speaking Style and Speaker Identity Prompts for Text-to-Speech and Style Captioning. In Proc. Interspeech 2024.

PDF Code arXiv Demo

Reo Shimizu, Ryuichi Yamamoto, Masaya Kawamura, Yuma Shirahata, Hironori Doi, Tatsuya Komatsu, Kentaro Tachibana (2023). PromptTTS++: Controlling Speaker Identity in Prompt-Based Text-to-Speech Using Natural Language Descriptions. In Proc. ICASSP2024.

PDF arXiv Demo Code HuggingFace Demo

Masaya Kawamura, Yuma Shirahata, Ryuichi Yamamoto, Kentaro Tachibana (2023). Lightweight and High-Fidelity End-to-End Text-to-Speech with Multi-Band Generation and Inverse Short-Time Fourier Transform. In Proc. ICASSP2023.

PDF Code arXiv Demo

川村真也, 中村友彦, 高宗典玄, 北村大地, 猿渡洋, 高橋祐, 近藤多伸 (2022). 混合Differentiable Digital Signal Processingモデルによる合成パラメータ抽出のためのラウドネスの時間変動に基づくロス関数の設計. 日本音響学会 2022年秋季研究発表会.