How is inference performed using a cascaded approach to generate speech from text?

https://github.com/inclusionAI/Ming/blob/480df09cae8fe4c5a06fe833f507b544e0ffa0e0/test_audio_tasks.py#L159-L161
Are you using a cascaded approach to generate the speech?

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

How is inference performed using a cascaded approach to generate speech from text? #64

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

	for tts_speech, text_list in model.talker.omni_audio_generation(
	output_text, audio_detokenizer=audio_detokenizer, thinker_reply_part=thinker_reply_part, speaker=speaker, stream=stream, **spk_input
	):

How is inference performed using a cascaded approach to generate speech from text? #64

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions